เหล็กขนาดใหญ่, ตอบสนองข้อมูลขนาดใหญ่: ปลดปล่อยข้อมูลเมนเฟรมด้วย hadoop และ spark

2025

โดย Techopedia Staff วันที่ 2 มิถุนายน 2016

Takeaway: ระบบนิเวศ Hadoop ถูกใช้บนเมนเฟรมเพื่อประมวลผลข้อมูลขนาดใหญ่อย่างรวดเร็วและมีประสิทธิภาพ

คุณยังไม่ได้เข้าสู่ระบบโปรดเข้าสู่ระบบหรือลงทะเบียนเพื่อดูวิดีโอ

Eric Kavanagh: ผู้หญิงและสุภาพบุรุษโอเคมันเป็นเวลาสี่โมงเช้าของวันพฤหัสและวันนี้ก็หมายถึงเวลาที่แน่นอนสำหรับเทคโนโลยีสุดฮอต ใช่แล้วฉันชื่อเอริคคาวานาค ฉันจะเป็นผู้ดูแลของคุณสำหรับการสัมมนาทางเว็บในวันนี้ มันเป็นเรื่องที่ดีหลาย ๆ คน“ บิ๊กเหล็กพบกับดาต้าบิ๊กดาต้า” - ฉันรักพาดหัวนั้น -“ ปลดปล่อยเมนเฟรมข้อมูลกับ Hadoop และ Spark” เรากำลังพูดถึงการพบปะกันครั้งใหม่ ว้าว! เราครอบคลุมทุกสิ่งที่เราได้พูดคุยในช่วง 50 ปีที่ผ่านมาขององค์กรด้านไอที Spark ตรงตามเมนเฟรมฉันรักมัน

มีจุดที่เกี่ยวกับคุณอย่างแท้จริงและเพียงพอเกี่ยวกับฉัน ปีนี้ร้อนจัด เราพูดคุยเกี่ยวกับหัวข้อยอดนิยมในซีรีย์นี้เพราะเราพยายามช่วยให้ผู้คนเข้าใจถึงระเบียบวินัยที่แน่นอน ยกตัวอย่างเช่นการมีแพลตฟอร์มการวิเคราะห์หมายความว่าอย่างไร การปลดปล่อยข้อมูลขนาดใหญ่จากเมนเฟรมหมายความว่าอย่างไร สิ่งนี้หมายความว่าอย่างไร เรากำลังพยายามช่วยให้คุณเข้าใจเทคโนโลยีเฉพาะที่พวกเขาเหมาะสมกับการผสมผสานและวิธีการใช้ประโยชน์จากพวกเขา

เรามีนักวิเคราะห์สองคนในวันนี้และแน่นอนTendüYogurtçuแห่ง Syncsort เธอมีวิสัยทัศน์ในอวกาศของเรายินดีเป็นอย่างยิ่งที่จะมีเธอออนไลน์ในวันนี้พร้อมกับ Dez Blanchfield และ Dr. Robin Bloor ของเราเอง ฉันจะพูดแค่สองสามคำด่วน หนึ่งในนั้นคือผู้คนคุณมีบทบาทสำคัญในกระบวนการนี้ดังนั้นโปรดอย่าอายที่จะถามคำถามที่ดี เราต้องการไปหาพวกเขาในช่วงถามตอบของเว็บคาสต์ซึ่งโดยปกติจะเป็นตอนท้ายของการแสดง และทั้งหมดที่ฉันต้องบอกก็คือเรามีเนื้อหาที่ดีมากมายดังนั้นฉันจึงตื่นเต้นที่จะได้ยินสิ่งที่เด็กผู้ชายเหล่านี้พูด และด้วยสิ่งนั้นฉันจะมอบมันให้กับ Dez Blanchfield Dez พื้นเป็นของคุณเอามันออกไป

Dez Blanchfield: ขอบคุณ Eric และขอบคุณทุกคนที่เข้าร่วมวันนี้ ดังนั้นฉันจึงรู้สึกตื่นเต้นมากเมื่อฉันมีโอกาสพูดคุยเกี่ยวกับหนึ่งในสิ่งที่ฉันโปรดปรานในโลกคือเฟรมหลัก วันนี้พวกเขาไม่ได้รักมากนัก มุมมองของฉันคือเมนเฟรมเดิมเป็นแพลตฟอร์มข้อมูลขนาดใหญ่ บางคนแย้งว่าพวกเขาเป็นคอมพิวเตอร์เพียงเครื่องเดียวในเวลานั้นและเป็นจุดที่ควรทำ แต่เป็นเวลากว่า 60 ปีแล้วที่พวกเขาเป็นห้องเครื่องจริง ๆ ว่าข้อมูลขนาดใหญ่ที่ได้รับความนิยมในช่วงปลายปีเป็นอย่างไร และฉันจะพาคุณไปเที่ยวเล็ก ๆ น้อย ๆ ว่าทำไมฉันถึงเชื่อว่าเป็นอย่างนั้น

เราได้เห็นการเดินทางในฮาร์ดแวร์เทคโนโลยีกองซ้อนในบริบทของเมนเฟรมเปลี่ยนจากภาพที่คุณเห็นบนหน้าจอตอนนี้ นี่เป็นเมนเฟรมเก่าของ FACOM ซึ่งเป็นหนึ่งในรายการโปรดของฉัน เราย้ายตัวเราเข้าสู่ยุคเหล็กขนาดใหญ่ยุคปลายและยุคดอทคอม นี่คือ Sun Microsystems E10000 สิ่งนี้เป็นสัตว์ประหลาดแน่นอนที่ 96 CPU เดิม 64 แต่สามารถอัพเกรดได้ที่ 96 ซีพียู CPU แต่ละตัวสามารถรัน 1, 024 เธรด แต่ละเธรดอาจมีอัตราแอปพลิเคชันพร้อมกัน มันเป็นเรื่องที่น่าประหลาดใจมากและมันเป็นพลังขับเคลื่อนดอทคอม นี่คือยูนิคอร์นขนาดใหญ่ทั้งหมดที่เราเรียกพวกเขาตอนนี้เรากำลังทำงานไม่ใช่แค่องค์กรขนาดใหญ่บางเว็บไซต์ขนาดใหญ่

จากนั้นเราก็ลงเอยด้วยโมเดลพีซีชุดสินค้าทั่วไป เราเพิ่งรวมเครื่องจักรราคาถูกจำนวนมากเข้าด้วยกันและเราสร้างกลุ่มและเราเข้าหาความท้าทายที่ยิ่งใหญ่และสิ่งที่กลายเป็นข้อมูลขนาดใหญ่โดยเฉพาะอย่างยิ่งในรูปแบบของโครงการ Hadoop ที่เกิดจากเครื่องมือค้นหาโอเพ่นซอร์ส Nutch และเราก็สร้างเมนเฟรมและซีพียูจำนวนน้อยจำนวนมากที่ถูกจับเข้าด้วยกันและสามารถทำตัวเหมือน L-path และในรูปแบบของการแยกงานหรือส่วนต่าง ๆ ของงานและพวกมันค่อนข้างมีประสิทธิภาพในหลาย ๆ ด้าน ถูกกว่าถ้าคุณเริ่มมีขนาดเล็กลง แต่กลุ่มใหญ่เหล่านี้จำนวนมากมีราคาแพงกว่าเมนเฟรม

มุมมองของฉันเกี่ยวกับสิ่งเหล่านี้คือจากการที่ดอตคอมเข้าสู่สิ่งที่เป็น Web 2.0 และตอนนี้ไล่ล่ายูนิคอร์นเราลืมไปแล้วว่ามีแพลตฟอร์มนี้ที่ยังคงให้พลังกับระบบที่สำคัญที่สุดสำหรับภารกิจสำคัญของเรา เมื่อเราคิดถึงสิ่งที่กำลังทำงานบนแพลตฟอร์มเมนเฟรม มันเป็นข้อมูลขนาดใหญ่มากโดยเฉพาะอย่างยิ่งข้อมูลที่ทำงานหนัก แต่ข้อมูลขนาดใหญ่อย่างแน่นอน องค์กรแบบดั้งเดิมและระบบของรัฐบาลเช่นการธนาคารและการบริหารความมั่งคั่งและการประกันภัยโดยเฉพาะอย่างยิ่งเราทุกคนใช้ทุกวัน

ระบบการจองตั๋วเครื่องบินและการจัดการเที่ยวบินโดยเฉพาะการจัดการเที่ยวบินที่มีความสำคัญต่อเวลาจริง เกือบทุกรัฐและรัฐบาลกลางในบางครั้งมีเมนเฟรมและคงเส้นคงวาหลายคนยังคงมีพวกเขา ค้าปลีกและการผลิต ซอฟต์แวร์เก่าบางตัวที่เพิ่งได้รับและไม่เคยหายไปไหน เพิ่งจะดำเนินการต่อไปสู่สภาพแวดล้อมการผลิตพลังงานและค้าปลีกในระดับแน่นอน ระบบการแพทย์ ระบบป้องกันระบบป้องกันแน่นอน

สองสามสัปดาห์ที่ผ่านมานี้ฉันได้อ่านบทความมากมายเกี่ยวกับความจริงที่ว่าระบบควบคุมขีปนาวุธบางส่วนยังคงทำงานบนเมนเฟรมเก่าที่พวกเขากำลังดิ้นรนเพื่อหาชิ้นส่วน พวกเขากำลังหาวิธีอัปเกรดเป็นเมนเฟรมใหม่ ระบบขนส่งและโลจิสติกส์ สิ่งเหล่านี้อาจไม่เหมือนหัวข้อเซ็กซี่ แต่เป็นหัวข้อที่เราจัดการในชีวิตประจำวันข้ามเส้น และสภาพแวดล้อมการสื่อสารโทรคมนาคมขนาดใหญ่บางส่วนยังคงทำงานบนแพลตฟอร์มเมนเฟรม

เมื่อคุณคิดเกี่ยวกับประเภทของข้อมูลที่อยู่ในนั้นพวกเขาทั้งหมดมีภารกิจที่สำคัญ เป็นแพลตฟอร์มและแพลตฟอร์มที่สำคัญจริง ๆ ที่เราให้สิทธิ์ทุกวันและในหลาย ๆ ด้านทำให้ชีวิตเป็นไปได้ ดังนั้นใครยังคงใช้เมนเฟรมและใครคือคนเหล่านี้ที่ยึดมั่นในแพลตฟอร์มใหญ่เหล่านี้และเก็บข้อมูลทั้งหมดนี้ อย่างที่ฉันพูดไว้ที่นี่ฉันเชื่อว่ามันง่ายที่จะถูกหลอกโดยการเปลี่ยนสื่อจากเหล็กขนาดใหญ่ไปสู่ชั้นวางของกลุ่มแบบปิดชั้นวางทั่วไปหรือพีซีราคาถูกหรือเครื่อง x86 โดยคิดว่าเมนเฟรมเสียชีวิตแล้วก็หายไป แต่ข้อมูลบอกว่าเมนเฟรมไม่เคยหายไปไหนและจริงๆแล้วมันอยู่ที่นี่

การวิจัยที่ฉันรวบรวมไว้ที่นี่ในสองสามสัปดาห์ที่ผ่านมาแสดงให้เห็นว่า 70 เปอร์เซ็นต์ขององค์กรโดยเฉพาะองค์กรขนาดใหญ่ยังคงมีข้อมูลอยู่ในเมนเฟรมของบางรูปแบบ ร้อยละเจ็ดสิบเอ็ดของ Fortune 500 ยังคงใช้ระบบธุรกิจหลักในเมนเฟรมที่ไหนซักแห่ง ในความเป็นจริงที่นี่ในออสเตรเลียเรามีหลายองค์กรที่มีศูนย์ข้อมูลในใจกลางเมือง มันเป็นคอมพิวเตอร์ใต้ดินจริงอย่างมีประสิทธิภาพและจำนวนของเมนเฟรมที่ทำงานอยู่ที่นั่นฟ้องและทำหน้าที่อย่างมีความสุข และมีคนน้อยมากที่รู้ว่าการเดินไปรอบ ๆ ถนนอยู่ใต้เท้าของพวกเขาในส่วนใดส่วนหนึ่งของเมืองมีศูนย์ข้อมูลขนาดใหญ่ที่เต็มไปด้วยเฟรมหลัก เก้าสิบสองจาก 100 ของธนาคารทั่วโลกซึ่งเป็น 100 ธนาคารชั้นนำที่ยังคงใช้ระบบธนาคารในเมนเฟรม ยี่สิบสามใน 25 เครือข่ายค้าปลีกทั่วโลกใช้เมนเฟรมเพื่อยังคงใช้ระบบการจัดการการค้าปลีกในแพลตฟอร์ม EIP และ BI

น่าสนใจพอ 10 จาก 10 บริษัท ประกันภัยชั้นนำยังคงใช้งานแพลตฟอร์มของพวกเขาบนเมนเฟรมและพวกเขาจริง ๆ แล้วขับเคลื่อนบริการคลาวด์ของพวกเขาบนเมนเฟรม หากคุณใช้เว็บอินเทอร์เฟซหรือแอพมือถือที่ไหนสักแห่งที่มีมิดเดิลแวร์เป็นอินเทอร์เฟซนั่นคือพูดคุยกับบางสิ่งที่หนักและใหญ่ที่ด้านหลัง

ฉันพบหน่วยงานของรัฐและรัฐบาลท้องถิ่นกว่า 225 แห่งทั่วโลกที่ทำงานบนแพลตฟอร์มเมนเฟรม ฉันแน่ใจว่ามีเหตุผลมากมาย บางทีพวกเขาอาจไม่มีงบประมาณในการพิจารณาเหล็กแผ่นใหม่ แต่นั่นเป็นพื้นที่ขนาดใหญ่ของสภาพแวดล้อมขนาดใหญ่ที่ทำงานบนเมนเฟรมพร้อมกับข้อมูลที่สำคัญมาก และอย่างที่ฉันได้กล่าวไปแล้วก่อนหน้านี้ประเทศส่วนใหญ่ยังคงใช้ระบบการป้องกันที่สำคัญในเมนเฟรม ฉันแน่ใจว่าในหลาย ๆ วิธีที่พวกเขากำลังพยายามที่จะลงที่นั่น แต่ที่นั่นคุณไป

ในปี 2558 ไอดีซีได้ทำการสำรวจและซีไอโอกว่า 350 จากการสำรวจรายงานว่าพวกเขายังคงเป็นเจ้าของและจัดการเหล็กขนาดใหญ่ในรูปแบบของเมนเฟรม และมันทำให้ฉันรู้สึกว่ามีแนวโน้มว่ามันเป็นมากกว่ากลุ่มคลัสเตอร์ Hadoop ขนาดใหญ่ที่กำลังทำงานอยู่ทั่วโลกในการผลิต - สถิติเล็ก ๆ น้อย ๆ ที่น่าสนใจที่นั่น ฉันจะไปข้างหน้าและตรวจสอบว่า แต่มันเป็นจำนวนมาก ซีไอโอสามร้อยห้าสิบรายงานว่าพวกเขายังคงมีเมนเฟรมอย่างน้อยหนึ่งเฟรมอยู่ในการผลิต

ปีที่แล้ว 2558 ไอบีเอ็มมอบ Z13 อันยิ่งใหญ่ซึ่งเป็นการทำซ้ำครั้งที่ 13 ของแพลตฟอร์มเมนเฟรมของพวกเขา สื่อเริ่มคลั่งไคล้เกี่ยวกับเรื่องนี้เพราะพวกเขารู้สึกประหลาดใจที่ไอบีเอ็มยังคงทำเมนเฟรมอยู่ เมื่อพวกเขายกฝากระโปรงขึ้นและดูสิ่งที่อยู่ภายใต้สิ่งที่พวกเขาตระหนักว่ามันเป็นจริงเสมอกับเกือบทุกแพลตฟอร์มที่ทันสมัยที่เราได้รับความตื่นเต้นเกี่ยวกับในรูปแบบของข้อมูลขนาดใหญ่ Hadoop และกลุ่มแน่นอน สิ่งนี้วิ่ง Spark และตอนนี้ Hadoop โดยกำเนิด คุณสามารถใช้งานเครื่องลีนุกซ์หลายพันเครื่องได้และรู้สึกเหมือนคลัสเตอร์อื่น ๆ มันเป็นเครื่องจักรที่น่าประหลาดใจทีเดียว

มีองค์กรจำนวนหนึ่งหยิบสิ่งเหล่านี้ขึ้นมาและในความเป็นจริงฉันได้ข้อมูลบางอย่างเกี่ยวกับจำนวนเครื่องที่ใช้ ตอนนี้ฉันมีความเห็นว่าเทอร์มินัลข้อความ 3270 ถูกแทนที่ด้วยเว็บเบราว์เซอร์และแอพมือถือเป็นระยะเวลาหนึ่งและมีข้อมูลมากมายที่สนับสนุน ฉันคิดว่าตอนนี้เรากำลังเข้าสู่ยุคที่เราได้ตระหนักว่าเฟรมหลักเหล่านี้จะไม่หายไปและมีข้อมูลจำนวนมากอยู่ ดังนั้นสิ่งที่เรากำลังทำอยู่ตอนนี้ก็คือการเพิ่มสิ่งที่ฉันเรียกว่าเครื่องมือการวิเคราะห์แบบ off-the-shelf แอปเหล่านี้ไม่ใช่แอพที่สร้างขึ้นเอง สิ่งเหล่านี้เป็นสิ่งที่เกิดขึ้นครั้งเดียว สิ่งเหล่านี้คือสิ่งที่คุณสามารถซื้อได้ในกล่องแบบแพคเกจแล้วเสียบเข้ากับเมนเฟรมของคุณและทำการวิเคราะห์

อย่างที่ฉันพูดไปก่อนหน้านี้เมนเฟรมอยู่ในความเป็นจริงมานานกว่า 60 ปีแล้ว เมื่อเราคิดว่านั่นคือระยะเวลานานกว่าอาชีพส่วนใหญ่ของผู้เชี่ยวชาญด้านไอทีที่มีอยู่จริง และในความเป็นจริงอาจมีชีวิตของพวกเขาแม้กระทั่ง ในปี 2002 ไอบีเอ็มขาย 2, 300 mainframes ในปี 2013 ที่เติบโตเป็น 2, 700 mainframes นั่นคือยอดขายเมนเฟรม 2, 700 รายการในหนึ่งปีในปี 2556 ฉันไม่สามารถรับข้อมูลที่แม่นยำในปี 2558 แต่ฉันคิดว่ามันใกล้เคียงกับ 3, 000 ยูนิตที่ขายต่อปีในปี 2558 ปี 2556 และฉันหวังว่าจะสามารถยืนยันได้

ด้วยการเปิดตัว Z13 การทำซ้ำครั้งที่ 13 ของแพลตฟอร์มเมนเฟรมซึ่งฉันคิดว่าราคาประมาณ 1.2 หรือ 1.3 พันล้านดอลลาร์เพื่อการพัฒนาตั้งแต่เริ่มต้น IBM คือนี่คือเครื่องจักรที่มีลักษณะและความรู้สึกเหมือนกับคลัสเตอร์อื่น ๆ ที่ เรามีวันนี้และกำเนิด Hadoop และ Spark และสามารถเชื่อมต่อกับจากการวิเคราะห์อื่น ๆ และเครื่องมือข้อมูลขนาดใหญ่หรือเชื่อมต่อกับกลุ่ม Hadoop ใหม่หรือที่มีอยู่เดิมอย่างสม่ำเสมอ ฉันมีมุมมองนี้ที่รวมถึงแพลตฟอร์มเมนเฟรมในกลยุทธ์ข้อมูลขนาดใหญ่ของคุณเป็นสิ่งจำเป็น เห็นได้ชัดว่าถ้าคุณมีหนึ่งคุณมีข้อมูลจำนวนมากและคุณต้องการที่จะหาวิธีที่จะได้รับมันออกมี และพวกเขาก็ถูกทิ้งให้รวบรวมฝุ่นในหลาย ๆ ด้านทั้งทางจิตใจและอารมณ์เท่าที่โลกธุรกิจดำเนินไป แต่พวกเขาอยู่ที่นี่

การเชื่อมต่อและอินเทอร์เฟซสำหรับเครื่องมือวิเคราะห์ทั้งหมดของคุณไปยังข้อมูลที่โฮสต์บนเมนเฟรมควรเป็นส่วนสำคัญขององค์กรของคุณและโดยเฉพาะอย่างยิ่งแผนข้อมูลขนาดใหญ่ของรัฐบาล และตอนนี้ซอฟต์แวร์กำลังสังเกตเห็นพวกเขามองดูพวกเขาในระยะยาวและตระหนักถึงสิ่งที่อยู่ภายในสิ่งเหล่านี้และการเชื่อมโยงจิตใจที่เริ่มรับความเข้าใจลึกซึ้งและรู้สึกถึงสิ่งที่อยู่ภายใต้ประทุน และด้วยการที่ฉันจะส่งมอบให้เพื่อนร่วมงานที่รักของฉันดร. โรบินบลอร์และเขาจะเพิ่มการเดินทางเล็กน้อยนั้น โรบินพามันออกไป

Robin Bloor: ขอบคุณมาก เอาล่ะดีตั้งแต่ Dez ร้องเพลงของเมนเฟรมฉันจะเข้าไปในสิ่งที่ฉันคิดว่าเกิดขึ้นในแง่ของโลกเมนเฟรมเก่าและโลก Hadoop ใหม่ ฉันเดาว่าคำถามใหญ่นี่คือคุณจะจัดการข้อมูลทั้งหมดได้อย่างไร ไม่ใช่ความคิดเห็นของฉันว่าเมนเฟรมกำลังถูกท้าทายในแง่ของความสามารถของข้อมูลขนาดใหญ่ - ความสามารถของข้อมูลขนาดใหญ่นั้นยิ่งใหญ่อย่างที่ Dez ได้ชี้ให้เห็นมันมีความสามารถอย่างมาก ในความเป็นจริงคุณสามารถใส่ Hadoop ได้ สิ่งที่มันถูกท้าทายอยู่ในแง่ของระบบนิเวศน์และฉันจะอธิบายอย่างละเอียดเกี่ยวกับเรื่องนั้น

นี่คือการวางตำแหน่งเมนเฟรมบางส่วน มันมีค่าใช้จ่ายในการเข้าสูงและสิ่งที่เกิดขึ้นจริงในอดีตตั้งแต่กลางทศวรรษที่ 90 เมื่อความนิยมของเมนเฟรมเริ่มเสื่อมลงมีแนวโน้มที่จะสูญเสียจุดต่ำสุดไปแล้วคนเหล่านั้นที่ซื้อเมนเฟรมราคาถูกและไม่เคย เศรษฐกิจโดยเฉพาะอย่างยิ่งสำหรับคนเหล่านั้น แต่สูงขึ้นจริง ๆ ในช่วงกลางและระดับสูงของเมนเฟรมที่มันยังคงเป็นจริงและแสดงให้เห็นว่าจริง ๆ แล้วการคำนวณราคาไม่แพงอย่างไม่น่าเชื่อ

จะต้องมีการกล่าวโดยได้รับการช่วยเหลือจากลีนุกซ์เพราะลีนุกซ์ได้ติดตั้งบนเมนเฟรมทำให้สามารถเรียกใช้แอพพลิเคชั่น Linux ได้ทั้งหมด มีแอพพลิเคชั่นลีนุกซ์จำนวนมากไปที่นั่นก่อนที่ข้อมูลขนาดใหญ่จะเป็นแม้แต่คำ, หรือสองคำที่ฉันคิดว่า จริงๆแล้วมันเป็นแพลตฟอร์มที่ยอดเยี่ยมพอสมควรสำหรับคลาวด์ส่วนตัว เพราะการที่มันสามารถมีส่วนร่วมในการปรับใช้ระบบคลาวด์ไฮบริด หนึ่งในปัญหาคือทักษะเมนเฟรมขาดตลาด ทักษะของเมนเฟรมที่มีอยู่จริง ๆ แล้วในความรู้สึกที่ว่าผู้คนออกจากอุตสาหกรรมเพื่อการเกษียณทุกปีและพวกเขาเพียงแค่ถูกแทนที่ด้วยจำนวนคนเท่านั้น นั่นคือปัญหา แต่มันก็ยังเป็นคอมพิวเตอร์ราคาไม่แพง

พื้นที่ที่ถูกท้าทายแน่นอนคือสิ่ง Hadoop ทั้งหมด นั่นคือภาพของดั๊กคัตติ้งด้วยช้าง Hadoop ดั้งเดิม ระบบนิเวศ Hadoop คือ - และมันจะยังคงอยู่ - ระบบนิเวศของข้อมูลขนาดใหญ่ที่โดดเด่น มันมีขนาดที่ดีกว่าเมนเฟรมที่สามารถบรรลุได้จริงและมีค่าใช้จ่ายต่ำกว่าในการจัดเก็บข้อมูลในระยะยาว ระบบนิเวศ Hadoop มีการพัฒนา วิธีที่ดีที่สุดในการคิดเกี่ยวกับสิ่งนี้คือครั้งหนึ่งเคยเป็นแพลตฟอร์มฮาร์ดแวร์เฉพาะและสภาพแวดล้อมการทำงานที่มีความโดดเด่นจากนั้นระบบนิเวศก็มีชีวิตขึ้นมา และนั่นก็เกิดขึ้นกับเมนเฟรมของไอบีเอ็ม ต่อมาเกิดขึ้นกับ Digital VAX เกิดขึ้นกับเซิร์ฟเวอร์ของ Sun เกิดขึ้นกับ Windows เกิดขึ้นกับ Linux

และสิ่งที่เกิดขึ้นคือ Hadoop ซึ่งฉันมักจะนึกถึงหรือชอบคิดว่าเป็นสภาพแวดล้อมแบบกระจายสำหรับข้อมูลระบบนิเวศกำลังพัฒนาในอัตราที่เหลือเชื่อ ฉันหมายถึงถ้าคุณพูดถึงผลงานที่น่าประทับใจหลายอย่างที่เป็นโอเพ่นซอร์ส, Spark, Flink, Kafka, Presto และจากนั้นคุณเพิ่มเข้าไปในฐานข้อมูลบางส่วนความสามารถ NoSQL และ SQL ที่ตอนนี้กำลังนั่งอยู่บน Hadoop Hadoop เป็นระบบนิเวศที่ใช้งานมากที่สุดที่มีอยู่จริงในการประมวลผลขององค์กร แต่ถ้าคุณต้องการที่จะถือเป็นฐานข้อมูลมันก็ไม่ได้มีการเปรียบเทียบใด ๆ กับสิ่งที่ฉันคิดว่าเป็นฐานข้อมูลจริงโดยเฉพาะในพื้นที่คลังข้อมูล และนั่นอธิบายความสำเร็จของฐานข้อมูล NoSQL จำนวนมากที่ไม่ได้ทำงานบน Hadoop เช่น CouchDB และอื่น ๆ

ในฐานะทะเลสาบข้อมูลมันมีระบบนิเวศที่สมบูรณ์กว่าแพลตฟอร์มอื่น ๆ และมันจะไม่ถูกแทนที่จากสิ่งนั้น ระบบนิเวศของมันไม่ได้เป็นเพียงระบบนิเวศแบบโอเพ่นซอร์ส ขณะนี้มีสมาชิกซอฟต์แวร์จำนวนมากที่มีผลิตภัณฑ์ที่สร้างขึ้นเพื่อ Hadoop หรือนำเข้ามายัง Hadoop และพวกเขาเพิ่งสร้างระบบนิเวศที่ไม่มีสิ่งใดที่สามารถแข่งขันได้ในแง่ของความกว้าง และนั่นหมายความว่าจริงๆแล้วมันเป็นแพลตฟอร์มสำหรับนวัตกรรมข้อมูลขนาดใหญ่ แต่ในความคิดของฉันมันยังไม่บรรลุนิติภาวะและเราอาจมีการพูดคุยกันนานเกี่ยวกับสิ่งที่เป็นและไม่สมมติว่าเป็นผู้ใหญ่ที่มีการใช้งานกับ Hadoop แต่ฉันคิดว่าคนส่วนใหญ่ที่กำลังมองหาพื้นที่นี้โดยเฉพาะ ในแง่ของความสามารถในการดำเนินงาน

ทะเลสาบข้อมูลที่กำลังพัฒนา Data Lake เป็นแพลตฟอร์มโดยนิยามใด ๆ และถ้าคุณคิดว่ามีชั้นข้อมูลในการคำนวณขององค์กรตอนนี้มันง่ายมากที่จะคิดในแง่ของฐานข้อมูลคงที่บวกกับ Data Lake ประกอบชั้นข้อมูล แอปพลิเคชั่นดาต้าเลกนั้นมีมากมายและหลากหลาย ฉันมีไดอะแกรมที่นี่ซึ่งเพิ่งผ่านข้อมูลต่าง ๆ ที่มีการถกเถียงสิ่งที่ต้องทำถ้าคุณใช้ Hadoop เป็นพื้นที่จัดแสดงหรือ Hadoop และ Spark เป็นพื้นที่จัดเตรียม และคุณมีทุกอย่าง - สายดาต้า, การล้างข้อมูล, การจัดการเมทาดาทา, การค้นพบเมทาดาทา - มันสามารถใช้กับ ETL ได้เอง แต่บ่อยครั้งที่ต้องการให้ ETL นำข้อมูลเข้ามาการจัดการข้อมูลหลัก, คำจำกัดความทางธุรกิจ สิ่งที่เกิดขึ้นใน Hadoop การจัดการวงจรข้อมูลและ ETL จาก Hadoop และคุณยังมีแอปพลิเคชันการวิเคราะห์โดยตรงที่คุณสามารถเรียกใช้บน Hadoop

และนั่นเป็นสาเหตุที่ว่าทำไมมันถึงมีประสิทธิภาพมากและมีการนำไปใช้และนำไปใช้อย่างประสบความสำเร็จโดยปกติจะมีคอลเลกชันของแอปพลิเคชันประเภทนี้ที่ทำงานอยู่ด้านบน และแอพพลิเคชั่นเหล่านั้นส่วนใหญ่โดยเฉพาะแอพพลิเคชั่นที่ฉันได้รับฟังการบรรยายสรุปเกี่ยวกับแอพพลิเคชั่นเหล่านี้ยังไม่สามารถใช้ได้ แต่คุณสามารถรันมันบนเมนเฟรมบนคลัสเตอร์ Hadoop ที่รันในพาร์ติชันของเมนเฟรม

ดาต้าเลคกำลังกลายเป็นพื้นที่จัดเตรียมตามธรรมชาติสำหรับการวิเคราะห์ฐานข้อมูลที่รวดเร็วและสำหรับ BI มันจะกลายเป็นสถานที่ที่คุณรับข้อมูลไม่ว่าจะเป็นข้อมูลองค์กรหรือข้อมูลภายนอกยุ่งกับมันจนกว่ามันจะบอกว่าสะอาดพอที่จะใช้และมีโครงสร้างที่จะใช้แล้วคุณผ่านมัน และทั้งหมดนี้ยังอยู่ในช่วงเริ่มต้น

ในความคิดของฉันเมนเฟรม / Hadoop อยู่ร่วมกันสิ่งแรกคือ บริษัท ขนาดใหญ่ไม่น่าจะละทิ้งเมนเฟรม อันที่จริงสิ่งบ่งชี้ที่ฉันเห็นเมื่อเร็ว ๆ นี้บ่งบอกว่ามีการลงทุนเพิ่มขึ้นในเมนเฟรม แต่พวกเขาจะไม่เพิกเฉยต่อระบบนิเวศ Hadoop เช่นกัน ฉันเห็นตัวเลขร้อยละ 60 ของ บริษัท ขนาดใหญ่ที่ใช้ Hadoop แม้ว่าจริง ๆ แล้วพวกเขาจำนวนมากเป็นเพียงต้นแบบและการทดลอง

ปริศนาที่เกิดขึ้นคือ“ คุณจะทำให้สองสิ่งนี้อยู่ร่วมกันได้อย่างไร” เพราะพวกเขาจะต้องใช้ข้อมูลร่วมกัน ข้อมูลที่นำมาสู่ทะเลสาบข้อมูลที่พวกเขาต้องการถ่ายโอนไปยังเมนเฟรม ข้อมูลที่อยู่บนเมนเฟรมอาจจำเป็นต้องไปที่ดาต้าดาต้าหรือผ่านดาต้าเลกเพื่อที่จะได้เข้าร่วมกับข้อมูลอื่น และนั่นจะเกิดขึ้น และนั่นหมายความว่าต้องใช้ความสามารถในการถ่ายโอนข้อมูล / ETL ที่รวดเร็ว ไม่น่าเป็นไปได้ที่ปริมาณงานจะถูกแชร์แบบไดนามิกในสภาพแวดล้อมเมนเฟรมหรือกับบางอย่างในสภาพแวดล้อม Hadoop มันจะเป็นข้อมูลที่แชร์ และข้อมูลส่วนใหญ่ย่อมต้องอยู่บน Hadoop อย่างหลีกเลี่ยงไม่ได้เพราะเป็นแพลตฟอร์มที่มีต้นทุนต่ำที่สุด และการประมวลผลการวิเคราะห์แบบ end-to-end อาจจะอยู่ที่นั่นเช่นกัน

โดยสรุปในที่สุดเราต้องคิดในแง่ของชั้นข้อมูลขององค์กรซึ่งสำหรับหลาย บริษัท จะรวมถึงเมนเฟรม และชั้นข้อมูลนั้นจำเป็นต้องได้รับการจัดการเชิงรุก มิฉะนั้นทั้งสองจะไม่อยู่ร่วมกันอย่างดี ฉันสามารถส่งบอลกลับมาหาคุณ Eric

Eric Kavanagh: อีกครั้งTendüฉันเพิ่งทำให้คุณเป็นพรีเซนเตอร์

TendüYogurtçu: ขอบคุณเอริค ขอบคุณที่มีฉัน สวัสดีทุกคน. ฉันจะพูดคุยเกี่ยวกับประสบการณ์การซิงค์กับลูกค้าที่เกี่ยวข้องกับวิธีการที่เราเห็นข้อมูลในฐานะสินทรัพย์ในองค์กรระดับจากเมนเฟรมเป็นข้อมูลขนาดใหญ่บนแพลตฟอร์มการวิเคราะห์ และฉันหวังว่าเราจะมีเวลาในตอนท้ายของเซสชั่นที่จะมีคำถามจากผู้ชมเพราะนั่นเป็นส่วนที่มีค่าที่สุดของเว็บคาสต์เหล่านี้

สำหรับผู้ที่ไม่ทราบว่า Syncsort ทำอะไร Syncsort เป็น บริษัท ซอฟต์แวร์ เรามีมานานกว่า 40 ปีแล้ว เริ่มต้นที่ด้านเมนเฟรมและผลิตภัณฑ์ของเรามีตั้งแต่เมนเฟรมไปจนถึงยูนิกซ์จนถึงแพลตฟอร์มข้อมูลขนาดใหญ่รวมถึง Hadoop, Spark, Splunk ทั้งบนพื้นที่และในระบบคลาวด์ เราให้ความสำคัญเสมอกับผลิตภัณฑ์ข้อมูลการประมวลผลข้อมูลและผลิตภัณฑ์รวมข้อมูล

กลยุทธ์ของเราเกี่ยวกับข้อมูลขนาดใหญ่และ Hadoop ได้กลายเป็นส่วนหนึ่งของระบบนิเวศตั้งแต่วันแรก ในฐานะเจ้าของของผู้ขายที่ให้ความสำคัญกับการประมวลผลข้อมูลด้วยเครื่องมือที่มีน้ำหนักเบามากเราคิดว่ามีโอกาสที่ยิ่งใหญ่ในการเข้าร่วม Hadoop กลายเป็นแพลตฟอร์มการประมวลผลข้อมูลและเป็นส่วนหนึ่งของสถาปัตยกรรมคลังข้อมูลรุ่นต่อไปสำหรับองค์กร เราเป็นผู้มีส่วนร่วมในโครงการ Apache โอเพ่นซอร์สมาตั้งแต่ปี 2554 โดยเริ่มจาก MapReduce เป็นหนึ่งในสิบอันดับแรกของ Hadoop เวอร์ชัน 2 และมีส่วนร่วมในหลายโครงการเช่นแพคเกจ Spark ตัวเชื่อมต่อบางส่วนของเราได้รับการเผยแพร่ในแพ็คเกจ Spark

เราใช้ประโยชน์จากโปรแกรมประมวลผลข้อมูลที่มีน้ำหนักเบามากซึ่งเป็นข้อมูลเมตาของไฟล์ที่มีแบนราบอย่างสมบูรณ์และอยู่ในระบบไฟล์แบบกระจายเช่น Hadoop Distributed File System และเรายกระดับมรดกของเราบนเมนเฟรมความเชี่ยวชาญของเราด้วยอัลกอริธึมเมื่อเรานำเสนอผลิตภัณฑ์ข้อมูลขนาดใหญ่ของเรา และเราร่วมมืออย่างใกล้ชิดกับผู้ค้ารายใหญ่ผู้เล่นรายใหญ่ที่นี่รวมถึง Hortonworks, Cloudera, MapR, Splunk Hortonworks เพิ่งประกาศว่าพวกเขาจะขายผลิตภัณฑ์ของเราสำหรับ ETL onboarding กับ Hadoop ด้วย Dell และ Cloudera เรามีความร่วมมืออย่างใกล้ชิดที่จะขายผลิตภัณฑ์ ETL ของเราเป็นส่วนหนึ่งของอุปกรณ์ข้อมูลขนาดใหญ่ของพวกเขา และด้วย Splunk จริง ๆ แล้วเราเผยแพร่ telemetry เมนเฟรมและข้อมูลความปลอดภัยในแดชบอร์ด Splunk เรามีหุ้นส่วนที่ใกล้ชิด

ในใจของผู้บริหารระดับ C ทุกคนคืออะไร? “ ฉันจะเจาะเข้าไปยังแหล่งข้อมูลของฉันได้อย่างไร” ทุกคนกำลังพูดถึงข้อมูลขนาดใหญ่ ทุกคนกำลังพูดถึง Hadoop, Spark ซึ่งเป็นแพลตฟอร์มคอมพิวเตอร์เครื่องถัดไปที่อาจช่วยให้ฉันสร้างความคล่องตัวทางธุรกิจและเปิดแอปพลิเคชันการเปลี่ยนแปลงใหม่ ใหม่ไปสู่ตลาดโอกาส ผู้บริหารทุกคนกำลังคิดว่า“ กลยุทธ์ข้อมูลของฉันคืออะไรข้อมูลริเริ่มของฉันคืออะไรและฉันจะทำให้แน่ใจได้อย่างไรว่าฉันไม่อยู่เบื้องหลังการแข่งขันของฉันและฉันยังอยู่ในตลาดนี้ในอีกสามปีข้างหน้า” เรา เห็นสิ่งนี้เมื่อเราพูดคุยกับลูกค้าของเราในขณะที่เราพูดคุยกับฐานลูกค้าทั่วโลกของเราซึ่งมีขนาดใหญ่มากอย่างที่คุณสามารถจินตนาการเพราะเราได้รับรอบสำหรับในขณะที่

ขณะที่เราพูดคุยกับองค์กรเหล่านี้ทั้งหมดเราก็เห็นสิ่งนี้ในกองเทคโนโลยีในการหยุดชะงักที่เกิดขึ้นกับ Hadoop เป็นจริงเพื่อตอบสนองความต้องการนี้เกี่ยวกับข้อมูลเป็นสินทรัพย์ ใช้ประโยชน์จากสินทรัพย์ข้อมูลทั้งหมดที่องค์กรมี และเราได้เห็นสถาปัตยกรรมคลังข้อมูลขององค์กรมีวิวัฒนาการเช่นนี้ Hadoop เป็นศูนย์กลางของสถาปัตยกรรมข้อมูลสมัยใหม่ และลูกค้าส่วนใหญ่ของเราไม่ว่าจะเป็นบริการด้านการเงินไม่ว่าจะเป็นประกันภัยโทรศัพท์ของการค้าปลีกความคิดริเริ่มมักจะพบว่า Hadoop เป็นบริการหรือข้อมูลเป็นบริการ เพราะทุกคนพยายามทำให้สินทรัพย์ข้อมูลพร้อมใช้งานสำหรับลูกค้าภายนอกหรือลูกค้าภายใน และในบางองค์กรเราเห็นความคิดริเริ่มเช่นตลาดข้อมูลสำหรับลูกค้าของพวกเขา

และหนึ่งในขั้นตอนแรกของการบรรลุเป้าหมายนั้นมาจากการสร้างฮับข้อมูลขององค์กร บางครั้งผู้คนจะเรียกมันว่าดาต้าเลก การสร้างศูนย์กลางข้อมูลองค์กรนี้ไม่ใช่เรื่องง่ายอย่างที่คิดเพราะต้องการการเข้าถึงและการรวบรวมข้อมูลแทบทุกอย่างในองค์กร และข้อมูลนั้นมาจากแหล่งข้อมูลใหม่ทั้งหมดเช่นเซ็นเซอร์มือถือรวมถึงฐานข้อมูลดั้งเดิมและอยู่ในโหมดแบทช์และในโหมดสตรีมมิ่ง การรวมข้อมูลเป็นความท้าทายเสมอมาด้วยจำนวนและความหลากหลายของแหล่งข้อมูลและรูปแบบการนำเสนอที่แตกต่างกันไม่ว่าจะเป็นการแบตช์หรือการสตรีมแบบเรียลไทม์มันยิ่งท้าทายมากขึ้นเมื่อเทียบกับเมื่อห้าปีที่แล้ว บางครั้งเราเรียกมันว่า“ มันไม่ใช่ ETL ของพ่อของคุณอีกต่อไป”

ดังนั้นเราจึงพูดถึงสินทรัพย์ข้อมูลที่แตกต่างกัน เนื่องจากองค์กรต่างๆกำลังพยายามทำความเข้าใจกับข้อมูลใหม่ข้อมูลที่พวกเขารวบรวมจากอุปกรณ์มือถือไม่ว่าจะเป็นเซ็นเซอร์ในผู้ผลิตรถยนต์หรือเป็นข้อมูลผู้ใช้สำหรับ บริษัท เกมพกพาพวกเขามักจะต้องอ้างอิงสินทรัพย์ข้อมูลที่สำคัญที่สุดใน ตัวอย่างเช่นองค์กรซึ่งเป็นข้อมูลลูกค้า สินทรัพย์ข้อมูลที่สำคัญที่สุดเหล่านี้มักอาศัยอยู่บนเมนเฟรม การเชื่อมโยงข้อมูลเมนเฟรมกับแหล่งที่มาใหม่เหล่านี้ที่รวบรวมในคลาวด์รวบรวมผ่านมือถือรวบรวมในสายการผลิตของ บริษัท รถยนต์ญี่ปุ่นหรืออินเทอร์เน็ตของแอพพลิเคชั่นต่าง ๆ ต้องเข้าใจข้อมูลใหม่นี้โดยอ้างอิงชุดข้อมูลดั้งเดิมของพวกเขา และชุดข้อมูลดั้งเดิมเหล่านั้นมักอยู่บนเมนเฟรม

และหาก บริษัท เหล่านี้ไม่สามารถทำเช่นนั้นไม่สามารถแตะลงในข้อมูลเมนเฟรมแสดงว่ามีโอกาสพลาดไป จากนั้นข้อมูลเป็นบริการหรือการใช้ประโยชน์จากข้อมูลองค์กรทั้งหมดไม่ได้เจาะเข้าไปในสินทรัพย์ที่สำคัญที่สุดในองค์กร นอกจากนี้ยังมีส่วนข้อมูลทางไกลและความปลอดภัยเพราะข้อมูลธุรกรรมทั้งหมดอาศัยอยู่ในเมนเฟรม

ลองนึกภาพคุณจะไปที่ตู้เอทีเอ็มฉันคิดว่าหนึ่งในผู้เข้าร่วมส่งข้อความถึงผู้เข้าร่วมที่นี่เพื่อปกป้องระบบธนาคารเมื่อคุณรูดบัตรของคุณว่าข้อมูลการทำธุรกรรมนั้นค่อนข้างทั่วโลกบนเมนเฟรม และการรักษาความปลอดภัยและการรวบรวมข้อมูลความปลอดภัยและข้อมูล telemetry จากเมนเฟรมและทำให้สามารถใช้งานได้ผ่านแผงควบคุม Splunk หรืออื่น ๆ Spark, SQL กลายเป็นสิ่งสำคัญยิ่งกว่าที่เคยเพราะปริมาณของข้อมูลและความหลากหลายของข้อมูล

ชุดทักษะเป็นหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุด เพราะในอีกด้านหนึ่งคุณมีกองข้อมูลขนาดใหญ่ที่เปลี่ยนแปลงอย่างรวดเร็วคุณไม่ทราบว่าโครงการใดที่จะอยู่รอดโครงการใดที่ไม่อยู่รอดฉันควรจ้างนักพัฒนา Hive หรือ Pig หรือไม่ ฉันควรลงทุนใน MapReduce หรือ Spark หรือไม่ หรือสิ่งต่อไปกะพริบบางคนพูด ฉันควรลงทุนในแพลตฟอร์มคอมพิวเตอร์เหล่านี้หรือไม่ ในอีกด้านหนึ่งการรักษาระบบนิเวศที่เปลี่ยนแปลงอย่างรวดเร็วนั้นเป็นความท้าทายและในทางกลับกันคุณมีแหล่งข้อมูลดั้งเดิมเหล่านี้ ชุดทักษะใหม่ไม่ตรงกับจริง ๆ และคุณอาจมีปัญหาเพราะทรัพยากรเหล่านั้นอาจจะเลิกใช้จริง มีช่องว่างขนาดใหญ่ในแง่ของชุดทักษะของผู้ที่เข้าใจข้อมูลสแต็คดั้งเดิมและผู้ที่เข้าใจเทคโนโลยีสแต็คที่เกิดขึ้นใหม่

ความท้าทายประการที่สองคือการกำกับดูแล เมื่อคุณเข้าถึงข้อมูลองค์กรทั้งหมดบนแพลตฟอร์มจริง ๆ เรามีลูกค้าที่แจ้งข้อกังวลว่า“ ฉันไม่ต้องการให้ข้อมูลลงจอด ฉันไม่ต้องการให้คัดลอกข้อมูลในหลาย ๆ แห่งเพราะฉันต้องการหลีกเลี่ยงการทำสำเนาหลายชุดให้มากที่สุด ฉันต้องการเข้าถึงแบบ end-to-end โดยไม่ต้องเชื่อมโยงไปถึงตรงกลาง” การควบคุมข้อมูลนี้กลายเป็นความท้าทาย และอีกส่วนคือถ้าคุณเข้าถึงข้อมูลที่เป็นปัญหาคอขวดหากคุณกำลังรวบรวมข้อมูลส่วนใหญ่ในระบบคลาวด์และการเข้าถึงและการอ้างอิงข้อมูลดั้งเดิมแบนด์วิดท์เครือข่ายจะกลายเป็นปัญหาแพลตฟอร์มของคลัสเตอร์ มีความท้าทายมากมายในแง่ของการมีโครงการข้อมูลขนาดใหญ่และแพลตฟอร์มการวิเคราะห์ขั้นสูงและยังใช้ประโยชน์จากข้อมูลองค์กรทั้งหมด

สิ่งที่ Syncsort นำเสนอคือเราถูกเรียกว่า "เพียงสิ่งที่ดีที่สุด" ไม่ใช่เพราะเราเป็นสิ่งที่ดีที่สุด แต่ลูกค้าของเราพูดถึงเราว่าเป็นสิ่งที่ดีที่สุดในการเข้าถึงและรวมข้อมูลเมนเฟรม เราสนับสนุนรูปแบบข้อมูลทั้งหมดจากเมนเฟรมและทำให้พร้อมใช้งานสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่ ไม่ว่าจะเป็นที่ Hadoop หรือ Spark หรือแพลตฟอร์มคอมพิวเตอร์เครื่องถัดไป เพราะผลิตภัณฑ์ของเราป้องกันความซับซ้อนของแพลตฟอร์มคอมพิวเตอร์ คุณเป็นนักพัฒนาอาจพัฒนาบนแล็ปท็อปโดยมุ่งเน้นไปที่ไปป์ไลน์ข้อมูลและการเตรียมข้อมูลคืออะไรขั้นตอนในการสร้างข้อมูลนี้สำหรับการวิเคราะห์ขั้นตอนต่อไปและนำแอปพลิเคชันเดียวกันมาใช้ใน MapReduce หรือ แอปพลิเคชันเดียวกันใน Spark

เราช่วยลูกค้าของเราทำเช่นนั้นเมื่อ YARN ว่างและพวกเขาต้องย้ายแอปพลิเคชันของพวกเขาจาก MapReduce เวอร์ชัน 1 ไปยัง YARN เราช่วยให้พวกเขาทำเช่นเดียวกันกับ Apache Spark ผลิตภัณฑ์รุ่นใหม่ 9 ของเราทำงานด้วย Spark เช่นกันและมาพร้อมกับการเพิ่มประสิทธิภาพแบบไดนามิกที่จะป้องกันแอพพลิเคชั่นเหล่านี้สำหรับเฟรมเวิร์กคอมพิวเตอร์ในอนาคต

ดังนั้นเราจึงเข้าถึงข้อมูลเมนเฟรมไม่ว่าจะเป็นไฟล์ VSAM ไม่ว่าจะเป็น DB2 หรือว่าเป็นข้อมูล telemetry เช่นเรคคอร์ด SMF หรือ Log4j หรือ syslogs ที่จะต้องเห็นภาพผ่านแผงควบคุม Splunk และในขณะที่ทำเช่นนั้นเพราะองค์กรสามารถใช้ประโยชน์จาก data data ที่มีอยู่หรือชุดทักษะ ETL เวลาในการพัฒนาจะลดลงอย่างมาก ในความเป็นจริงกับ Dell และ Cloudera มีการสนับสนุนมาตรฐานอิสระและมาตรฐานนั้นมุ่งเน้นไปที่เวลาในการพัฒนาหากคุณทำการเข้ารหัสด้วยมือหรือใช้เครื่องมืออื่น ๆ เช่น Syncsort และลดเวลาในการพัฒนาประมาณ 60, 70% . การเชื่อมทักษะนั้นทำให้เกิดช่องว่างข้ามกลุ่ม, ข้ามโฮสต์ไฟล์ข้อมูลเหล่านั้น, และโฮสต์ไฟล์ข้อมูลเหล่านั้นในแง่ของผู้คน

โดยทั่วไปทีมข้อมูลขนาดใหญ่หรือทีมงานดาต้าดาต้าหรือทีมที่มอบหมายให้พัฒนาข้อมูลนี้เป็นสถาปัตยกรรมบริการไม่จำเป็นต้องพูดกับทีมเมนเฟรม พวกเขาต้องการลดการมีปฏิสัมพันธ์นั้นให้น้อยที่สุดในหลาย ๆ องค์กร การปิดช่องว่างนั้นทำให้เราก้าวหน้า และส่วนที่สำคัญที่สุดคือการรักษาความปลอดภัยของกระบวนการทั้งหมด เพราะในองค์กรเมื่อคุณจัดการกับข้อมูลที่ละเอียดอ่อนชนิดนี้มีข้อกำหนดมากมาย

ในอุตสาหกรรมที่มีการควบคุมอย่างเข้มงวดเช่นการประกันภัยและการธนาคารลูกค้าของเราถามพวกเขากล่าวว่า“ คุณให้การเข้าถึงข้อมูลเมนเฟรมนี้และนั่นยอดเยี่ยมมาก คุณสามารถให้ฉันสร้างรูปแบบการบันทึกที่เข้ารหัส EBCDIC นี้ในรูปแบบดั้งเดิมเพื่อให้ฉันสามารถตอบสนองความต้องการการตรวจสอบของฉันได้หรือไม่” ดังนั้นเราจึงทำให้ Hadoop และ Apache Spark เข้าใจข้อมูลเมนเฟรม คุณสามารถเก็บข้อมูลในรูปแบบเรกคอร์ดดั้งเดิมทำการประมวลผลและระดับแพลตฟอร์มผู้จัดจำหน่ายคอมพิวเตอร์ของคุณและถ้าคุณต้องการนำกลับมาคุณสามารถแสดงระเบียนไม่เปลี่ยนแปลงและรูปแบบระเบียนไม่เปลี่ยนแปลงคุณสามารถปฏิบัติตามข้อกำหนดของกฎระเบียบ .

และองค์กรส่วนใหญ่ขณะที่พวกเขากำลังสร้าง data hub หรือ data lake พวกเขาก็พยายามทำสิ่งนี้ด้วยการคลิกเพียงครั้งเดียวเพื่อที่จะสามารถทำแผนที่ metadata จากหลายร้อย schemas ในฐานข้อมูล Oracle กับ Hive tables หรือ ORC หรือไฟล์ Parquet มีความจำเป็น เราจัดส่งเครื่องมือและเราจัดเตรียมเครื่องมือเพื่อให้การเข้าถึงข้อมูลในขั้นตอนเดียวงานสร้างอัตโนมัติหรือการเคลื่อนย้ายข้อมูลและงานสร้างอัตโนมัติเพื่อทำแผนที่ข้อมูล

เราพูดคุยเกี่ยวกับส่วนการเชื่อมต่อการปฏิบัติตามกฎระเบียบการกำกับดูแลและการประมวลผลข้อมูล และผลิตภัณฑ์ของเรามีให้บริการทั้งบนสถานที่และในระบบคลาวด์ซึ่งทำให้มันง่ายมากเพราะ บริษัท ไม่จำเป็นต้องคิดเกี่ยวกับสิ่งที่จะเกิดขึ้นในปีหน้าหรือสองปีถ้าฉันตัดสินใจที่จะไปในระบบคลาวด์สาธารณะ สภาพแวดล้อมเนื่องจากคลัสเตอร์บางกลุ่มอาจทำงานบนสถานที่ตั้งหรือในระบบคลาวด์ และผลิตภัณฑ์ของเรามีให้บริการทั้งที่ Amazon Marketplace, EC2, Elastic MapReduce และไปยังคอนเทนเนอร์ Docker

เพียงเพื่อสรุปดังนั้นเราจึงมีเวลาเพียงพอสำหรับคำถามและคำตอบมันเป็นเรื่องเกี่ยวกับการเข้าถึงการบูรณาการและปฏิบัติตามการกำกับดูแลข้อมูล แต่ยังทำให้ทุกอย่างง่ายขึ้น และในขณะที่ทำให้สิ่งนี้ง่ายขึ้น“ ออกแบบเพียงครั้งเดียวและนำไปใช้ได้ทุกที่” ในความหมายที่แท้จริงเนื่องจากการมีส่วนร่วมโอเพนซอร์ซของเราผลิตภัณฑ์ของเราทำงานโดยกำเนิดในกระแสข้อมูล Hadoop และกำเนิด Spark ด้วย และให้บริการไปป์ไลน์ข้อมูลเดี่ยวเป็นอินเทอร์เฟซเดียวทั้งชุดและสตรีมมิ่ง

และสิ่งนี้ยังช่วยให้องค์กรต่างๆประเมินกรอบงานเหล่านี้เพราะคุณอาจต้องการสร้างแอปพลิเคชั่นจริง ๆ และเพียงแค่เรียกใช้ MapReduce กับ Spark และดูด้วยตัวคุณเองใช่ Spark มีสัญญานี้และให้อัลกอริธึมซ้ำ ๆ และแอพพลิเคชั่นการวิเคราะห์เชิงทำนายสามารถทำงานกับ Spark ได้ฉันสามารถทำสตรีมมิ่งและปริมาณงานแบตช์ในกรอบคอมพิวเตอร์นี้ได้หรือไม่ คุณสามารถทดสอบแพลตฟอร์มคอมพิวเตอร์ต่าง ๆ โดยใช้ผลิตภัณฑ์ของเรา และการเพิ่มประสิทธิภาพแบบไดนามิกไม่ว่าคุณจะทำงานบนเซิร์ฟเวอร์แบบสแตนด์อโลนบนแล็ปท็อปของคุณใน Google Cloud กับ Apache Spark เป็นข้อเสนอที่คุ้มค่าสำหรับลูกค้าของเรา และมันก็เป็นแรงผลักดันอย่างแท้จริงจากความท้าทายที่พวกเขามี

ฉันจะครอบคลุมกรณีศึกษาอย่างใดอย่างหนึ่ง นี่คือ บริษัท ประกันชีวิตการ์เดียน และความคิดริเริ่มของการ์เดียนคือการรวบรวมสินทรัพย์ข้อมูลของพวกเขาและทำให้ลูกค้าของพวกเขาลดเวลาในการเตรียมข้อมูลและพวกเขากล่าวว่าทุกคนพูดถึงการเตรียมข้อมูลโดยใช้ 80% ของกระบวนการประมวลผลข้อมูลโดยรวมและพวกเขากล่าวว่า ร้อยละ 75 ถึง 80 สำหรับพวกเขาและพวกเขาต้องการที่จะลดการเตรียมข้อมูลเวลาในการแปลงเวลาออกสู่ตลาดสำหรับโครงการวิเคราะห์ สร้างความคล่องตัวในขณะที่เพิ่มแหล่งข้อมูลใหม่ และทำให้การเข้าถึงข้อมูลแบบรวมศูนย์นั้นพร้อมใช้งานสำหรับลูกค้าของพวกเขาทั้งหมด

โซลูชันของพวกเขารวมถึงผลิตภัณฑ์ Syncsort ตอนนี้พวกเขามีตลาดข้อมูลอเมซอนที่ได้รับการสนับสนุนจากดาต้าเลกซึ่งโดยทั่วไปคือ Hadoop และฐานข้อมูล NoSQL และพวกเขาใช้ผลิตภัณฑ์ของเราเพื่อนำสินทรัพย์ข้อมูลทั้งหมดไปยังดาต้าเลกรวมถึง DB2 บนเมนเฟรมรวมถึงไฟล์ VSAM บนเมนเฟรมและแหล่งข้อมูลดั้งเดิมของฐานข้อมูลรวมถึงแหล่งข้อมูลใหม่ และเป็นผลจากการที่พวกเขาได้รวมสินทรัพย์ข้อมูลที่สามารถนำกลับมาใช้ใหม่ได้ซึ่งสามารถค้นหาเข้าถึงและเข้าถึงลูกค้าได้ และพวกเขาสามารถเพิ่มแหล่งข้อมูลใหม่และให้บริการลูกค้าได้เร็วขึ้นและมีประสิทธิภาพมากขึ้นกว่าเดิม และความคิดริเริ่มด้านการวิเคราะห์ก็มีความคืบหน้ามากขึ้นในด้านการทำนายเช่นกัน ดังนั้นฉันจะหยุดและหวังว่าสิ่งนี้จะเป็นประโยชน์และหากคุณมีคำถามใด ๆ สำหรับฉันในหัวข้อที่เกี่ยวข้องใด ๆ โปรดคุณยินดีต้อนรับ

Eric Kavanagh: แน่นอนและTendüฉันจะเข้าร่วมฉันได้รับความเห็นจากสมาชิกผู้ชมเพียงแค่พูดว่า“ ฉันชอบการออกแบบ 'ครั้งนี้ติดตั้งที่ไหนก็ได้'” คุณช่วยขุดลึกลงไปได้อย่างไร? ฉันหมายถึงคุณได้ทำอะไรเพื่อเปิดใช้งานความคล่องตัวนั้นและมีภาษีหรือไม่? เช่นเมื่อเราพูดถึงเวอร์ชวลไลเซชันตัวอย่างเช่นมีการเสียภาษีเล็กน้อยต่อประสิทธิภาพ บางคนบอกว่าสองเปอร์เซ็นต์ห้าเปอร์เซ็นต์ 10 เปอร์เซ็นต์ สิ่งที่คุณทำเพื่อเปิดใช้งานการออกแบบเพียงครั้งเดียวสามารถติดตั้งได้ทุกที่ - คุณจะทำมันได้อย่างไรและมีภาษีที่เกี่ยวข้องกับมันในแง่ของประสิทธิภาพหรือไม่?

TendüYogurtçu: แน่นอนขอบคุณ ไม่เพราะต่างจากผู้ค้ารายอื่นบางรายเราไม่ได้สร้าง Hive หรือ Pig หรือรหัสอื่น ๆ ที่ไม่ได้มีอยู่ในเอ็นจิ้นของเรา นี่คือที่การมีส่วนร่วมโอเพนซอร์สของเรามีบทบาทอย่างมากเนื่องจากเราได้ทำงานร่วมกับผู้ขาย Hadoop, Cloudera, Hortonworks และ MapR อย่างใกล้ชิดและเนื่องจากการมีส่วนร่วมของโอเพนซอร์สเครื่องยนต์ของเราในความเป็นจริงก็เป็นส่วนหนึ่งของการไหล เป็นส่วนหนึ่งของกระแส Hadoop ซึ่งเป็นส่วนหนึ่งของประกายไฟ

สิ่งที่แปลยังเรามีการเพิ่มประสิทธิภาพแบบไดนามิกนี้ นี่คือสิ่งที่เกิดขึ้นเนื่องจากลูกค้าของเราถูกท้าทายด้วยกรอบคอมพิวเตอร์ ขณะที่พวกเขากำลังจะผลิตพร้อมกับแอปพลิเคชั่นบางตัวพวกเขากลับมาอีกครั้งพวกเขากล่าวว่า“ ฉันแค่สร้างความเสถียรให้กับคลัสเตอร์ Hadoop ของฉันการทำให้เสถียรใน MapReduce YARN เวอร์ชั่น 2, MapReduce เวอร์ชั่น 2 และผู้คนกำลังพูดกันว่า สิ่งต่อไปและบางคนบอกว่า Flink จะเป็นสิ่งต่อไปฉันจะรับมือกับสิ่งนี้ได้อย่างไร”

และความท้าทายเหล่านั้นเห็นได้ชัดเจนมากสำหรับเราเราลงทุนในการเพิ่มประสิทธิภาพแบบไดนามิกนี้ซึ่งเราเรียกว่าการดำเนินการที่ชาญฉลาด ณ รันไทม์, เมื่องาน, เมื่อส่งข้อมูลไปตามกลุ่ม, ไม่ว่าจะเป็น Spark, ไม่ว่าจะเป็น MapReduce หรือเซิร์ฟเวอร์ Linux แบบสแตนด์อโลน, เราตัดสินใจว่าจะทำงานนี้อย่างไร, ในเครื่องยนต์ของเรา, เป็นส่วนหนึ่งของสิ่งนั้น Hadoop หรือ Spark data data ไม่มีค่าใช้จ่ายเพราะทุกอย่างดำเนินการผ่านการเพิ่มประสิทธิภาพแบบไดนามิกที่เรามีและทุกอย่างก็ทำเพราะเครื่องยนต์ของเรานั้นถูกรวมเข้าด้วยกันเพราะการมีส่วนร่วมโอเพนซอร์สของเรา นั่นตอบคำถามของคุณหรือไม่

Eric Kavanagh: ใช่แล้วมันก็ดี และฉันอยากจะทิ้งคำถามอีกหนึ่งคำถามไว้ที่นั่นแล้วเดซบางทีเราจะดึงคุณและโรบินเข้าด้วย ฉันเพิ่งได้รับความเห็นเฮฮาจากผู้เข้าร่วมประชุมคนหนึ่งของเรา ฉันจะอ่านมันเพราะมันค่อนข้างมีสาระสำคัญจริง ๆ เขาเขียนว่า“ ดูเหมือนว่าในประวัติศาสตร์ของสิ่งต่าง ๆ ที่น่าสนใจ” - รับมันได้หรือไม่เช่น IoT - "นั่นคือยิ่งคุณพยายาม 'ลดความซับซ้อน' สิ่งที่ซับซ้อนจริง ๆ บ่อยครั้งมากเท่าที่ดูเหมือนจะทำสิ่งต่าง ๆ มีเชือกสำหรับแขวนเพิ่มเติม คิดว่าแบบสอบถามฐานข้อมูลการระเบิดการทำหลายเธรด ฯลฯ ” คุณสามารถแสดงความคิดเห็นเกี่ยวกับความขัดแย้งที่เขาอ้างถึงได้ไหม ความเรียบง่ายเมื่อเทียบกับความซับซ้อนและโดยทั่วไปสิ่งที่เกิดขึ้นภายใต้ฝาครอบ?

TendüYogurtçu: แน่นอน ฉันคิดว่านั่นเป็นจุดที่ถูกต้องมาก เมื่อคุณลดความซับซ้อนของสิ่งต่าง ๆ และทำการเพิ่มประสิทธิภาพเหล่านี้ในบางสิ่งภายใต้ที่กำบังบางคนจำเป็นต้องใช้ความซับซ้อนของสิ่งที่ต้องเกิดขึ้นใช่ไหม? หากคุณเป็นอัมพาตอะไรหรือถ้าคุณตัดสินใจว่าจะทำงานเฉพาะอย่างเกี่ยวกับกรอบงานคอมพิวเตอร์ได้อย่างไรมีบางส่วนของงานที่ถูกผลักไม่ว่าจะเป็นที่ส่วนท้ายของผู้ใช้การเข้ารหัสเมนูหรือที่การเพิ่มประสิทธิภาพเครื่องยนต์ มีส่วนหนึ่งของการลดความซับซ้อนของประสบการณ์ผู้ใช้มีประโยชน์มากในแง่ของความสามารถในการยกระดับทักษะที่มีอยู่ในองค์กร

และคุณสามารถบรรเทาความขัดแย้งนั้นบรรเทาความท้าทายของ“ ใช่ แต่ฉันไม่สามารถควบคุมทุกสิ่งที่เกิดขึ้นภายใต้ฝาครอบภายใต้ฝากระโปรงในเครื่องยนต์นั้น” โดยการเปิดเผยสิ่งต่าง ๆ แก่ผู้ใช้ขั้นสูงถ้าพวกเขา ต้องการควบคุมแบบนั้น โดยการลงทุนในบางประเภทของความสามารถในการให้บริการ ความสามารถในการให้ข้อมูลเมตาในการดำเนินงานที่มากขึ้นข้อมูลการดำเนินงานที่มากขึ้นตามตัวอย่างที่ผู้เข้าร่วมรายนี้ให้ไว้สำหรับแบบสอบถาม SQL เช่นเดียวกับโปรแกรมที่กำลังทำงานอยู่ ฉันหวังว่าคำตอบนั้น

Eric Kavanagh: ใช่แล้วมันฟังดูดี โปรดนำมันออกไป

Dez Blanchfield: ฉันกระตือรือร้นที่จะเข้าใจถึงรอยเท้าของคุณมากขึ้นในการมีส่วนร่วมโอเพนซอร์สและการเดินทางที่คุณได้รับจากประสบการณ์ดั้งเดิมที่ยาวนานของคุณในเมนเฟรมและโลกที่เป็นกรรมสิทธิ์จากนั้นเปลี่ยนมาเป็น มีส่วนร่วมในการเปิดแหล่งที่มาและวิธีการที่เกิดขึ้น และสิ่งอื่น ๆ ที่ฉันกระตือรือร้นที่จะเข้าใจคือมุมมองที่คุณเห็นว่าธุรกิจไม่ใช่แค่แผนกไอทีเท่านั้น แต่ตอนนี้ธุรกิจกำลังคำนึงถึงศูนย์กลางข้อมูลหรือทะเลสาบข้อมูลตามที่ผู้คนกำลังพูดในขณะนี้และไม่ว่าพวกเขาจะเห็นแนวโน้มของ มีทะเลสาบข้อมูลรวมเดียวหรือว่าเราเห็นทะเลสาบข้อมูลแบบกระจายและผู้คนกำลังใช้เครื่องมือเพื่อรวมเข้าด้วยกันหรือไม่

TendüYogurtçu: แน่นอน สำหรับคนแรกนั่นคือการเดินทางที่น่าสนใจมากในฐานะ บริษัท ซอฟต์แวร์เจ้าของกิจการซึ่งเป็นหนึ่งในคนแรกหลังจาก IBM อย่างไรก็ตามอีกครั้งทุกอย่างเริ่มต้นจากลูกค้าผู้สอนศาสนาของเราดูที่ Hadoop เรามี บริษัท ข้อมูลอย่าง ComScore พวกเขาเป็นหนึ่งใน บริษัท แรกที่ใช้ Hadoop เพราะพวกเขากำลังรวบรวมข้อมูลดิจิตอลทั่วโลกและไม่สามารถเก็บข้อมูล 90 วันจนกว่าพวกเขาจะลงทุนกล่องคลังข้อมูลสิบล้านดอลลาร์ใน บริษัท ของพวกเขา สิ่งแวดล้อม พวกเขาเริ่มมอง Hadoop เมื่อเราเริ่มมอง Hadoop ด้วย

และเมื่อเราตัดสินใจและยอมรับว่า Hadoop จะเป็นแพลตฟอร์มข้อมูลในอนาคตเราก็เข้าใจว่าเราจะไม่สามารถเล่นบทนี้ได้การเล่นที่ประสบความสำเร็จในเรื่องนี้เว้นแต่ว่าเรา เป็นส่วนหนึ่งของระบบนิเวศ และเรากำลังทำงานอย่างใกล้ชิดกับผู้ขาย Hadoop กับ Cloudera, Hortonworks, MapR ฯลฯ เราเริ่มพูดคุยกับพวกเขาเพราะการเป็นหุ้นส่วนสำคัญมากที่จะตรวจสอบมูลค่าที่ผู้ขายสามารถนำมาใช้ได้และทำให้แน่ใจว่าเราสามารถร่วมกันไปที่องค์กร และเสนอสิ่งที่มีความหมายมากกว่า มันต้องมีการสร้างความสัมพันธ์มากมายเพราะเราไม่รู้จักโครงการโอเพนซอร์ซ Apache แต่เราได้รับการสนับสนุนอย่างดีจากผู้ขาย Hadoop เหล่านี้ฉันต้องบอกว่า

เราเริ่มทำงานร่วมกันและดูที่ฮับวิธีที่เราสามารถสร้างมูลค่าโดยไม่ต้องใช้ซอฟต์แวร์เจ้าของของเราในพื้นที่ นั่นเป็นสิ่งสำคัญ ไม่เพียงแค่เกี่ยวกับการวาง API บางอย่างที่ผลิตภัณฑ์ของคุณสามารถทำงานได้ แต่ก็สามารถบอกได้ว่าฉันจะลงทุนในเรื่องนี้เพราะฉันเชื่อว่า Hadoop จะเป็นแพลตฟอร์มแห่งอนาคตดังนั้นโดยการลงทุนในแหล่งที่เราต้องการ แน่นอนว่ามันจะเติบโตและพร้อมที่จะเป็นองค์กร จริง ๆ แล้วเราสามารถเปิดใช้งานบางกรณีการใช้งานที่ไม่สามารถใช้ได้ก่อนการมีส่วนร่วมของเรา ที่จะเป็นประโยชน์ต่อระบบนิเวศทั้งหมดและเราสามารถพัฒนาความร่วมมือเหล่านั้นอย่างใกล้ชิด

ใช้เวลาค่อนข้างมาก เราเริ่มให้การสนับสนุนในปี 2011 และ 2013, 21 มกราคม - ฉันจำวันที่ได้เพราะวันนั้นการบริจาคที่ใหญ่ที่สุดของเรามุ่งมั่นซึ่งหมายความว่าตอนนี้เราสามารถมีผลิตภัณฑ์ของเราโดยทั่วไปจากจุดนั้น - ใช้เวลาค่อนข้างนานในการพัฒนาความสัมพันธ์เหล่านั้น แสดงคุณค่าคู่ค้ากลายเป็นหุ้นส่วนการออกแบบกับผู้ขายและกับผู้มอบหมายในชุมชนโอเพนซอร์ส แต่มันสนุกมาก มันเป็นเรื่องที่คุ้มค่ามากที่ บริษัท ของเราได้เป็นส่วนหนึ่งของระบบนิเวศนั้นและพัฒนาความเป็นหุ้นส่วนที่ยอดเยี่ยม

คำถามที่สองเกี่ยวกับ data hub / data lake ฉันคิดว่าเมื่อเราเห็นข้อมูลนี้เป็นการใช้งานบริการในกรณีส่วนใหญ่ใช่มันอาจเป็นคลัสเตอร์คลัสเตอร์ทางกายภาพเดียวหรือหลายกลุ่ม แต่มันมีแนวคิดมากกว่าที่เดียว สำหรับข้อมูลทั้งหมด เนื่องจากในบางองค์กรเราเห็นการปรับใช้คลัสเตอร์ขนาดใหญ่ในสถานที่ตั้งอย่างไรก็ตามพวกเขายังมีกลุ่มเช่นในคลาวด์สาธารณะเนื่องจากข้อมูลบางส่วนที่รวบรวมจากส่วนออนไลน์ถูกเก็บไว้ในคลาวด์จริงๆ ความสามารถในการมี data pipeline เดียวที่คุณสามารถใช้ประโยชน์จากทั้งสองอย่างนี้และใช้เป็น data hub เดียว data data เดียวกลายเป็นสิ่งสำคัญ ไม่เพียง แต่เป็นสถานที่ทางกายภาพ แต่การมีศูนย์กลางข้อมูลและทะเลสาบข้อมูลข้ามกลุ่มข้ามภูมิภาคและอาจอยู่ในสถานที่ตั้งและระบบคลาวด์นั้นสำคัญมากฉันคิดว่า โดยเฉพาะอย่างยิ่งก้าวไปข้างหน้า ปีนี้เราเริ่มเห็นการปรับใช้ระบบคลาวด์มากขึ้นเรื่อย ๆ มันน่าทึ่ง. ครึ่งแรกของปีนี้เราได้เห็นการปรับใช้ระบบคลาวด์จำนวนมาก

Eric Kavanagh: โอเคเยี่ยมเลย และโรบินคุณมีคำถามไหม? ฉันรู้ว่าเราเหลือเวลาอีกไม่กี่นาที

Robin Bloor: โอเคฉันสามารถถามคำถามเธอได้ สิ่งแรกที่เกิดขึ้นกับฉันคือมีความตื่นเต้นมากมายเกี่ยวกับคาฟคาและฉันสนใจในความคิดเห็นของคุณเกี่ยวกับคาฟคาและวิธีที่คุณผสานรวมกับวิธีที่ผู้คนใช้คาฟคา?

TendüYogurtçu: แน่นอน ใช่คาฟคากำลังเป็นที่นิยมมาก ในบรรดาลูกค้าของเราเราเห็นว่าการเป็นเลเยอร์การขนส่งข้อมูลและมองว่าข้อมูลนั้นเป็นรถบัสค่อนข้างดี ตัวอย่างเช่นลูกค้าคนหนึ่งของเรากำลังใช้ข้อมูลปริมาณมากที่ถูกผลักดันเข้าสู่คาฟคานี้ในหลาย ๆ กลุ่มเช่นผู้ใช้ออนไลน์หลายพันคนและสามารถจำแนกข้อมูลดังกล่าวและผลักดันให้ผ่านไปได้

อีกครั้ง Kafka เป็นบัสข้อมูลสำหรับผู้บริโภคที่แตกต่างกันของข้อมูลนี้ จำแนกผู้ใช้ขั้นสูงบางคนกับผู้ใช้ขั้นสูงและทำสิ่งที่แตกต่างกันไปข้างหน้าในไปป์ไลน์ข้อมูลนั้น วิธีที่เราผสานรวมกับคาฟคานั้นโดยทั่วไปแล้วผลิตภัณฑ์ของเรา DMX-h กลายเป็นผู้บริโภคที่เชื่อถือได้และเป็นผู้บริโภคที่มีประสิทธิภาพและเชื่อถือได้สูงสำหรับคาฟคา สามารถอ่านข้อมูลได้และนี่ก็ไม่ต่างไปจากการอ่านข้อมูลจากแหล่งข้อมูลอื่นใดสำหรับเรา เราให้ความสามารถแก่ผู้ใช้ในการควบคุมหน้าต่างทั้งในแง่ของเวลาที่พวกเขามีหรือจำนวนข้อความที่พวกเขาอาจใช้งานจากบัสคาฟคา จากนั้นเราก็สามารถเพิ่มคุณค่าของข้อมูลขณะที่มันผ่านผลิตภัณฑ์ของเราและผลักดันกลับเข้าไปในคาฟคา เราได้ทดสอบสิ่งนี้ เราได้ทำการเปรียบเทียบกับเว็บไซต์ของลูกค้าแล้ว ได้รับการรับรองโดย Confluent เราทำงานอย่างใกล้ชิดกับกลุ่ม Confluent และมีประสิทธิภาพสูงและใช้งานง่าย อีกครั้งที่มีการเปลี่ยนแปลง API แต่คุณไม่ต้องกังวลเพราะผลิตภัณฑ์ปฏิบัติจริง ๆ ว่าเป็นเพียงแหล่งข้อมูลอื่นแหล่งข้อมูลสตรีมมิ่ง มันค่อนข้างสนุกที่ได้ทำงานกับผลิตภัณฑ์และคาฟคาของเราจริง ๆ

Robin Bloor: โอเคฉันมีคำถามอีกคำถามหนึ่งซึ่งเป็นคำถามทั่วไปทางธุรกิจ แต่ฉันรู้จัก Syncsort มานานแล้วและคุณก็มีชื่อเสียงและส่งมอบซอฟต์แวร์ที่รวดเร็วเป็นพิเศษสำหรับ ETL และโลกเมนเฟรม เป็นกรณีที่ธุรกิจส่วนใหญ่ของคุณตอนนี้ถูกโอนไปยัง Hadoop หรือไม่? มันเป็นกรณีที่ไม่ทางใดก็ทางหนึ่งคุณได้ขยายธุรกิจออกไปจากโลกเมนเฟรมอย่างมากหรือไม่?

TendüYogurtçu: ผลิตภัณฑ์เมนเฟรมของเรายังคงทำงานอยู่ 50 เปอร์เซ็นต์ของเมนเฟรมทั่วโลก ดังนั้นเราจึงมีสายผลิตภัณฑ์เมนเฟรมที่แข็งแกร่งมากนอกเหนือไปจากสิ่งที่เราทำกับข้อมูลขนาดใหญ่และจุดสิ้นสุดของ Hadoop และเรายังคงอยู่ในโครงการลดความซับซ้อนของไอทีส่วนใหญ่เพราะมีปลายด้านหนึ่งที่คุณต้องการที่จะสามารถแตะลงในข้อมูลเมนเฟรมของคุณในข้อมูลขนาดใหญ่แพลตฟอร์ม Multex และใช้ประโยชน์จากข้อมูลองค์กรทั้งหมด แต่ก็มีภาระงานด้านการทำธุรกรรมที่สำคัญมาก ที่ยังคงทำงานบนเมนเฟรมอย่างต่อเนื่องและเราเสนอวิธีที่จะทำให้แอปพลิเคชันเหล่านั้นมีประสิทธิภาพมากขึ้นให้กับลูกค้ารันในเอ็นจิ้น zIIP เพื่อให้พวกเขาไม่กินวงจรการประมวลผลและ MIPS มากเท่าไหร่

เรายังคงลงทุนในผลิตภัณฑ์เมนเฟรมและเล่นจริงในพื้นที่นี้ซึ่งผู้คนเปลี่ยนจากเหล็กขนาดใหญ่เมนเฟรมเป็นข้อมูลขนาดใหญ่และขยายสายผลิตภัณฑ์ไปยังแพลตฟอร์มเหล่านั้น ดังนั้นเราไม่จำเป็นต้องเปลี่ยนธุรกิจทั้งหมดเป็นด้านเดียวเรายังคงมีธุรกิจที่ประสบความสำเร็จอย่างมากทั้งสองด้าน และการซื้อกิจการก็เป็นจุดสนใจที่สำคัญสำหรับเราเช่นกัน เนื่องจากการจัดการข้อมูลและพื้นที่การประมวลผลข้อมูลสำหรับแพลตฟอร์มข้อมูลขนาดใหญ่มีวิวัฒนาการเราจึงมุ่งมั่นที่จะทำการซื้อกิจการฟรี

Robin Bloor: ฉันเดาว่าฉันไม่สามารถถามคุณได้ว่าพวกเขาคืออะไรเพราะคุณจะไม่ได้รับอนุญาตให้บอกฉัน ฉันสนใจว่าคุณเคยเห็นการใช้งาน Hadoop หรือ Spark ในเมนเฟรมจริงหรือไม่

TendüYogurtçu: เราไม่เคยเห็นเลย มีคำถามเพิ่มเติมเกี่ยวกับเรื่องนั้น ฉันคิดว่า Hadoop บนเมนเฟรมไม่ได้สมเหตุสมผลนักเพราะโครงสร้างหลัก อย่างไรก็ตาม Spark บนเมนเฟรมนั้นค่อนข้างมีความหมายและ Spark นั้นดีมากกับการเรียนรู้ของเครื่องและการวิเคราะห์เชิงทำนายและการมีแอพพลิเคชั่นบางส่วนที่มีข้อมูลเมนเฟรมนั้นจริงๆแล้วฉันคิดว่ามีความหมายมาก เรายังไม่เคยเห็นใครทำแบบนั้น แต่มันเป็นกรณีการใช้งานจริงที่ทำให้เกิดสิ่งเหล่านี้ หากกรณีการใช้งานของคุณในฐานะ บริษัท กำลังนำข้อมูลเมนเฟรมนั้นและรวมเข้ากับชุดข้อมูลที่เหลือในแพลตฟอร์มข้อมูลขนาดใหญ่นั่นเป็นเรื่องเดียว มันต้องการการเข้าถึงข้อมูลเมนเฟรมจากแพลตฟอร์ม Multex ข้อมูลขนาดใหญ่เพราะคุณไม่น่าจะนำชุดข้อมูลของคุณจากระบบเปิดและโทรกลับไปยังเมนเฟรม อย่างไรก็ตามหากคุณมีข้อมูลเมนเฟรมที่คุณต้องการสำรวจและทำการสำรวจข้อมูลเพียงเล็กน้อยให้ใช้ AI ขั้นสูงและการวิเคราะห์ขั้นสูง Spark อาจเป็นวิธีที่ดีในการไปและทำงานบนเมนเฟรมเช่นนั้น

Eric Kavanagh: และนี่เป็นอีกคำถามหนึ่งจากผู้ชมอีกสองคน ฉันจะให้คำถามแท็กทีมจากนั้นเราจะสรุป ผู้เข้าร่วมประชุมคนหนึ่งถามว่า“ ไอบีเอ็มได้รวมเอาโอเพ่นซอร์สของคุณไว้ในระบบนิเวศคลาวด์สาธารณะหรือกล่าวอีกนัยหนึ่งคือ Bluemix หรือไม่” และผู้เข้าร่วมอีกคนทำให้เป็นจุดที่ดีมากโดยสังเกตว่า Syncsort มีอยู่แล้ว แต่ถ้า บริษัท นำหน้าเมนเฟรมใหม่มาใช้กับสิ่งที่เขาเรียกว่า CE และทุกอย่างบนคลาวด์ก็น่าจะลดลง แต่บันทึกว่าพวกคุณเก่งในการย้ายข้อมูลโดยการข้ามระบบปฏิบัติการไปถึงกิกะไบต์ต่อวินาที คุณสามารถพูดคุยเกี่ยวกับจุดแข็งหลักของคุณได้ตามที่เขากล่าวไว้หรือไม่และไอบีเอ็มกำลังรวมข้อมูลของคุณเข้ากับ Bluemix หรือไม่

TendüYogurtçu: กับ IBM เราเป็นพันธมิตรกับ IBM อยู่แล้วและเราได้หารือเกี่ยวกับบริการคลาวด์ข้อมูลของพวกเขาที่นำเสนอผลิตภัณฑ์ การมีส่วนร่วมโอเพนซอร์สของเราเปิดให้ทุกคนที่ต้องการใช้ประโยชน์จากพวกเขา การเชื่อมต่อเมนเฟรมบางตัวก็มีอยู่ในแพ็คเกจ Spark ด้วยดังนั้นไม่ใช่แค่ IBM ทุกคนสามารถใช้ประโยชน์จากสิ่งเหล่านั้นได้ ใน Bluemix เรายังไม่ได้ทำอะไรเป็นพิเศษกับเรื่องนั้น และคุณคิดซ้ำคำถามที่สอง?

Eric Kavanagh: ใช่คำถามที่สองเกี่ยวกับการทำงานหลักของคุณในช่วงหลายปีที่ผ่านมาซึ่งเป็นปัญหาคอขวดของ ETL และเห็นได้ชัดว่าเป็นสิ่งที่พวกคุณยังคงต้องทำในฐานะเมนเฟรมในทางทฤษฎีแม้ว่า Dez จุดยังคงโยกและกลิ้งออกมี แต่ผู้เข้าร่วมเพิ่งสังเกตเห็นว่า Syncsort สามารถย้ายข้อมูลได้ดีมากโดยการข้ามระบบปฏิบัติการและสูงถึงกิกะไบต์ที่สอง คุณเพียงแค่แสดงความคิดเห็นในที่?

TendüYogurtçu: ใช่แล้วการใช้ทรัพยากรอย่างมีประสิทธิภาพโดยรวมเป็นจุดแข็งของเราและความสามารถในการปรับขนาดและประสิทธิภาพเป็นจุดแข็งของเรา เราไม่ได้ลดทอนความซับซ้อนมีความหมายมากมายเราไม่ประนีประนอมกับสิ่งเหล่านั้น ตัวอย่างเช่นเมื่อผู้คนเริ่มพูดถึง Hadoop ในปี 2014 หลายองค์กรไม่ได้มองประสิทธิภาพการทำงานจริงๆ พวกเขาพูดว่า“ โอ้ถ้ามีอะไรเกิดขึ้นฉันสามารถเพิ่มอีกสองโหนดและฉันก็สบายดีการแสดงไม่ใช่สิ่งที่ฉันต้องการ”

ในขณะที่เรากำลังพูดถึงการมีประสิทธิภาพที่ดีที่สุดเพราะเราทำงานโดยกำเนิดแล้วเราไม่ได้มีอาการสะอึกเริ่มต้นที่ Hive มีกับงาน MapReduce หลายงานและค่าโสหุ้ยเมื่อเริ่มต้นทำงาน มีคนบอกเราว่า“ โอ้นั่นไม่ใช่ความกังวลของฉันไม่ต้องกังวลในตอนนี้”

เมื่อเรามาถึงปี 2015 ภูมิทัศน์นั้นเปลี่ยนไปเพราะลูกค้าของเราบางคนมีพื้นที่จัดเก็บเกินกว่าที่พวกเขามีในกลุ่มการผลิต มันสำคัญมากสำหรับพวกเขาที่จะเห็นว่าสิ่งที่ Syncsort สามารถเสนอ หากคุณกำลังนำข้อมูลบางส่วนจากฐานข้อมูลหรือเมนเฟรมและเขียนเป็นรูปแบบปาร์เก้ในกลุ่มไม่ว่าคุณจะลงจอดและอยู่บนเวทีและทำการเปลี่ยนแปลงอื่นหรือเพียงแค่ทำการแปลงบนเครื่องบินและรูปแบบไฟล์เป้าหมายบนบกสร้างความแตกต่างเพราะคุณประหยัด คุณกำลังบันทึกจากแบนด์วิธเครือข่ายคุณกำลังบันทึกจากเวิร์กโหลดบนคลัสเตอร์เนื่องจากคุณไม่ได้รันงานพิเศษ จุดแข็งเหล่านั้นที่เราเล่นในแง่ของการมีสติมากเรารู้สึกถึงประสิทธิภาพของทรัพยากรภายใต้ผิวของเราดูเหมือนว่า

นั่นคือวิธีที่เราอธิบาย มันเป็นสิ่งสำคัญสำหรับเรา เราไม่ได้รับอนุญาต เราไม่เคยรับมันมาก่อนดังนั้นเราจะยังคงแข็งแกร่งต่อไปด้วยการใช้ประโยชน์ใน Apache Spark หรือเฟรมเวิร์กคอมพิวเตอร์เครื่องถัดไป นั่นจะเป็นจุดสนใจของเราต่อไป และในแง่ของชิ้นส่วนการเคลื่อนย้ายข้อมูลและชิ้นส่วนการเข้าถึงข้อมูลแน่นอนว่ามันเป็นหนึ่งในจุดแข็งของเราและเรากำลังเข้าถึงข้อมูล DB2 หรือ VSAM บนเฟรมหลักในบริบทของ Hadoop หรือ Spark

Eric Kavanagh: ก็เป็นวิธีที่ดีในการจบเว็บคาสต์ ขอบคุณมากสำหรับเวลาและความสนใจของคุณ ขอบคุณTendüและ Syncsort ที่เข้ามาในห้องบรรยายสรุปและก้าวเข้าสู่รอบขณะที่พวกเขาพูด คำถามยอดเยี่ยมมากมายจากผู้ชม มันเป็นสภาพแวดล้อมที่เคลื่อนไหวตลอดเวลา เราจะเก็บเทคสุดฮอตนี้ไว้กับคนอื่น ๆ ทั้งหมด คุณสามารถหาเราได้ที่ insideanalysis.com และที่ techopedia.com โดยปกติแล้วจะเกิดขึ้นในประมาณหนึ่งวัน และด้วยสิ่งนี้เราจะบอกลาคุณทุกคน ขอบคุณมาก. เราจะคุยกับคุณเร็ว ๆ นี้ ดูแล. ลาก่อน.

เหล็กขนาดใหญ่, ตอบสนองข้อมูลขนาดใหญ่: ปลดปล่อยข้อมูลเมนเฟรมด้วย hadoop และ spark

รับข้อมูลเชิงลึกเกี่ยวกับสุขภาพและประสิทธิภาพของแอปพลิเคชันของคุณที่ทำงานบน mysql และ mariadb

ความแตกต่างระหว่าง seo และ sem คืออะไร?

อะไรคือความแตกต่างระหว่าง ram และ rom?

ตัวเลือกของบรรณาธิการ

ไอออนคืออะไร - คำจำกัดความจาก techopedia

สมาคมเทคโนโลยีสารสนเทศแห่งอเมริกาคืออะไร (itaa)? - คำจำกัดความจาก techopedia

จูเลียนคืออะไร - คำจำกัดความจาก techopedia

ไปข้างหน้าคืออะไร (fw)? - คำจำกัดความจาก techopedia

ตัวเลือกของบรรณาธิการ

Reddit คืออะไร? - คำจำกัดความจาก techopedia

upvote คืออะไร - คำจำกัดความจาก techopedia

Downvote คืออะไร - คำจำกัดความจาก techopedia

subreddit คืออะไร - คำจำกัดความจาก techopedia

ตัวเลือกของบรรณาธิการ

ทฤษฎีการคำนวณคืออะไร - คำจำกัดความจาก techopedia

การแวะผ่านต้นไม้คืออะไร - คำจำกัดความจาก techopedia

mit license คืออะไร? - คำจำกัดความจาก techopedia

หน่วยประมวลผลการมองเห็น (vpu) คืออะไร? - คำจำกัดความจาก techopedia

ตัวเลือกของบรรณาธิการ

การเชื่อมโยงกันแคชคืออะไร? - คำจำกัดความจาก techopedia

การจัดการการเข้าถึงข้อมูล (daa) คืออะไร? - คำจำกัดความจาก techopedia

การเก็บข้อมูลคืออะไร - คำจำกัดความจาก techopedia

เราเตอร์เชนเดซี่คืออะไร - คำจำกัดความจาก techopedia

ตัวเลือกของบรรณาธิการ

เพย์โหลด (ไวรัสคอมพิวเตอร์) คืออะไร - คำจำกัดความจาก techopedia

โปรโตคอลที่ทำการไปรษณีย์ (ป๊อป) คืออะไร? - คำจำกัดความจาก techopedia

จ่ายต่อลูกค้าเป้าหมายคืออะไร (ppl) - คำจำกัดความจาก techopedia

สายสมาชิกดิจิตอลสมมาตร (sdsl) คืออะไร? - คำจำกัดความจาก techopedia

หมวดหมู่ยอดนิยม