สารบัญ:
ทุกคนกำลังพูดถึง Hadoop เทคโนโลยีใหม่ที่ได้รับความนิยมในหมู่นักพัฒนาและอาจเปลี่ยนโลก (อีกครั้ง) แต่มันคืออะไรกันล่ะ? มันเป็นภาษาการเขียนโปรแกรมหรือไม่? ฐานข้อมูลหรือไม่ ระบบการประมวลผล? ชาอินเดียที่แสนสบาย
คำตอบทั่วไป: Hadoop คือทุกสิ่งเหล่านี้ (ยกเว้นชาที่มีบรรยากาศสบาย ๆ ) และอื่น ๆ เป็นห้องสมุดซอฟต์แวร์ที่ให้บริการกรอบการเขียนโปรแกรมสำหรับการประมวลผลคำศัพท์สมัยใหม่ราคาถูกและมีประโยชน์: ข้อมูลขนาดใหญ่
Hadoop มาจากไหน
Apache Hadoop เป็นส่วนหนึ่งของโครงการรากฐานจากมูลนิธิซอฟต์แวร์ Apache ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่มีภารกิจคือ "จัดหาซอฟต์แวร์เพื่อสาธารณประโยชน์" ดังนั้นไลบรารี Hadoop จึงเป็นซอฟต์แวร์โอเพนซอร์ซที่ให้บริการฟรีสำหรับนักพัฒนาทั้งหมด
เทคโนโลยีพื้นฐานที่ให้อำนาจกับ Hadoop นั้นถูกคิดค้นโดย Google ย้อนกลับไปในช่วงแรก ๆ เอ็นจิ้นการค้นหาที่ไม่ใหญ่ยักษ์ต้องการวิธีการจัดทำดัชนีข้อมูลจำนวนมหาศาลที่รวบรวมจากอินเทอร์เน็ตและเปลี่ยนเป็นผลลัพธ์ที่มีความหมายและมีความเกี่ยวข้องสำหรับผู้ใช้ ไม่มีสิ่งใดในตลาดที่สามารถตอบสนองความต้องการได้ Google จึงสร้างแพลตฟอร์มของตนเองขึ้นมา
นวัตกรรมเหล่านั้นได้รับการเผยแพร่ในโครงการโอเพนซอร์ซชื่อ Nutch ซึ่งต่อมา Hadoop ใช้เป็นรากฐาน โดยพื้นฐานแล้ว Hadoop ใช้พลังของ Google กับข้อมูลขนาดใหญ่ในแบบที่ราคาไม่แพงสำหรับ บริษัท ทุกขนาด
Hadoop ทำงานอย่างไร
ดังที่ได้กล่าวไว้ก่อนหน้านี้ Hadoop ไม่ใช่สิ่งเดียว - มีหลายสิ่งหลายอย่าง ไลบรารีซอฟต์แวร์ที่เป็น Hadoop ประกอบด้วยสี่ส่วนหลัก (โมดูล) และโซลูชั่นเสริมจำนวนมาก (เช่นฐานข้อมูลและภาษาการเขียนโปรแกรม) ที่ปรับปรุงการใช้งานจริงของโลก สี่โมดูลคือ:- Hadoop Common: นี่คือชุดของยูทิลิตีทั่วไป (ไลบรารีทั่วไป) ที่สนับสนุนโมดูล Hadoop
- Hadoop Distributed File System (HDFS): ระบบไฟล์แบบกระจายที่แข็งแกร่งโดยไม่มีข้อ จำกัด ในข้อมูลที่เก็บไว้ (หมายถึงข้อมูลที่สามารถจัดโครงสร้างหรือไม่มีโครงสร้างและ schemaless ที่ DFS จำนวนมากจะเก็บข้อมูลที่มีโครงสร้าง) ที่ให้การเข้าถึงปริมาณมากด้วยความซ้ำซ้อน HDFS ช่วยให้สามารถจัดเก็บข้อมูลในเครื่องหลายเครื่องได้ดังนั้นหากเครื่องหนึ่งล้มเหลวจะมีการดูแลความพร้อมใช้งานผ่านเครื่องอื่น)
- Hadoop YARN: กรอบงานนี้มีหน้าที่รับผิดชอบในการจัดตารางเวลางานและการจัดการทรัพยากรคลัสเตอร์ ทำให้แน่ใจว่ามีการกระจายข้อมูลอย่างเพียงพอบนหลาย ๆ เครื่องเพื่อรักษาความซ้ำซ้อน YARN เป็นโมดูลที่ทำให้ Hadoop เป็นวิธีที่ประหยัดและคุ้มค่าในการประมวลผลข้อมูลขนาดใหญ่
- Hadoop MapReduce: ระบบที่ใช้ YARN ซึ่งสร้างขึ้นบนเทคโนโลยีของ Google ดำเนินการประมวลผลชุดข้อมูลขนาดใหญ่แบบขนาน (โครงสร้างและไม่มีโครงสร้าง) MapReduce สามารถพบได้ในกรอบการประมวลผลข้อมูลขนาดใหญ่ในปัจจุบันรวมถึงฐานข้อมูล MPP และ NoSQL
ฮาร์ดแวร์ที่สามารถรองรับปริมาณพลังการประมวลผลที่จำเป็นสำหรับการทำงานกับข้อมูลขนาดใหญ่นั้นมีราคาแพง นี่คือนวัตกรรมที่แท้จริงของ Hadoop: ความสามารถในการทำลายพลังการประมวลผลจำนวนมหาศาลในเครื่องจักรขนาดเล็กหลายเครื่องแต่ละเครื่องมีการคำนวณและการจัดเก็บในท้องถิ่นของตัวเองพร้อมกับความซ้ำซ้อนในระดับแอพพลิเคชันเพื่อป้องกันความล้มเหลว
Hadoop ทำอะไรได้บ้าง
Hadoop ระบุไว้อย่างง่ายว่าทำให้ทุกคนสามารถเข้าถึงข้อมูลขนาดใหญ่และใช้งานได้
ก่อนหน้า Hadoop บริษัท ที่ใช้ข้อมูลขนาดใหญ่นั้นส่วนใหญ่ใช้ฐานข้อมูลเชิงสัมพันธ์และคลังข้อมูลขององค์กร (ซึ่งใช้ฮาร์ดแวร์ราคาแพงจำนวนมาก) ในขณะที่เครื่องมือเหล่านี้ยอดเยี่ยมสำหรับการประมวลผลข้อมูลที่มีโครงสร้าง - ซึ่งเป็นข้อมูลที่เรียงลำดับแล้วและจัดระเบียบในแบบที่จัดการได้ - ความสามารถในการประมวลผลข้อมูลที่ไม่มีโครงสร้างนั้นมี จำกัด อย่างมากจนแทบไม่มีอยู่จริง เพื่อให้สามารถใช้งานได้ข้อมูลจะต้องถูกจัดโครงสร้างก่อนดังนั้นจึงจะพอดีกับตารางอย่างเป็นระเบียบ
เฟรมเวิร์ก Hadoop เปลี่ยนแปลงข้อกำหนดนั้นและทำได้ในราคาถูก ด้วย Hadoop ข้อมูลจำนวนมหาศาลตั้งแต่ 10 ถึง 100 กิกะไบต์ขึ้นไปสามารถประมวลผลได้ทั้งแบบโครงสร้างและแบบไม่มีโครงสร้างโดยใช้เซิร์ฟเวอร์ธรรมดา (สินค้า)
Hadoop นำเสนอแอพพลิเคชั่นข้อมูลขนาดใหญ่ที่มีศักยภาพสำหรับธุรกิจทุกขนาดในทุกอุตสาหกรรม กรอบโอเพนซอร์ซช่วยให้ บริษัท เงินทุนสามารถสร้างแบบจำลองที่ซับซ้อนสำหรับการประเมินพอร์ตโฟลิโอและการวิเคราะห์ความเสี่ยงหรือผู้ค้าปลีกออนไลน์เพื่อปรับคำตอบการค้นหาและชี้ลูกค้าไปยังผลิตภัณฑ์ที่พวกเขามีแนวโน้มที่จะซื้อ
ด้วย Hadoop ความเป็นไปได้นั้นไร้ขีด จำกัด อย่างแท้จริง