สารบัญ:
- Hadoop เริ่มต้นได้อย่างไร
- อะไรที่สำคัญเกี่ยวกับ Hadoop
- Schema บนการอ่านคืออะไร?
- ไฮฟ์คืออะไร
- Hadoop วิเคราะห์ข้อมูลประเภทใด
- คุณสามารถยกตัวอย่าง Hadoop ในโลกแห่งความจริงได้หรือไม่?
- Hadoop ล้าสมัยไปแล้วหรือแค่แปรเปลี่ยน?
Hadoop คืออะไร มันเป็นช้างของเล่นสีเหลือง ไม่ใช่สิ่งที่คุณคาดหวัง เกี่ยวกับสิ่งนี้: ดั๊กคัตติ้ง - ผู้ร่วมสร้างโครงการซอฟต์แวร์โอเพนซอร์ซนี้ยืมชื่อจากลูกชายของเขาที่เกิดขึ้นเพื่อเรียกช้างของเล่นของเขา Hadoop โดยสรุป Hadoop เป็นกรอบซอฟต์แวร์ที่พัฒนาโดย Apache Software Foundation ที่ใช้ในการพัฒนาระบบประมวลผลแบบกระจายข้อมูล และเป็นองค์ประกอบสำคัญในผู้อ่าน buzzword คนอื่น ๆ ที่ดูเหมือนจะไม่ได้รับเพียงพอ: ข้อมูลขนาดใหญ่ นี่คือเจ็ดสิ่งที่คุณควรรู้เกี่ยวกับซอฟต์แวร์ลิขสิทธิ์ที่ไม่ซ้ำใคร
Hadoop เริ่มต้นได้อย่างไร
สิบสองปีก่อน Google สร้างแพลตฟอร์มเพื่อจัดการกับข้อมูลจำนวนมหาศาลที่รวบรวมได้ เช่นเดียวกับที่ บริษัท ทำกันบ่อยๆ Google ให้บริการออกแบบแก่สาธารณชนในรูปแบบของเอกสารสองฉบับ: Google File System และ MapReduce
ในเวลาเดียวกัน Doug Cutting และ Mike Cafarella กำลังทำงานกับ Nutch เครื่องมือค้นหาใหม่ ทั้งสองยังดิ้นรนกับวิธีจัดการกับข้อมูลจำนวนมาก จากนั้นนักวิจัยสองคนได้รับเอกสารจาก Google โชคดีที่ทางแยกนั้นเปลี่ยนแปลงทุกอย่างโดยการแนะนำการตัดและ Cafarella ให้เป็นระบบไฟล์ที่ดีขึ้นและวิธีการติดตามข้อมูลในที่สุดนำไปสู่การสร้าง Hadoop
อะไรที่สำคัญเกี่ยวกับ Hadoop
วันนี้การรวบรวมข้อมูลง่ายกว่าที่เคย มีข้อมูลทั้งหมดนี้นำเสนอโอกาสมากมาย แต่มีความท้าทายเช่นกัน:- ข้อมูลจำนวนมหาศาลต้องการวิธีการใหม่ในการประมวลผล
- ข้อมูลที่ถูกจับอยู่ในรูปแบบที่ไม่มีโครงสร้าง
ถัดไปพวกเขาต้องจัดการกับข้อมูลหรือข้อมูลที่ไม่มีโครงสร้างในรูปแบบที่ระบบฐานข้อมูลเชิงสัมพันธ์มาตรฐานไม่สามารถจัดการได้ การตัดและ Cafarella ออกแบบ Hadoop ให้ทำงานกับข้อมูลทุกประเภท: โครงสร้าง, ไม่มีโครงสร้าง, รูปภาพ, ไฟล์เสียง, แม้กระทั่งข้อความ เอกสารทางเทคนิคของ Cloudera (Hadoop integrator) นี้อธิบายว่าทำไมสิ่งนี้จึงสำคัญ:
-
"การทำให้ข้อมูลทั้งหมดของคุณสามารถใช้งานได้ไม่เพียง แต่สิ่งที่อยู่ในฐานข้อมูลของคุณ Hadoop ช่วยให้คุณค้นพบความสัมพันธ์ที่ซ่อนอยู่และเปิดเผยคำตอบที่ไม่สามารถเข้าถึงได้เสมอคุณสามารถเริ่มการตัดสินใจเพิ่มเติมตามข้อมูลที่แข็งแทนที่จะเป็นลางสังหรณ์ ที่ชุดข้อมูลที่สมบูรณ์ไม่ใช่แค่ตัวอย่างและบทสรุป "
Schema บนการอ่านคืออะไร?
ดังกล่าวก่อนหน้านี้หนึ่งในข้อดีของ Hadoop คือความสามารถในการจัดการข้อมูลที่ไม่มีโครงสร้าง เรียกอีกอย่างหนึ่งว่า "การเตะกระป๋องลงไปบนถนน" ในที่สุดข้อมูลต้องการโครงสร้างบางอย่างเพื่อวิเคราะห์
นั่นคือสิ่งที่คีมาในการอ่านเข้ามาเล่น สคีมาที่อ่านคือ melding ของรูปแบบของข้อมูลที่จะค้นหาข้อมูล (โปรดจำไว้ว่าข้อมูลนั้นกระจัดกระจายอยู่ในเซิร์ฟเวอร์หลาย ๆ เครื่อง) และสิ่งที่ต้องทำกับข้อมูลไม่ใช่เรื่องง่าย มีการกล่าวกันว่าการจัดการข้อมูลในระบบ Hadoop นั้นต้องใช้ทักษะของนักวิเคราะห์ธุรกิจนักสถิติและโปรแกรมเมอร์ Java น่าเสียดายที่มีคุณสมบัติเหล่านั้นไม่มากนัก
ไฮฟ์คืออะไร
หาก Hadoop กำลังจะประสบความสำเร็จการทำงานกับข้อมูลจะต้องง่ายขึ้น ดังนั้นฝูงชนโอเพนซอร์ซจึงต้องทำงานและสร้างไฮฟ์:-
"Hive มีกลไกในการจัดทำโครงสร้างโครงการลงบนข้อมูลนี้และสืบค้นข้อมูลโดยใช้ภาษา SQL ที่เรียกว่า HiveQL ในขณะเดียวกันภาษานี้ยังช่วยให้ผู้ใช้แผนที่ / ลดการเขียนโปรแกรมแบบดั้งเดิมสามารถเสียบ Mappers แบบกำหนดเองและตัวลดขนาดเมื่อไม่สะดวกหรือ ไม่มีประสิทธิภาพในการแสดงตรรกะนี้ใน HiveQL "
Hive ช่วยให้ทั้งสองโลกดีที่สุด: บุคลากรฐานข้อมูลที่คุ้นเคยกับคำสั่ง SQL สามารถจัดการข้อมูลและนักพัฒนาที่คุ้นเคยกับสคีมาในกระบวนการอ่านยังสามารถสร้างแบบสอบถามที่กำหนดเองได้
Hadoop วิเคราะห์ข้อมูลประเภทใด
การวิเคราะห์เว็บเป็นสิ่งแรกที่คำนึงถึงการวิเคราะห์บันทึกการใช้เว็บและปริมาณการใช้งานเว็บเพื่อเพิ่มประสิทธิภาพเว็บไซต์ ยกตัวอย่างเช่น Facebook นั้นเข้าสู่การวิเคราะห์เว็บอย่างแน่นอนโดยใช้ Hadoop เพื่อจัดเรียงข้อมูลเป็นเทราไบต์ของ บริษัท
บริษัท ใช้กลุ่ม Hadoop เพื่อทำการวิเคราะห์ความเสี่ยงการตรวจจับการฉ้อโกงและการแบ่งส่วนฐานลูกค้า บริษัท ยูทิลิตี้ใช้ Hadoop ในการวิเคราะห์ข้อมูลเซ็นเซอร์จากตารางไฟฟ้าของพวกเขาทำให้พวกเขาสามารถเพิ่มประสิทธิภาพการผลิตไฟฟ้า บริษัท ขนาดใหญ่เช่น Target, 3M และ Medtronics ใช้ Hadoop เพื่อเพิ่มประสิทธิภาพการกระจายผลิตภัณฑ์การประเมินความเสี่ยงทางธุรกิจและการแบ่งส่วนฐานลูกค้า
มหาวิทยาลัยมีการลงทุนใน Hadoop ด้วย แบรดรูบินผู้ช่วยศาสตราจารย์ที่มหาวิทยาลัยเซนต์โทมัสหลักสูตรบัณฑิตศึกษาด้านซอฟต์แวร์กล่าวว่าความเชี่ยวชาญของเขา Hadoop ช่วยจัดเรียงข้อมูลจำนวนมหาศาลที่รวบรวมโดยกลุ่มวิจัยที่มหาวิทยาลัย
คุณสามารถยกตัวอย่าง Hadoop ในโลกแห่งความจริงได้หรือไม่?
หนึ่งในตัวอย่างที่รู้จักกันดีคือ TimesMachine The New York Times มีการรวบรวมภาพ TIFF หนังสือพิมพ์เต็มหน้า, เมตาดาต้าที่เกี่ยวข้อง, และข้อความบทความจาก 1851 ถึง 1922 คิดเป็นเทราไบต์ของข้อมูล NYT's Derek Gottfrid ใช้ระบบ EC2 / S3 / Hadoop และรหัสเฉพาะ:-
"รูปภาพ TIFF ขนาดใหญ่มาก 405, 000 บทความ 3.3 ล้านบทความใน SGML และ 405, 000 xml บทความการแมปไฟล์ไปยังพื้นที่สี่เหลี่ยมผืนผ้าใน TIFFs ข้อมูลนี้ถูกแปลงเป็นรูปภาพ PNG ขนาด 810, 000 รูป (ภาพขนาดย่อและภาพเต็ม) และ 405, 000 ไฟล์ JavaScript "
การใช้เซิร์ฟเวอร์ใน Amazon Web Services คลาวด์ Gottfrid กล่าวว่าพวกเขาสามารถประมวลผลข้อมูลทั้งหมดที่จำเป็นสำหรับ TimesMachine ในเวลาน้อยกว่า 36 ชั่วโมง
Hadoop ล้าสมัยไปแล้วหรือแค่แปรเปลี่ยน?
Hadoop มีมานานกว่าทศวรรษแล้ว มีหลายคนบอกว่ามันล้าสมัย ดร. David Rico ผู้เชี่ยวชาญคนหนึ่งกล่าวว่า "ผลิตภัณฑ์ไอทีมีอายุสั้นในปีที่ผ่านมาผลิตภัณฑ์ของ Google มีประมาณ 70 รายการขณะที่ Hadoop มีอายุ 56 ปี"
อาจมีความจริงบางอย่างกับสิ่งที่ Rico พูด ดูเหมือนว่า Hadoop กำลังผ่านการยกเครื่องครั้งใหญ่ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ Rubin เชิญฉันเข้าร่วมการประชุมกลุ่มผู้ใช้ Hadoop Twin Cities และหัวข้อการอภิปรายคือ Introduction to YARN:
-
"Apache Hadoop 2 รวมถึงเครื่องมือ MapReduce ใหม่ซึ่งมีข้อได้เปรียบกว่าการใช้งานก่อนหน้านี้รวมถึงความสามารถในการปรับขนาดและการใช้ทรัพยากรที่ดีขึ้นการใช้งานใหม่นี้สร้างขึ้นบนระบบการจัดการทรัพยากรทั่วไป