สารบัญ:
SQL บน Hadoop เป็นกลุ่มของเครื่องมือแอปพลิเคชันวิเคราะห์ที่รวมการสืบค้น SQL แบบและการประมวลผลข้อมูลเข้ากับองค์ประกอบกรอบข้อมูล Hadoop ล่าสุด การเกิดขึ้นของ SQL บน Hadoop เป็นการพัฒนาที่สำคัญสำหรับการประมวลผลข้อมูลขนาดใหญ่เนื่องจากช่วยให้กลุ่มคนในวงกว้างสามารถทำงานกับกรอบการประมวลผลข้อมูล Hadoop ได้อย่างประสบความสำเร็จโดยการรันการสืบค้น SQL ในปริมาณข้อมูลขนาดใหญ่ เห็นได้ชัดว่ากรอบการทำงานของ Hadoop ไม่สามารถเข้าถึงได้โดยผู้คนโดยเฉพาะอย่างยิ่งในแง่ของความสามารถในการสืบค้น จากการพัฒนาเครื่องมือต่าง ๆ ได้ถูกนำมาใช้ในงานที่สัญญาว่าจะปรับปรุงประสิทธิภาพการทำงานขององค์กรเมื่อต้องทำการประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ด้วยคุณภาพและความเร็ว นอกจากนี้ยังไม่จำเป็นต้องลงทุนมากในการเรียนรู้เครื่องมือเนื่องจากความรู้ดั้งเดิมของ SQL ควรทำ
ความหมายของ SQL บน Hadoop
SQL บน Hadoop เป็นกลุ่มของแอปพลิเคชันที่ให้คุณเรียกใช้คิวรีสไตล์ SQL กับข้อมูลขนาดใหญ่ที่โฮสต์โดยกรอบการประมวลผลข้อมูล Hadoop เห็นได้ชัดว่าการสืบค้นการดึงและการวิเคราะห์ข้อมูลทำได้ง่ายขึ้นด้วยการเพิ่ม SQL ลงใน Hadoop เนื่องจาก SQL ได้รับการออกแบบมาสำหรับฐานข้อมูลเชิงสัมพันธ์จึงต้องมีการแก้ไขตามแบบจำลอง Hadoop 1 ที่ประกอบด้วย MapReduce และ Hadoop Distributed File System (HDFS) และรุ่น Hadoop 2 ที่ไม่มี MapReduce และ HDFS
หนึ่งในความพยายามที่เร็วที่สุดในการรวม SQL กับ Hadoop ทำให้เกิดการสร้างคลังข้อมูล Hive ด้วยซอฟต์แวร์ HiveQL ซึ่งสามารถแปลแบบสอบถาม SQL สไตล์ลงในงาน MapReduce หลังจากนั้นมีการพัฒนาแอพพลิเคชั่นหลายตัวซึ่งสามารถทำงานที่คล้ายกันได้ เครื่องมือที่โดดเด่นในภายหลัง ได้แก่ สว่าน, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) และ Tez (Hive on Tez)