บ้าน เสียง การวิเคราะห์ Hadoop: ไม่ใช่เรื่องง่ายในหลาย ๆ แหล่งข้อมูล

การวิเคราะห์ Hadoop: ไม่ใช่เรื่องง่ายในหลาย ๆ แหล่งข้อมูล

สารบัญ:

Anonim

Hadoop เป็นสถานที่ที่ยอดเยี่ยมในการลดการโหลดข้อมูลสำหรับการประมวลผลการวิเคราะห์หรือเพื่อจำลองปริมาณข้อมูลขนาดใหญ่ของแหล่งข้อมูลเดียวที่ไม่สามารถทำได้ด้วยระบบที่มีอยู่ อย่างไรก็ตามในขณะที่ บริษัท นำข้อมูลจากหลาย ๆ แหล่งมาสู่ Hadoop มีความต้องการที่เพิ่มขึ้นสำหรับการวิเคราะห์ข้อมูลข้ามแหล่งข้อมูลต่าง ๆ ซึ่งอาจเป็นเรื่องยากมากที่จะบรรลุ โพสต์นี้เป็นชุดแรกในสามส่วนที่อธิบายถึงปัญหาที่องค์กรเผชิญในขณะที่พวกเขาพยายามวิเคราะห์แหล่งข้อมูลและประเภทต่างๆภายใน Hadoop และวิธีแก้ไขปัญหาเหล่านี้ โพสต์วันนี้มุ่งเน้นไปที่ปัญหาที่เกิดขึ้นเมื่อรวมหลายแหล่งภายใน โพสต์สองโพสต์ถัดไปอธิบายว่าทำไมปัญหาเหล่านี้เพิ่มขึ้นในความซับซ้อนขณะที่มีการเพิ่มแหล่งข้อมูลภายนอกและวิธีการใหม่ที่ช่วยในการแก้ไข

ข้อมูลจากแหล่งที่แตกต่างกันยากที่จะเชื่อมต่อและแผนที่

ข้อมูลจากแหล่งต่าง ๆ มีโครงสร้างที่แตกต่างกันซึ่งทำให้ยากต่อการเชื่อมต่อและแมปประเภทข้อมูลเข้าด้วยกันแม้กระทั่งข้อมูลจากแหล่งภายใน การรวมข้อมูลอาจทำได้ยากโดยเฉพาะอย่างยิ่งหากลูกค้ามีหมายเลขบัญชีหลายบัญชีหรือองค์กรได้รับหรือรวมเข้ากับ บริษัท อื่น ๆ ในช่วงไม่กี่ปีที่ผ่านมาบางองค์กรพยายามใช้การค้นหาข้อมูลหรือแอปพลิเคชั่นวิทยาศาสตร์ข้อมูลเพื่อวิเคราะห์ข้อมูลจากหลาย ๆ แหล่งที่เก็บอยู่ใน Hadoop วิธีการนี้เป็นปัญหาเนื่องจากเกี่ยวข้องกับการคาดเดามากมาย: ผู้ใช้ต้องตัดสินใจว่าจะใช้คีย์ต่างประเทศใดเพื่อเชื่อมต่อแหล่งข้อมูลต่าง ๆ และทำการตั้งสมมติฐานเมื่อสร้างแบบจำลองข้อมูลซ้อนทับ การคาดเดาเหล่านี้ยากต่อการทดสอบและมักไม่ถูกต้องเมื่อนำไปใช้ในระดับซึ่งนำไปสู่การวิเคราะห์ข้อมูลที่ผิดพลาดและความไม่ไว้วางใจของแหล่งที่มา

ผู้เชี่ยวชาญ Hadoop พยายามรวมข้อมูลเข้าด้วยกัน

ดังนั้นองค์กรที่ต้องการวิเคราะห์ข้อมูลข้ามแหล่งข้อมูลต่างก็หันไปจ้างผู้เชี่ยวชาญ Hadoop เพื่อสร้างสคริปต์เฉพาะที่กำหนดเองเพื่อรวมชุดข้อมูลเข้าด้วยกัน ผู้เชี่ยวชาญ Hadoop เหล่านี้มักจะไม่รวมข้อมูลหรือผู้เชี่ยวชาญด้านการแก้ปัญหาเอนทิตี แต่พวกเขาทำดีที่สุดเท่าที่จะทำได้เพื่อตอบสนองความต้องการเร่งด่วนขององค์กร ผู้เชี่ยวชาญเหล่านี้มักจะใช้ Pig หรือ Java เพื่อเขียนกฎอย่างหนักและรวดเร็วที่กำหนดวิธีการรวมข้อมูลที่มีโครงสร้างจากแหล่งข้อมูลเฉพาะเช่นการจับคู่ระเบียนตามหมายเลขบัญชี เมื่อเขียนสคริปต์สำหรับสองแหล่งแล้วหากจำเป็นต้องเพิ่มแหล่งข้อมูลที่สามสคริปต์แรกจะต้องถูกโยนทิ้งไปและสคริปต์ใหม่ที่ออกแบบมาเพื่อรวมแหล่งข้อมูลเฉพาะสามแหล่ง สิ่งเดียวกันจะเกิดขึ้นหากมีการเพิ่มแหล่งข้อมูลอื่นและอื่น ๆ วิธีนี้ไม่เพียงมีประสิทธิภาพ แต่มันก็ล้มเหลวเมื่อนำไปใช้ในระดับจัดการกรณีขอบอย่างไม่ดีอาจส่งผลให้มีการบันทึกซ้ำจำนวนมากและมักจะรวมหลายระเบียนที่ไม่ควรรวมกัน

การวิเคราะห์ Hadoop: ไม่ใช่เรื่องง่ายในหลาย ๆ แหล่งข้อมูล