ในอดีตที่ผ่านมาเมื่อคิดเกี่ยวกับข้อมูลดิจิตอลมันทำให้รู้สึกถึงการแยกข้อมูลระหว่างข้อมูลการทำธุรกรรมข้อมูลที่บันทึกในแอพพลิเคชั่นธุรกิจจัดเก็บในตารางฐานข้อมูลและนำเสนอโดยเครื่องมือ BI และข้อมูลอื่น ๆ : อีเมลหน้าเว็บรูปภาพวิดีโอ และอื่น ๆ ทุกวันนี้เรามักจะอ้างถึง“ ข้อมูลอื่น” เช่นข้อมูลที่ไม่มีโครงสร้าง
อย่างไรก็ตามมันสามารถวิเคราะห์ได้และซอฟต์แวร์สำหรับการหาค่าจากข้อมูลดังกล่าวได้ผ่านช่องว่าง มันคือความจำเป็นในการวิเคราะห์มากกว่าสิ่งอื่นใดที่ก่อให้เกิดแนวคิดดั้งเดิมของดาต้าเลคซึ่งเป็นแหล่งเก็บข้อมูลสำหรับสปีชีส์ของข้อมูลและนอกจากนี้สำหรับข้อมูลที่เก็บเกี่ยวจากหลายแหล่งภายนอกธุรกิจซึ่งบางส่วนก็ไม่มีโครงสร้างอย่างหลีกเลี่ยงไม่ได้
ในบทความนี้เราจะตรวจสอบว่าระบบนิเวศใหม่ที่สร้างโดย data lake จะไม่ประกอบด้วยธุรกรรม (หรือเหตุการณ์) ทั้งหมดของธุรกิจอีกต่อไป นอกจากนี้ยังจะรวมข้อมูลจากแหล่งข้อมูลอื่น ๆ ซึ่งธุรกิจใช้ในการดำเนินการวิเคราะห์และแจ้งให้ผู้ใช้ทราบถึงข้อมูลสำคัญที่สามารถตัดสินใจได้ ระบบบันทึกจะเป็นสำเนาของข้อมูล บริษัท และเส้นทางการตรวจสอบของกิจกรรมไอทีของธุรกิจ