บ้าน ฐานข้อมูล พลังของข้อเสนอแนะ: วิธีที่แคตตาล็อกข้อมูลช่วยให้นักวิเคราะห์

พลังของข้อเสนอแนะ: วิธีที่แคตตาล็อกข้อมูลช่วยให้นักวิเคราะห์

Anonim

โดยเจ้าหน้าที่ Techopedia 22 มิถุนายน 2559

Takeaway: Host Rebecca Jozwiak กล่าวถึงข้อดีของแคตตาล็อกข้อมูลกับ Dez Blanchfield, Robin Bloor และ David Crawford

คุณต้องลงทะเบียนสำหรับกิจกรรมนี้เพื่อดูวิดีโอ ลงทะเบียนเพื่อดูวิดีโอ

Rebecca Jozwiak: ท่านสุภาพบุรุษและสุภาพสตรีสวัสดีและยินดีต้อนรับสู่ Hot Technologies ประจำปี 2559 วันนี้เราได้รับแล้ว "พลังแห่งคำแนะนำ: วิธีการที่ Data Catalog Empowers Analysts" ฉันเป็นเจ้าภาพของคุณ Rebecca Jozwiak ซึ่งเป็นโฮสต์ประจำของเรา Eric วันนี้ในขณะที่เขากำลังเดินทางไปทั่วโลกขอขอบคุณที่เข้าร่วมกับเรา ปีนี้อากาศร้อนไม่ใช่แค่ร้อนในเท็กซัสที่ฉัน แต่มันร้อนทั่วทุกที่ มีการระเบิดของเทคโนโลยีใหม่ทุกชนิดออกมา เรามี IoT ข้อมูลสตรีมมิ่งการปรับใช้ระบบคลาวด์ Hadoop ยังคงเติบโตและได้รับการรับรอง เรามีระบบอัตโนมัติการเรียนรู้ของเครื่องและสิ่งนี้ทั้งหมดถูกขีดเส้นใต้ด้วยข้อมูล และองค์กรต่างๆก็ยิ่งขับเคลื่อนข้อมูลมากขึ้นในแต่ละวัน และแน่นอนว่าเป็นจุดที่จะนำไปสู่ความรู้และการค้นพบและคุณรู้ว่าจะตัดสินใจได้ดีขึ้น แต่การได้รับข้อมูลที่มีค่ามากที่สุดนั้นเป็นเรื่องง่ายที่จะเข้าถึง ถ้าคุณเก็บมันไว้หรือถูกฝังหรืออยู่ในสมองของคนไม่กี่คนในองค์กรมันจะไม่ดีไปกว่าองค์กรโดยรวม

และฉันก็คิดเกี่ยวกับการทำแคตตาล็อกข้อมูลและคิดถึงห้องสมุดเมื่อนานมาแล้วนั่นคือที่ที่คุณไปถ้าคุณต้องการค้นหาบางอย่างถ้าคุณต้องการค้นคว้าหัวข้อหรือค้นหาข้อมูลคุณไปที่ห้องสมุด และแน่นอนคุณไปที่แคตตาล็อกการ์ดหรือหญิงสาวที่ทำงานที่นั่น แต่มันก็สนุกที่จะเดินไปรอบ ๆ ถ้าคุณแค่อยากจะดูและแน่ใจว่าคุณจะค้นพบบางสิ่งที่เรียบร้อยคุณอาจพบข้อเท็จจริงที่น่าสนใจที่คุณไม่รู้ แต่ถ้าคุณต้องการหาอะไรจริงๆ และคุณรู้ว่าคุณกำลังมองหาอะไรคุณต้องการแคตตาล็อกการ์ดและแน่นอนว่าองค์กรที่เทียบเท่าคือแคตตาล็อกข้อมูลซึ่งจะช่วยส่องแสงข้อมูลทั้งหมดสำหรับผู้ใช้ของเราเพื่อเพิ่มคุณค่าค้นพบแบ่งปันบริโภคและช่วยเหลือจริงๆ ผู้คนเข้าถึงข้อมูลได้เร็วขึ้นและง่ายขึ้น

ดังนั้นวันนี้เรามี Dez Blanchfield นักวิทยาศาสตร์ด้านข้อมูลของเราเองและเรามี Doctor Robin Bloor หัวหน้านักวิเคราะห์ของเราเองเราได้ David Crawford จาก Alation ผู้ที่กำลังจะพูดถึงเรื่องการทำรายการข้อมูลของ บริษัท แต่ก่อนอื่น เรากำลังจะนำไปสู่กับ Dez ฉันกำลังส่งลูกบอลให้คุณและพื้นเป็นของคุณ

Dez Blanchfield: ขอบคุณขอบคุณที่มีฉันวันนี้ นี่เป็นเรื่องที่ฉันสนใจเป็นอย่างยิ่งเพราะเกือบทุกองค์กรที่ฉันเจอในงานประจำวันฉันพบปัญหาเดียวกันกับที่เราพูดสั้น ๆ เกี่ยวกับการแสดงก่อนการแสดงและนั่นก็คือ องค์กรส่วนใหญ่ที่ดำเนินธุรกิจมานานกว่าสองสามปีมีข้อมูลมากมายฝังอยู่ในองค์กรรูปแบบที่แตกต่างกันและในความเป็นจริงฉันมีลูกค้าที่มีชุดข้อมูลที่ย้อนกลับไปยัง Lotus Notes ฐานข้อมูลที่ยังคงทำงานอยู่ในบางแห่ง กรณีที่เป็นของปลอมอินเทอร์เน็ตและพวกเขาทั้งหมดกำลังเผชิญกับความท้าทายในการค้นหาว่าข้อมูลของพวกเขาอยู่ที่ไหนและทำอย่างไรจึงจะเข้าถึงมันใครจะให้เข้าถึงมันเมื่อไหร่ที่จะให้เข้าถึงพวกเขาและวิธีการเพียงแค่ แคตตาล็อกและวิธีการไปยังสถานที่ที่ทุกคนสามารถทำได้: A) ระวังสิ่งที่อยู่ในนั้นและสิ่งที่อยู่ในนั้นและ B) วิธีเข้าถึงและใช้งาน และหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดคือการค้นพบสิ่งที่ท้าทายอีกอย่างหนึ่งคือการรู้ว่ามีอะไรอยู่ในนั้นและจะเข้าถึงมันอย่างไร

ฉันอาจจะรู้ว่าฉันมีฐานข้อมูลหลายสิบ แต่ฉันไม่รู้จริง ๆ ว่ามีอะไรอยู่ในนั้นหรือจะค้นหาว่ามีอะไรอยู่ในนั้นบ้างและอย่างสม่ำเสมอในขณะที่เราค้นพบข้อมูล pre-show คุณมีแนวโน้มที่จะ เพื่อเดินไปรอบ ๆ สำนักงานและถามคำถามและตะโกนข้ามกำแพงลูกบาศก์และลองคิดออกมาบ่อยครั้งที่ประสบการณ์ของฉันคือคุณอาจพบว่าคุณหลงทางไปที่แผนกต้อนรับแผนกต้อนรับส่วนหน้าและถามว่าใครรู้จักใครบ้าง คุณกำลังจะไปคุยกับ บ่อยครั้งที่มันไม่ใช่กลุ่มไอทีเสมอไปเพราะพวกเขาไม่รู้ชุดข้อมูลเพราะมีใครบางคนเพิ่งสร้างมันขึ้นมาและมันอาจจะเป็นอะไรที่เรียบง่ายเหมือน - บ่อยครั้งเราจะพบโครงการบางประเภทที่ยืนอยู่ในสภาพแวดล้อมไอทีและ ผู้จัดการโครงการใช้สเปรดชีตทุกสิ่งและได้รับข้อมูลที่มีค่าจำนวนมากเกี่ยวกับสินทรัพย์และบริบทและชื่อและถ้าคุณไม่ทราบว่าโครงการนั้นและคุณรู้จักบุคคลนั้นคุณก็ไม่สามารถหาข้อมูลนั้นได้ ไม่สามารถใช้งานได้และคุณจะต้องได้รับไฟล์ต้นฉบับนั้น

มีวลีหนึ่งที่เกี่ยวกับข้อมูลและฉันไม่จำเป็นต้องเห็นด้วยกับมัน แต่ฉันคิดว่ามันเป็นเรื่องเล็ก ๆ น้อย ๆ ที่น่ารักและนั่นก็คือผู้คนจำนวนหนึ่งคิดว่าข้อมูลเป็นน้ำมันตัวใหม่และฉัน แน่นอนว่าเราจะพูดถึงเรื่องนี้ในบางแง่มุมเช่นกันในวันนี้ แต่สิ่งที่ฉันสังเกตเห็นได้อย่างแน่นอนว่าเป็นส่วนหนึ่งของการเปลี่ยนแปลงนั้นคือองค์กรธุรกิจที่เรียนรู้ที่จะให้ความสำคัญกับข้อมูลของพวกเขาได้รับประโยชน์อย่างมากจากคู่แข่ง

มีบทความที่น่าสนใจจาก IBM เมื่อประมาณห้าหรือหกปีที่แล้วและพวกเขาสำรวจ บริษัท ประมาณ 4, 000 แห่งในออสเตรเลียและพวกเขาเอาข้อมูลทั้งหมดข้อมูลประสิทธิภาพทั้งหมดข้อมูลทางการเงินทั้งหมดมารวมกันในหม้อต้มจากนั้น ส่งไปยัง School of Economics ของออสเตรเลียและพวกเขาก็เริ่มมีแนวโน้มร่วมกันที่นี่และนั่นก็คือ บริษัท ที่ใช้ประโยชน์จากเทคโนโลยีได้รับความได้เปรียบในการแข่งขันเหนือคู่แข่งและคู่แข่งของพวกเขาต่อไปซึ่งคู่แข่งของพวกเขาแทบจะไม่ทัน ในกรณีนี้มีข้อมูลที่เราได้เห็นสิ่งที่ผู้คนเรียกว่าการแปลงระบบดิจิตอลซึ่งองค์กรต่างๆได้คิดอย่างชัดเจนถึงวิธีการค้นหาข้อมูลที่พวกเขามีเพื่อทำให้ข้อมูลนั้นพร้อมใช้งานและทำให้สามารถใช้งานได้ง่าย แฟชั่นให้กับองค์กรโดยไม่จำเป็นต้องรู้อยู่เสมอว่าทำไมองค์กรถึงต้องการมันและได้รับความได้เปรียบเหนือคู่แข่ง

ฉันมีตัวอย่างสองสามตัวอย่างในสไลด์นี้ซึ่งคุณสามารถดูได้ บรรทัดเดียวของฉันคือคือการหยุดชะงักขนาดใหญ่ในเกือบทุกภาคอุตสาหกรรมในมุมมองของฉันถูกขับเคลื่อนด้วยข้อมูลและหากแนวโน้มปัจจุบันเป็นอะไรไปตามมุมมองของฉันคือเราเพิ่งจะได้รับจริง ๆ เริ่มต้นเพราะเมื่อแบรนด์ที่มีชื่อเสียงมายาวนานตื่นขึ้นมาในความหมายของสิ่งนี้และเข้าสู่เกมพวกเขาจะเข้าสู่เกมในราคาขายส่ง เมื่อผู้ค้าปลีกรายใหญ่ที่มีเทือกเขาข้อมูลเริ่มใช้การวิเคราะห์ข้อมูลในอดีตหากพวกเขารู้ว่ามีอยู่จริงผู้เล่นออนไลน์บางคนจะได้รับการโทรปลุก

แต่ด้วยแบรนด์ส่วนใหญ่เหล่านี้ฉันหมายความว่าเรามี Uber ที่เป็น บริษัท รถแท็กซี่ที่ใหญ่ที่สุดในโลก พวกเขาไม่ได้เป็นเจ้าของรถแท็กซี่ดังนั้นสิ่งที่ทำให้พวกเขาวิเศษคืออะไรข้อมูลของพวกเขา? Airbnb ผู้ให้บริการที่พักที่ใหญ่ที่สุดเรามี WeChat บริษัท โทรศัพท์ที่ใหญ่ที่สุดในโลก แต่พวกเขาไม่มีโครงสร้างพื้นฐานที่แท้จริงและไม่มีโทรศัพท์มือถือไม่มีสายโทรศัพท์ Alibaba ผู้ค้าปลีกรายใหญ่ที่สุดในโลก แต่พวกเขาไม่ได้เป็นเจ้าของสินค้าคงคลังเลย Facebook บริษัท สื่อที่ใหญ่ที่สุดในคำว่า ฉันคิดว่าในที่สุดนับว่าพวกเขามีผู้ใช้ข้อมูลที่ใช้งานอยู่ 1.4 พันล้านคนในขณะนี้ซึ่งเป็นตัวเลขที่เหลือเชื่อ มันไม่ได้อยู่ใกล้ - ฉันคิดว่ามีคนอ้างว่าหนึ่งในสี่ของโลกอยู่ที่นั่นทุกวันและนี่คือผู้ให้บริการเนื้อหาที่ไม่ได้สร้างเนื้อหาจริง ๆ ข้อมูลทั้งหมดที่พวกเขาให้บริการไม่ได้ถูกสร้างขึ้น โดยสมาชิกของพวกเขาและเราทุกคนรู้แบบนี้

SocietyOne ซึ่งคุณอาจเคยได้ยินหรือเคยได้ยินมาก็คือแบรนด์ท้องถิ่นฉันคิดว่าในสองสามประเทศเป็นธนาคารที่ใช้การให้กู้ยืมแบบ peer-to-peer จริง ๆ ดังนั้นจึงไม่มีเงิน สิ่งที่มันทำคือจัดการธุรกรรมและข้อมูลตั้งอยู่ข้างใต้ Netflix เราทุกคนคุ้นเคยกับมันมาก มีหนึ่งซับที่น่าสนใจที่นี่ เมื่อ Netflix สามารถใช้งานได้อย่างถูกกฎหมายในประเทศออสเตรเลียเมื่อมีการประกาศอย่างเป็นทางการคุณไม่จำเป็นต้องใช้ VPN เพื่อเข้าถึงผู้คนมากมายทั่วโลกมีแนวโน้มที่จะ - ถ้าคุณไม่สามารถไปถึงที่นั่นในพื้นที่ของคุณ - เมื่อเปิดตัว Netfix ในออสเตรเลียมันจะเพิ่มแบนด์วิดธ์ระหว่างประเทศในการเชื่อมโยงอินเทอร์เน็ตของเรา 40% ดังนั้นจึงเพิ่มการใช้อินเทอร์เน็ตในออสเตรเลียเกือบสองเท่าในชั่วข้ามคืนโดยใช้เพียงแอปพลิเคชั่นเดียว มันเป็นเพียงสถิติที่เหลือเชื่อ

และแน่นอนว่าเราทุกคนต่างคุ้นเคยกับ Apple และ Google แต่สิ่งเหล่านี้เป็นธุรกิจซอฟต์แวร์ที่ใหญ่ที่สุดในโลก แต่พวกเขาไม่ได้เขียนแอปจริงๆ สิ่งที่สอดคล้องกับองค์กรเหล่านี้คืออะไร? มันเป็นข้อมูลและพวกเขาไม่ได้ไปที่นั่นเพราะพวกเขาไม่รู้ว่าข้อมูลของพวกเขาอยู่ที่ไหนและพวกเขาไม่รู้วิธีการจัดทำแคตาล็อก

สิ่งที่เราค้นพบตอนนี้คือว่ามีหมวดสินทรัพย์ใหม่ทั้งหมดที่เรียกว่าข้อมูลและ บริษัท กำลังตื่นขึ้นมา แต่พวกเขาไม่ได้มีเครื่องมือและความรู้และวิธีการที่จะแมปข้อมูลทั้งหมดนั้นเสมอแคตตาล็อกข้อมูลทั้งหมดและทำให้พร้อมใช้งาน แต่เราพบว่า บริษัท ที่เกือบจะไม่มีสินทรัพย์ทางกายภาพได้รับมูลค่าตลาดสูงใน บันทึกเวลาผ่านหมวดสินทรัพย์ข้อมูลใหม่นี้ อย่างที่ฉันได้พูดไปแล้วผู้เล่นเก่าบางคนกำลังตื่นขึ้นมาแล้วและนำมันออกมาอย่างแน่นอน

ฉันเป็นแฟนตัวยงของการเดินทางในการเดินทางเล็ก ๆ น้อย ๆ ดังนั้นในศตวรรษที่สิบแปดและสิบแปดปลายและคุณจะคุ้นเคยกับสิ่งนี้ในตลาดสหรัฐอเมริกามันกลายเป็นว่าการสำรวจสำมะโนประชากร ในแต่ละปีฉันคิดว่าพวกเขาวิ่งไปทุก ๆ สิบปี ณ จุดนั้น แต่ถ้าคุณจะทำการสำรวจสำมะโนประชากรทุกปีคุณอาจต้องใช้เวลาถึงแปดหรือเก้าปีในการวิเคราะห์ข้อมูล ปรากฎว่าชุดข้อมูลนั้นถูกทิ้งไว้ในกล่องในสถานที่ในกระดาษและเกือบจะไม่มีใครสามารถหาได้ พวกเขาเก็บรายงานเหล่านี้เอาไว้ แต่ข้อมูลจริงยากมากที่จะได้รับเรามีสถานการณ์ที่คล้ายกันกับช่วงเวลาสำคัญอื่น ๆ ของโลกในช่วงปี 1940 กับสงครามโลกครั้งที่สองและสิ่งนี้คือ Bletchley Park Bombe สะกด BOMBE และมันเป็นเครื่องมือวิเคราะห์จำนวนมหาศาลที่ต้องผ่านชุดข้อมูลขนาดเล็กและค้นหาสัญญาณในนั้นและนำมาใช้เพื่อช่วยถอดรหัสรหัสผ่านปริศนา

สิ่งนี้อีกครั้งเป็นอุปกรณ์ที่ได้รับการออกแบบไม่มากในแคตตาล็อก แต่เพื่อติดแท็กและข้อมูลแผนที่และทำให้สามารถใช้รูปแบบและค้นหาภายในชุดข้อมูลในกรณีนี้รหัสที่ผิดค้นหาคีย์และวลีและค้นหา พวกมันเป็นประจำในชุดข้อมูลและเราได้ผ่านการเดินทางครั้งนี้เพื่อค้นหาสิ่งต่าง ๆ ในข้อมูลและนำไปสู่การทำรายการข้อมูล

และจากนั้นสิ่งเหล่านี้ก็มาพร้อมกับชั้นวางเครื่องจักรขนาดใหญ่ราคาถูกเหล่านี้ และเราได้ทำสิ่งที่น่าสนใจและหนึ่งในสิ่งที่เราทำกับพวกเขาคือเราสร้างกลุ่มที่มีต้นทุนต่ำมากที่สามารถเริ่มต้นสร้างดัชนีดาวเคราะห์และมีชื่อเสียงมากแบรนด์ใหญ่เหล่านี้ที่มาและไป แต่ Google อาจเป็นบ้านที่พบบ่อยที่สุด แบรนด์ที่เราทุกคนเคยได้ยิน - มันกลายเป็นคำกริยาจริงและคุณรู้ว่าคุณประสบความสำเร็จเมื่อแบรนด์ของคุณกลายเป็นคำกริยา แต่สิ่งที่ Google สอนเราโดยไม่ทราบว่าอาจเป็นไปได้ในโลกธุรกิจคือพวกเขาสามารถสร้างดัชนีดาวเคราะห์ทั้งโลกในระดับหนึ่งและจัดทำแคตาล็อกข้อมูลที่อยู่รอบโลกและทำให้มันง่ายมาก รูปแบบที่สะดวกสบายในสูตรบรรทัดเดียวเล็ก ๆ หน้าเว็บที่แทบไม่มีอะไรเลยและคุณพิมพ์ลงในคิวรีของคุณมันจะไปและค้นหาเพราะพวกเขาคลานดาวเคราะห์แล้วจัดทำดัชนีและทำให้มันใช้งานได้ง่าย

และสิ่งที่เราสังเกตเห็นคือ“ เอาล่ะเราไม่ได้ทำในองค์กร - ทำไมล่ะ เหตุใดเราจึงมีองค์กรที่สามารถทำแผนที่โลกทั้งโลกและจัดทำดัชนีรวบรวมข้อมูลและจัดทำดัชนีและทำให้พร้อมใช้งานเราสามารถค้นหาได้จากนั้นคลิกที่สิ่งที่จะไปหามันมาทำไม ยังไม่ได้ทำภายในเลยเหรอ? "มีตู้แร็คเล็ก ๆ จำนวนมากทั่วโลกในขณะนี้ที่ทำเพื่ออินทราเน็ตและค้นหาสิ่งต่าง ๆ แต่พวกเขายังคงเพิ่งเข้ามาจับกับความคิดที่จะก้าวข้ามเว็บแบบดั้งเดิม หน้าหรือเซิร์ฟเวอร์ไฟล์

แทนที่จะเข้าสู่แคตตาล็อกข้อมูลรุ่นต่อไปในหลาย ๆ ทางการค้นพบการเข้าถึงข้อมูลผ่านโพสต์ - อิทและการสนทนาทางน้ำก็ไม่ใช่วิธีที่เหมาะสมสำหรับการค้นหาข้อมูลและการทำแคตตาล็อกอีกต่อไปและในความเป็นจริง จริงๆแล้ว เราไม่สามารถนำไปสู่ความท้าทายทั้งหมดต่อผู้คนที่เพิ่งผ่านบันทึกย่อและโพสต์บันทึกย่อและสนทนากับมัน ตอนนี้เราอยู่ไกลเกินกว่าจะเป็นจริงแล้วตอนนี้แนวทางการทำแคตตาล็อกข้อมูลรุ่นต่อไปได้หายไปแล้ว เราต้องเอาแขนโอบรอบมัน หากนี่เป็นปัญหาที่ง่ายเราจะแก้ไขมันได้หลายวิธีก่อนหน้านี้ แต่ฉันคิดว่ามันไม่ใช่ปัญหาง่ายเพียงการสร้างดัชนีและการเรียกข้อมูลเป็นเพียงส่วนหนึ่งของการรู้ว่ามีอะไรอยู่ในข้อมูลและ การสร้างข้อมูลเมตารอบ ๆ สิ่งที่เราค้นพบจากนั้นทำให้มันพร้อมใช้งานในรูปแบบที่ง่ายและสิ้นเปลืองโดยเฉพาะการบริการตนเองและการวิเคราะห์ มันยังคงเป็นปัญหาที่แก้ไขได้ แต่หลาย ๆ ส่วนของปริศนาในห้าปีนั้นดีและแก้ไขได้จริงและพร้อมใช้งาน

อย่างที่เราทราบกันดีว่าการบันทึกข้อมูลมนุษย์เป็นสูตรสำหรับความล้มเหลวเพราะความผิดพลาดของมนุษย์เป็นหนึ่งในฝันร้ายที่ยิ่งใหญ่ที่สุดที่เราจัดการในการประมวลผลข้อมูลและฉันพูดถึงหัวข้อนี้เป็นประจำในมุมมองของฉัน เราจัดการกับข้อมูลขนาดใหญ่และการวิเคราะห์เพื่อแก้ไขสิ่งที่พวกเขาทำอย่างต่อเนื่องแม้กระทั่งสิ่งที่ง่าย ๆ เช่นวันที่และฟิลด์ผู้คนใส่มันในรูปแบบที่ไม่ถูกต้อง

แต่อย่างที่ฉันได้กล่าวไปแล้วเราได้เห็นเครื่องมือค้นหาทางอินเทอร์เน็ตจัดทำดัชนีโลกทุกวันดังนั้นตอนนี้เราจึงทำตามแนวคิดที่สามารถทำได้ในชุดข้อมูลธุรกิจในกระบวนการค้นหาและเครื่องมือและระบบต่าง ๆ ในตอนนี้ มีให้พร้อมในขณะที่คุณกำลังจะเรียนรู้วันนี้ ดังนั้นเคล็ดลับในมุมมองของฉันคือการเลือกเครื่องมือที่เหมาะสมซึ่งเป็นเครื่องมือที่ดีที่สุดสำหรับงาน และยิ่งไปกว่านั้นการค้นหาส่วนที่เหมาะสมเพื่อช่วยให้คุณเริ่มต้นเส้นทางนี้ และฉันเชื่อว่าเราจะได้ยินเกี่ยวกับเรื่องนี้ในวันนี้ แต่ก่อนที่เราจะทำอย่างนั้นฉันจะต้องผ่านไปยังวิทยาลัยของฉัน Robin Bloor และฟังเรื่องของเขา Robin ฉันจะส่งผ่านไปให้คุณได้ไหม?

Robin Bloor: ใช่แน่นอนคุณทำได้ ลองดูว่ามันใช้งานได้หรือไม่ โอเคฉันมาจากทิศทางที่แตกต่างจาก Dez จริง ๆ แต่ฉันจะไปอยู่ในที่เดียวกัน นี่เป็นเรื่องเกี่ยวกับการเชื่อมต่อข้อมูลดังนั้นฉันคิดว่าฉันต้องผ่านความเป็นจริงของการเชื่อมต่อข้อมูลแบบจุดต่อจุดจริงๆ

มีข้อเท็จจริงที่ว่าข้อมูลมีการแยกส่วนมากกว่าที่เคยเป็นมา ปริมาณของข้อมูลเพิ่มขึ้นอย่างน่าอัศจรรย์ แต่ในความเป็นจริงแหล่งข้อมูลที่แตกต่างก็เติบโตในอัตราที่ไม่น่าเชื่อและทำให้ข้อมูลมีการแยกส่วนมากขึ้นตลอดเวลา แต่โดยเฉพาะแอพพลิเคชั่นการวิเคราะห์ - แต่มันไม่ได้เป็นเพียงแอพพลิเคชั่นเท่านั้น - เรามีเหตุผลที่ดีที่จะเชื่อมต่อกับข้อมูลทั้งหมดนี้ดังนั้นเราจึงติดอยู่ในที่ที่ยากเราติดอยู่ในโลกของข้อมูลที่กระจัดกระจาย และมีโอกาสในข้อมูลเมื่อ Dez เรียกมันว่าน้ำมันตัวใหม่

เกี่ยวกับข้อมูลก็เคยอาศัยอยู่บนดิสก์หมุนทั้งในระบบไฟล์หรือฐานข้อมูล ตอนนี้มันอาศัยอยู่ในสภาพแวดล้อมที่หลากหลายมากขึ้นมันอาศัยอยู่ในระบบไฟล์ แต่มันก็ยังมีชีวิตอยู่ในอินสแตนซ์ของ Hadoop ทุกวันนี้หรือแม้แต่อินสแตนซ์ของ Spark มันอาศัยอยู่ในฐานข้อมูลหลายชนิด เมื่อไม่นานมานี้เราได้สร้างฐานข้อมูลเชิงสัมพันธ์บางส่วนให้คุณรู้ว่ามันออกไปนอกหน้าต่างในห้าปีที่ผ่านมาเพราะมีความต้องการฐานข้อมูลเอกสารและมีความต้องการฐานข้อมูลกราฟดังนั้นคุณรู้ว่าเกมมี การเปลี่ยนแปลง ดังนั้นมันจึงอาศัยอยู่ในดิสก์หมุน แต่ตอนนี้ใช้งานบน SSD แล้ว จำนวน SSD ล่าสุด - หน่วย SSD ล่าสุดออกมาจากซัมซุง - ยี่สิบกิกะไบต์ซึ่งมีขนาดใหญ่มาก ตอนนี้มันอาศัยอยู่ในหน่วยความจำในแง่ที่ว่าสำเนาที่สำคัญของข้อมูลสามารถอยู่ในหน่วยความจำมากกว่าบนดิสก์เราไม่ได้ใช้ในการสร้างระบบเช่นนั้น เราทำแล้ว และมันอาศัยอยู่ในก้อนเมฆ ซึ่งหมายความว่ามันสามารถอยู่ในสิ่งเหล่านี้ได้ในระบบคลาวด์คุณไม่จำเป็นต้องรู้ว่ามันอยู่ที่ไหนในคลาวด์คุณจะมีที่อยู่ของมันเท่านั้น

Hadoop มีจุดประสงค์ที่จะส่งกลับบ้านและล้มเหลวในการเป็นแหล่งข้อมูลที่สามารถขยายได้ เราหวังว่ามันจะกลายเป็นแหล่งเก็บข้อมูลขนาดใหญ่ที่ขยายออกไปและมันก็จะกลายเป็นระบบไฟล์เดียวสำหรับทุกสิ่งและมัน - สายรุ้งจะปรากฏขึ้นบนท้องฟ้าโดยทั่วไปแล้วยูนิคอร์นจะเต้นไปรอบ ๆ และไม่มีสิ่งใดเกิดขึ้น ซึ่งหมายความว่าเราจบลงด้วยปัญหาการส่งข้อมูลและบางครั้งก็ไม่มีความจำเป็นในการรับส่งข้อมูล แต่มันก็ยากเช่นกัน ข้อมูลมีแรงดึงดูดจริงๆในปัจจุบันเมื่อคุณได้รับข้อมูลหลายเทราไบต์ยกขึ้นแล้วขว้างมันไปรอบ ๆ สาเหตุของเวลาแฝงที่จะปรากฏบนเครือข่ายของคุณหรือปรากฏในที่ต่าง ๆ หากคุณต้องการขนส่งข้อมูลรอบระยะเวลาเป็นปัจจัย ทุกวันนี้มีข้อ จำกัด บางประการเกี่ยวกับเวลาที่คุณได้รับสิ่งหนึ่งข้อมูลจากที่หนึ่งไปอีกที่หนึ่ง เคยเป็นสิ่งที่เราเคยคิดว่าเป็นหน้าต่างแบตช์เมื่อเครื่องไม่ได้ใช้งานและไม่ว่าคุณจะมีข้อมูลมากแค่ไหนคุณก็สามารถโยนมันไปได้ เราไปใช้ชีวิตในโลกแห่งเวลาจริงมากขึ้น ดังนั้นเวลาจึงเป็นปัจจัย ทันทีที่คุณต้องการย้ายข้อมูลไปรอบ ๆ ดังนั้นหากข้อมูลมีแรงโน้มถ่วงคุณอาจไม่สามารถย้ายข้อมูลได้

การจัดการข้อมูลเป็นปัจจัยในแง่ที่ว่าคุณต้องจัดการข้อมูลทั้งหมดนี้จริง ๆ คุณไม่ได้รับข้อมูลนั้นฟรีและการจำลองแบบอาจจำเป็นเพื่อให้ได้รับข้อมูลจริงเพื่อทำงานที่ต้องทำเพราะ มันอาจจะไม่ได้ทุกที่ที่คุณใส่มัน อาจมีทรัพยากรไม่เพียงพอที่จะทำการประมวลผลข้อมูลตามปกติ ดังนั้นข้อมูลจึงได้รับการทำซ้ำและข้อมูลจะถูกทำซ้ำมากกว่าที่คุณจินตนาการ ฉันคิดว่ามีคนบอกฉันเมื่อนานมาแล้วว่ามีการจำลองข้อมูลเฉลี่ยอย่างน้อยสองครั้งครึ่ง ESB หรือ Kafka นำเสนอตัวเลือกสำหรับการรับส่งข้อมูล แต่ทุกวันนี้มันต้องการสถาปัตยกรรม ทุกวันนี้คุณต้องคิดอย่างใดอย่างหนึ่งเกี่ยวกับความหมายของการโยนข้อมูล ดังนั้นในการเข้าถึงข้อมูลที่เป็นปกติมักจะดีกว่าตราบใดที่คุณสามารถรับประสิทธิภาพที่คุณต้องการเมื่อคุณไปหาข้อมูลและขึ้นอยู่กับบริบท ดังนั้นจึงเป็นสถานการณ์ที่ยากลำบากอยู่ดี ในแง่ของการสืบค้นข้อมูลเราเคยคิดในแง่ของ SQL เราได้เกิดขึ้นจริง ๆ ตอนนี้คุณรู้แล้วแบบสอบถามรูปแบบต่าง ๆ SQL ใช่ แต่ที่อยู่ติดกันและแบบสอบถามกราฟ Spark เป็นเพียงตัวอย่างหนึ่งของ การทำกราฟเพราะเราจำเป็นต้องทำการค้นหาข้อความมากกว่าที่เราเคยทำเช่นเดียวกันการค้นหาประเภท regex ซึ่งเป็นการค้นหารูปแบบที่ซับซ้อนและการจับคู่รูปแบบของแท้สิ่งเหล่านี้ล้วนขัดข้องจริง และพวกเขาทั้งหมดมีประโยชน์เพราะพวกเขาได้รับสิ่งที่คุณกำลังมองหาหรือพวกเขาจะได้รับสิ่งที่คุณกำลังมองหา

การค้นหาวันนี้ขยายข้อมูลหลาย ๆ ครั้งดังนั้นจึงไม่ได้ทำเช่นนั้นเสมอไปและบ่อยครั้งที่ประสิทธิภาพนั้นน่ากลัวหากคุณทำเช่นนั้น ดังนั้นมันขึ้นอยู่กับสถานการณ์ แต่ผู้คนคาดหวังว่าจะสามารถสืบค้นข้อมูลจากแหล่งข้อมูลหลาย ๆ แหล่งได้ดังนั้นการรวมข้อมูลประเภทหนึ่งหรืออีกประเภทหนึ่งกลายเป็นกระแสมากขึ้นเรื่อย ๆ การจำลองเสมือนข้อมูลซึ่งเป็นวิธีที่แตกต่างกันในการดำเนินการขึ้นอยู่กับประสิทธิภาพนั้นเป็นเรื่องปกติเช่นกัน แบบสอบถามข้อมูลจริง ๆ แล้วเป็นส่วนหนึ่งของกระบวนการไม่ใช่กระบวนการทั้งหมด เป็นเพียงการชี้ให้เห็นว่าถ้าคุณกำลังดูประสิทธิภาพของการวิเคราะห์จริงการวิเคราะห์ที่เกิดขึ้นจริงอาจใช้เวลานานกว่าการรวบรวมข้อมูลที่น่ากลัวเพราะมันขึ้นอยู่กับสถานการณ์ แต่แบบสอบถามข้อมูลเป็นสิ่งจำเป็นอย่างยิ่งหากคุณต้องการ ชนิดของการวิเคราะห์ในแหล่งข้อมูลหลาย ๆ อันและจริง ๆ แล้วคุณต้องมีความสามารถที่ครอบคลุมจริงๆ

ดังนั้นเกี่ยวกับแคตตาล็อก แคตตาล็อกมีอยู่ด้วยเหตุผลอย่างน้อยเรากำลังบอกว่าคุณรู้ว่ามันมีไดเรกทอรีและเรามี schemas ในฐานข้อมูลและเรามีแคตตาล็อกแต่ละรายการและเรามีทุกที่ที่คุณไปคุณจะพบที่เดียวแล้วคุณจะ พบว่ามีแค็ตตาล็อกบางประเภทและแค็ตตาล็อกส่วนกลางที่รวมเป็นความคิดที่ดีอย่างเห็นได้ชัด แต่มีเพียงไม่กี่ บริษัท ที่มีเรื่องแบบนี้ ฉันจำได้ว่าย้อนกลับไปในปีสองพัน - ปีสองพันตื่นตระหนก - ฉันจำได้ว่าคอมมิวนิสต์ไม่สามารถระบุจำนวนปฏิบัติการที่พวกเขามีได้ไม่เคยคิดเลยว่าจะมีแหล่งเก็บข้อมูลที่แตกต่างกันมากมายและอาจเป็นกรณีนี้ คุณรู้ไหมว่า บริษัท ส่วนใหญ่ไม่ได้รู้อย่างจริงจังในความหมายระดับโลกว่ามีข้อมูลใดบ้าง แต่เห็นได้ชัดว่ามีความจำเป็นมากขึ้นเรื่อย ๆ ที่จะมีแคตตาล็อกทั่วโลกหรืออย่างน้อยก็มีภาพระดับโลกของสิ่งที่เกิดขึ้นเนื่องจากการเติบโตของแหล่งข้อมูลและการเติบโตอย่างต่อเนื่องของแอปพลิเคชัน เพราะคุณเป็นหนึ่งในวิธีการและมีปัญหาอื่น ๆ ที่นี่เช่นเชื้อสายและปัญหาเกี่ยวกับข้อมูลและมันเป็นสิ่งจำเป็นสำหรับการรักษาความปลอดภัยด้านต่าง ๆ ของการกำกับดูแลข้อมูลถ้าคุณไม่รู้จริง ๆ ว่าคุณมีข้อมูลความคิด ว่าคุณจะปกครองมันก็ไร้สาระ ดังนั้นข้อมูลทั้งหมดจะถูกจัดหมวดหมู่อย่างใดเป็นความจริง คำถามคือแคตตาล็อกมีความสอดคล้องกันหรือไม่และที่จริงแล้วคุณสามารถทำอะไรกับมันได้บ้าง ดังนั้นฉันจะกลับไปที่รีเบคก้า

Rebecca Jozwiak: โอเคขอบคุณ Robin ต่อไปเราจะได้ David Crawford จาก Alation, David ฉันจะไปข้างหน้าและส่งบอลให้คุณและคุณสามารถนำมันออกไปได้

David Crawford: ขอบคุณมาก ฉันขอขอบคุณพวกคุณที่มีฉันในรายการนี้ ฉันคิดว่าฉันกำลังจะเริ่มต้นสิ่งนี้ดังนั้นฉันคิดว่าบทบาทของฉันที่นี่คือการใช้ทฤษฎีนั้นและดูว่ามันถูกนำไปใช้จริงอย่างไรและผลลัพธ์ที่เราสามารถขับไปที่ลูกค้าจริงและเพื่อให้คุณเห็น ไม่กี่บนสไลด์ฉันต้องการพูดคุยเกี่ยวกับผลลัพธ์ที่เราจะสามารถเห็นในการวิเคราะห์อาจปรับปรุง ดังนั้นเพื่อกระตุ้นการสนทนาเราจะพูดคุยเกี่ยวกับวิธีการที่พวกเขามาถึงที่นั่น ดังนั้นฉันโชคดีที่ได้ทำงานอย่างใกล้ชิดกับคนฉลาดจริง ๆ จำนวนมากลูกค้าเหล่านี้และฉันต้องการชี้ให้คนจำนวนน้อยที่สามารถวัดได้จริงและพูดคุยว่าการมีแค็ตตาล็อกข้อมูลส่งผลกระทบต่อนักวิเคราะห์อย่างไร ขั้นตอนการทำงาน และเพื่ออยู่ข้างหน้าชั่วครู่หนึ่งฉันคิดว่าหนึ่งในสิ่งที่เราเห็นการเปลี่ยนแปลงด้วยแค็ตตาล็อกข้อมูลข้อแก้ปัญหาสื่อกลางก่อนหน้านี้และหนึ่งในวิธีการที่ความสัมพันธ์คิดเกี่ยวกับการแก้ปัญหาที่เราใส่กันคือการเริ่มต้นจากนักวิเคราะห์ และทำงานย้อนหลัง ถ้าจะพูดให้ทำอย่างนี้เกี่ยวกับการเปิดใช้งานผลผลิตของนักวิเคราะห์ เมื่อเทียบกับการปฏิบัติตามกฎระเบียบหรือเมื่อเทียบกับการมีสินค้าคงคลังเรากำลังทำเครื่องมือที่ทำให้นักวิเคราะห์มีประสิทธิผลมากขึ้น

ดังนั้นเมื่อฉันพูดคุยกับนักวิทยาศาสตร์ข้อมูลที่ บริษัท ให้บริการด้านการเงิน Square มี Nick คนหนึ่งที่บอกเราเกี่ยวกับวิธีการของเขาเขาเคยใช้เวลาหลายชั่วโมงในการค้นหาชุดข้อมูลที่ถูกต้องเพื่อเริ่มรายงานตอนนี้เขาสามารถ ทำในไม่กี่วินาทีโดยใช้การค้นหาที่ส่วนแบ่งการตลาดเราได้พูดคุยกับ CTO ของพวกเขาที่ดึงนักวิเคราะห์ของเขาที่ใช้ Square มาขอโทษฉันใช้ Alation เพื่อค้นหาสิ่งที่พวกเขาเห็นประโยชน์อะไรและพวกเขารายงาน 50 เปอร์เซ็นต์การเพิ่มผลผลิตและนั่นเป็นหนึ่งในผู้ค้าปลีกชั้นนำของโลกอย่าง eBay พวกเขามีคนมากกว่าหนึ่งพันคนที่ทำการวิเคราะห์ SQL เป็นประจำและฉันก็ทำงานอย่างใกล้ชิดกับ Deb Says ที่นั่นซึ่งเป็นโครงการ ผู้จัดการในทีมเครื่องมือข้อมูลของพวกเขาและเธอพบว่าเมื่อ Queriers นำ Alation มาใช้แคตตาล็อกพวกเขาจะเห็นความเร็วในการเขียนแบบสอบถามใหม่สองเท่ากับฐานข้อมูล

ดังนั้นนี่คือผลลัพธ์ที่แท้จริงคนเหล่านี้ใช้แคตตาล็อกในองค์กรของพวกเขาจริง ๆ และฉันต้องการที่จะนำคุณผ่านสิ่งที่ต้องใช้ในการตั้งค่า วิธีสร้างแคตตาล็อกใน บริษัท และสิ่งที่สำคัญที่สุดในการพูดคือว่ามันเกิดขึ้นโดยอัตโนมัติดังนั้น Dez จึงพูดคุยเกี่ยวกับระบบเรียนรู้เกี่ยวกับระบบและนั่นคือสิ่งที่แคตาล็อกข้อมูลสมัยใหม่ทำ ดังนั้นพวกเขาจึงติดตั้ง Alation ในศูนย์ข้อมูลแล้วเชื่อมต่อกับแหล่งข้อมูลเมตาต่างๆในสภาพแวดล้อมข้อมูลของพวกเขา ฉันจะมุ่งเน้นไปที่ฐานข้อมูลและเครื่องมือ BI เล็กน้อยจากทั้งสองอย่างนี้เราจะแยกเมทาดาทาทางเทคนิคเกี่ยวกับสิ่งที่มีอยู่โดยทั่วไป ใช่แล้วตารางอะไร รายงานอะไร คำจำกัดความของรายงานคืออะไร ดังนั้นพวกเขาจึงแยกเมทาดาทาเชิงเทคนิคนั้นออกและหน้าแคตาล็อกจะถูกสร้างขึ้นโดยอัตโนมัติสำหรับทุก ๆ วัตถุภายในระบบเหล่านั้นจากนั้นพวกมันก็จะแยกและเลเยอร์ที่ด้านบนของเมทาดาทาทางเทคนิคนั้น ส่วนใหญ่แล้วจะทำโดยการอ่านบันทึกแบบสอบถามจากฐานข้อมูลและนี่คือแหล่งข้อมูลที่น่าสนใจจริงๆ ดังนั้นเมื่อใดก็ตามที่นักวิเคราะห์เขียนแบบสอบถามเมื่อใดก็ตามที่เครื่องมือการรายงานไม่ว่ามันจะเป็นบ้านหรือนอกชั้นวางไม่ว่าจะเป็นเครื่องมือการรายงานเรียกใช้แบบสอบถามเพื่อปรับปรุงแดชบอร์ดเมื่อแอปพลิเคชันรันแบบสอบถามเพื่อแทรกข้อมูลเพื่อดำเนินการ ชุดข้อมูล - สิ่งเหล่านั้นทั้งหมดถูกจับในบันทึกแบบสอบถามฐานข้อมูล ไม่ว่าคุณจะมีแคตตาล็อกหรือไม่แคตตาล็อกเหล่านี้จะถูกบันทึกไว้ในบันทึกการสืบค้นด้วยฐานข้อมูล แคตตาล็อกข้อมูลสามารถทำอะไรได้และโดยเฉพาะอย่างยิ่งสิ่งที่แคตตาล็อกของ Alation สามารถทำได้คืออ่านบันทึกเหล่านั้นถามคำถามภายในและสร้างกราฟการใช้งานที่น่าสนใจตามบันทึกเหล่านั้นและเรานำสิ่งนั้นมาเล่นเพื่อแจ้งผู้ใช้ในอนาคต ของข้อมูลเกี่ยวกับวิธีที่ผู้ใช้ข้อมูลในอดีตใช้

ดังนั้นเรานำความรู้ทั้งหมดนั้นมารวมกันเป็นแคตตาล็อกและเพื่อทำให้เป็นจริงสิ่งเหล่านี้คือการรวมระบบที่ลูกค้าได้ใช้งานไปแล้วดังนั้นเราจึงได้เห็น Oracle, Teradata, Redshift, Vertica และอีกมากมาย ฐานข้อมูลเชิงสัมพันธ์ ในโลก Hadoop มีช่วงของ SQL บน Hadoop เรียงลำดับเชิงสัมพันธ์ meta เก็บอยู่ด้านบนของระบบไฟล์ Hadoop, Impala, Tez, Presto และ Hive เราได้เห็นความสำเร็จกับคลาวด์ Hadoop ผู้ให้บริการส่วนตัวเช่น Altiscale และเรา ยังสามารถเชื่อมต่อกับเซิร์ฟเวอร์ Tableau เซิร์ฟเวอร์ MicroStrategy และจัดทำดัชนีแดชบอร์ดที่นั่นรวมถึงการผสานรวมกับเครื่องมือสร้างแผนภูมิข้อมูลวิทยาศาสตร์เช่น Plotly

ดังนั้นเราเชื่อมต่อกับระบบเหล่านี้ทั้งหมดเราเชื่อมต่อระบบเหล่านี้กับลูกค้าเราได้ดึงข้อมูลเมตาทางเทคนิคเราได้ดึงข้อมูลการใช้งานและเราจัดเรียงแคตตาล็อกข้อมูลโดยอัตโนมัติ แต่ด้วยวิธีนี้เรา รวบรวมความรู้ แต่เพียงรวมสิ่งเข้าไว้ในแคตตาล็อกข้อมูลไม่ได้จัดเตรียมประสิทธิภาพการผลิตที่ยอดเยี่ยมจริง ๆ ที่เราได้พูดถึงด้วย eBay, Square และส่วนแบ่งตลาด ในการทำเช่นนั้นเราจำเป็นต้องเปลี่ยนวิธีที่เราคิดเกี่ยวกับการส่งมอบความรู้ให้กับนักวิเคราะห์ หนึ่งในคำถามที่พวกเขาขอให้เตรียมสำหรับเรื่องนี้คือ“ แคตตาล็อกมีผลกระทบต่อกระบวนการทำงานของนักวิเคราะห์อย่างไรจริง ๆ ”

นั่นคือสิ่งที่เราใช้เวลาทั้งวันในการคิดและเพื่อที่จะพูดคุยเกี่ยวกับการเปลี่ยนแปลงในความคิดของแบบจำลองการผลักดันฉันต้องการทำให้การเปรียบเทียบอย่างรวดเร็วกับสิ่งที่โลกเป็นเหมือนก่อนและหลังการอ่านบน Kindle ดังนั้นมันเป็นเพียงประสบการณ์ที่คุณบางคนอาจมีเมื่อคุณกำลังอ่านหนังสือทางกายภาพคุณเจอคำคุณไม่แน่ใจว่าคุณรู้คำนิยามของคำนั้นดีมากคุณอาจเดาได้จากบริบทไม่ใช่ว่าคุณ กำลังจะลุกจากที่นอนเดินไปที่ชั้นหนังสือของคุณค้นหาพจนานุกรมของคุณปัดฝุ่นและพลิกไปยังตำแหน่งที่ถูกต้องในรายชื่อเรียงตามตัวอักษรของคำเพื่อให้แน่ใจว่าใช่คุณมีความหมายที่ถูกต้องและคุณรู้ ความแตกต่างของมัน ดังนั้นจึงไม่เกิดขึ้นจริง ดังนั้นคุณจึงซื้อแอพ Kindle และเริ่มอ่านหนังสือที่นั่นและคุณเห็นคำศัพท์ที่คุณไม่แน่ใจทั้งหมดและคุณสัมผัสคำนั้น ทั้งหมดในทันทีในหน้าจอเดียวกันนั้นคือคำจำกัดความพจนานุกรมของคำที่มีความแตกต่างของมันตัวอย่างการใช้งานที่แตกต่างกันและคุณกวาดนิ้วไปนิดหน่อยและคุณได้รับบทความ Wikipedia ในหัวข้อนั้นคุณปัดอีกครั้ง คุณได้รับเครื่องมือแปลภาษาที่สามารถแปลเป็นภาษาอื่นหรือจากภาษาอื่น ๆ และความรู้ภาษาของคุณนั้นก็ยิ่งดีขึ้นและมันก็เกิดขึ้นอย่างน่าประหลาดใจเมื่อเทียบกับจำนวนครั้งที่คุณต้องไปและ ดึงทรัพยากรนั้นสำหรับตัวคุณเอง

และสิ่งที่ฉันจะโต้แย้งก็คือขั้นตอนการทำงานของนักวิเคราะห์และวิธีที่นักวิเคราะห์จะจัดการกับเอกสารข้อมูลนั้นคล้ายกับวิธีที่ผู้อ่านโต้ตอบกับพจนานุกรมไม่ว่าจะเป็นทางกายภาพหรือ Kindle และสิ่งที่เราเห็นจริง ๆ ว่าการเพิ่มประสิทธิภาพการผลิตนี้ไม่ใช่การกระจายแคตตาล็อก แต่เป็นการเชื่อมต่อกับเวิร์กโฟลว์ของนักวิเคราะห์ดังนั้นพวกเขาจึงขอให้ฉันสาธิตที่นี่และฉันต้องการ เพื่อให้จุดเน้นของงานนำเสนอนี้ แต่ฉันแค่ต้องการตั้งค่าบริบทสำหรับการสาธิต เมื่อเราคิดเกี่ยวกับการผลักดันความรู้ข้อมูลไปยังผู้ใช้เมื่อพวกเขาต้องการเราคิดว่าสถานที่ที่เหมาะสมในการทำเช่นนั้นสถานที่ที่พวกเขาใช้เวลาและสถานที่ที่พวกเขากำลังทำการวิเคราะห์เป็นเครื่องมือแบบสอบถาม SQL สถานที่ที่คุณเขียนและเรียกใช้แบบสอบถาม SQL ดังนั้นเราจึงสร้างมันขึ้นมาและสร้างมันขึ้นมาและสิ่งที่แตกต่างจากเครื่องมือการสืบค้นอื่น ๆ ก็คือการรวมเข้ากับแค็ตตาล็อกข้อมูลอย่างลึกซึ้ง

ดังนั้นเครื่องมือสืบค้นของเราจึงเรียกว่า Alation Compose มันเป็นเครื่องมือสืบค้นทางเว็บและฉันจะแสดงให้คุณเห็นในไม่ช้า เครื่องมือสืบค้นบนเว็บที่ทำงานกับโลโก้ฐานข้อมูลทั้งหมดที่คุณเห็นในสไลด์ก่อนหน้า สิ่งที่ฉันจะลองสาธิตเป็นพิเศษคือวิธีที่ข้อมูลแค็ตตาล็อกมาถึงผู้ใช้ และมันผ่านสามวิธีที่แตกต่างกันเหล่านี้ มันทำผ่านการแทรกแซงและนั่นคือสิ่งที่ใครบางคนที่เป็นผู้ว่าราชการข้อมูลหรือผู้ดูแลข้อมูลหรือผู้ดูแลระบบหรือผู้จัดการสามารถพูดว่า "ฉันต้องการเรียงลำดับข้อความด้วยคำเตือนหรือคำเตือนใน เวิร์กโฟลว์และตรวจสอบให้แน่ใจว่ามีการส่งมอบให้กับผู้ใช้ในเวลาที่เหมาะสม” นั่นเป็นการแทรกแซงและเราจะแสดงให้เห็น

การแนะนำอัจฉริยะเป็นวิธีที่เครื่องมือใช้ความรู้รวมทั้งหมดของแคตตาล็อกเพื่อแนะนำวัตถุและชิ้นส่วนของแบบสอบถามเมื่อคุณเขียน สิ่งที่สำคัญที่สุดที่ควรทราบคือมีการใช้ประโยชน์จากบันทึกการสืบค้นเพื่อแนะนำสิ่งต่าง ๆ ตามการใช้งานและการค้นหาแม้แต่บางส่วนของข้อความค้นหาที่เขียนไว้ก่อนหน้านี้ และเราจะแสดงให้เห็นว่า

จากนั้นดูตัวอย่าง ตัวอย่างคือเมื่อคุณพิมพ์ชื่อของวัตถุเราจะแสดงทุกอย่างที่แคตตาล็อกรู้หรืออย่างน้อยก็เป็นสิ่งที่เกี่ยวข้องที่สุดที่แคตตาล็อกรู้เกี่ยวกับวัตถุนั้น ดังนั้นตัวอย่างของข้อมูลที่เคยใช้มาก่อนชื่อตรรกะและคำอธิบายของวัตถุนั้นทั้งหมดมาถึงคุณในขณะที่คุณกำลังเขียนโดยไม่ต้องไปขอมัน

ดังนั้นโดยไม่ต้องพูดคุยอีกต่อไปฉันจะไปดูตัวอย่างและฉันจะรอให้มันปรากฏ สิ่งที่ฉันจะแสดงให้คุณเห็นที่นี่คือเครื่องมือสืบค้น มันเป็นส่วนต่อประสานการเขียน SQL โดยเฉพาะ มันเป็นอินเทอร์เฟซแยกต่างหากจากแคตตาล็อกในแง่หนึ่ง Dez และ Robin พูดคุยเกี่ยวกับแคตตาล็อกและฉันกำลังกระโดดข้ามอินเทอร์เฟซแคตตาล็อกเล็กน้อยไปยังวิธีที่นำเข้ามาโดยตรงเพื่อให้บริการเวิร์กโฟลว์

ฉันเพิ่งแสดงที่นี่ซึ่งฉันสามารถพิมพ์ SQL และที่ด้านล่างคุณจะเห็นว่าเราเรียงลำดับมีข้อมูลบางอย่างที่ปรากฏเกี่ยวกับวัตถุที่เราอ้างอิง ดังนั้นฉันจะเริ่มพิมพ์ข้อความค้นหาและฉันจะหยุดเมื่อฉันได้รับหนึ่งในการแทรกแซงเหล่านี้ ดังนั้นฉันจะพิมพ์“ เลือก” และฉันต้องการปี ฉันต้องการชื่อ และฉันจะค้นหาข้อมูลเงินเดือน นี่คือชุดข้อมูลการศึกษา มันมีข้อมูลเกี่ยวกับสถาบันอุดมศึกษาและฉันกำลังดูเงินเดือนคณะโดยเฉลี่ยที่อยู่ในตารางใดตารางหนึ่งเหล่านี้

ดังนั้นฉันจึงพิมพ์คำว่า“ เงินเดือน” จริงๆแล้วมันไม่ได้อยู่ในชื่อของคอลัมน์อย่างนั้น เราใช้ทั้งเมตาดาต้าแบบลอจิคัลและเมทาดาทาทางกายภาพเพื่อทำข้อเสนอแนะ สิ่งที่ฉันอยากจะชี้ให้เห็นตรงนี้คือกล่องสีเหลืองที่ปรากฏที่นี่ มันบอกว่ามีคำเตือนในคอลัมน์นี้ ฉันไม่ได้ไปหาสิ่งนั้นฉันไม่ได้เรียนวิธีใช้ข้อมูลนี้อย่างถูกต้อง มันมาถึงฉันและมันเป็นคำเตือนเกี่ยวกับข้อตกลงการรักษาความลับที่เกี่ยวข้องกับข้อมูลนี้ ดังนั้นจึงมีกฎการเปิดเผย หากฉันจะสอบถามข้อมูลนี้ฉันจะนำข้อมูลออกจากตารางนี้ฉันควรระมัดระวังเกี่ยวกับวิธีเปิดเผยข้อมูล ดังนั้นคุณมีนโยบายการกำกับดูแลที่นี่ มีความท้าทายในการปฏิบัติตามกฎระเบียบบางประการที่ทำให้การปฏิบัติตามนโยบายนี้ง่ายขึ้นมากเมื่อฉันรู้เกี่ยวกับมันในเวลาที่ฉันดูข้อมูล

ดังนั้นฉันจึงรู้ว่ามาถึงฉันแล้วฉันก็จะดูค่าเล่าเรียนด้วย และที่นี่เราเห็นตัวอย่างมาเล่น ในคอลัมน์ค่าเล่าเรียนฉันเห็น - มีคอลัมน์ค่าเล่าเรียนบนตารางสถาบันและฉันเห็นโปรไฟล์ของสิ่งนั้น Alation ไปและดึงข้อมูลตัวอย่างจากตารางและในกรณีนี้มันแสดงให้ฉันเห็นสิ่งที่น่าสนใจทีเดียว มันแสดงให้ฉันเห็นการกระจายของค่าและมันแสดงให้ฉันเห็นว่าค่าศูนย์ปรากฏขึ้น 45 เท่าในตัวอย่างและมากกว่าค่าอื่น ๆ ดังนั้นฉันจึงมีความรู้สึกว่าเราอาจขาดข้อมูลบางอย่าง

หากฉันเป็นนักวิเคราะห์ขั้นสูงนี่อาจเป็นส่วนหนึ่งของเวิร์กโฟลว์ของฉันอยู่แล้ว โดยเฉพาะอย่างยิ่งถ้าฉันเป็นคนที่พิถีพิถันเป็นพิเศษโดยที่ฉันจะทำแบบสอบถามแบบละเอียดก่อนเวลา เมื่อใดก็ตามที่ฉันเข้าใกล้ข้อมูลใหม่ฉันมักจะคิดถึงความครอบคลุมของข้อมูลของเรา แต่ถ้าฉันยังใหม่กับการวิเคราะห์ข้อมูลถ้าฉันใหม่กับชุดข้อมูลนี้ฉันอาจคิดว่าถ้ามีคอลัมน์มันจะถูกเติมตลอดเวลา หรือฉันอาจคิดว่าถ้ามันไม่ได้กรอกมันก็ไม่ใช่ศูนย์มันว่างเปล่าหรืออะไรทำนองนั้น แต่ในกรณีนี้เรามีศูนย์เป็นจำนวนมากและถ้าฉันทำค่าเฉลี่ยพวกเขาอาจจะผิดถ้าฉันแค่คิดว่าศูนย์เหล่านั้นจริง ๆ แล้วเป็นศูนย์แทนที่จะเป็นข้อมูลที่หายไป

แต่ Alation โดยการนำตัวอย่างนี้เข้าสู่เวิร์กโฟลว์ของคุณชนิดของการขอให้คุณดูข้อมูลนี้และให้โอกาสนักวิเคราะห์มือใหม่แม้กระทั่งการดูว่ามีบางสิ่งที่จะสังเกตเห็นที่นี่เกี่ยวกับข้อมูลที่ ดังนั้นเราจึงมีตัวอย่าง

สิ่งต่อไปที่ฉันจะทำคือฉันจะพยายามค้นหาว่าจะรับข้อมูลนี้จากตารางใด ดังนั้นที่นี่เราเห็นคำแนะนำที่ชาญฉลาด มันเป็นไปได้ตลอดเวลา แต่โดยเฉพาะอย่างยิ่งที่นี่ฉันไม่ได้พิมพ์อะไรเลย แต่จะแนะนำให้ฉันดูว่าฉันควรจะใช้ตารางใดกับแบบสอบถามนี้ และสิ่งที่สำคัญที่สุดที่ควรทราบเกี่ยวกับสิ่งนี้คือการใช้ประโยชน์จากสถิติการใช้งาน ดังนั้นในสภาพแวดล้อมเช่น eBay ที่คุณมีหลายแสนตารางในฐานข้อมูลเดียวมีเครื่องมือที่สามารถตีข้าวสาลีจากแกลบและใช้สถิติการใช้งานเหล่านี้เป็นสิ่งสำคัญมากสำหรับการทำสิ่งเหล่านี้ ข้อเสนอแนะที่คุ้มค่าบางอย่าง

มันจะแนะนำตารางนี้ เมื่อฉันดูตัวอย่างเราจริง ๆ แล้วเน้นคอลัมน์สามคอลัมน์ที่ฉันพูดถึงแล้วในแบบสอบถามของฉัน ดังนั้นฉันจึงรู้ว่ามันมีสาม แต่ไม่มีชื่อ ฉันต้องได้รับชื่อดังนั้นฉันจะเข้าร่วม เมื่อฉันเข้าร่วมตอนนี้อีกครั้งฉันมีตัวอย่างเหล่านี้เพื่อช่วยฉันค้นหาตารางที่มีชื่ออยู่ที่ไหน ดังนั้นฉันจึงเห็นว่าอันนี้มีรูปแบบชื่อที่พิมพ์ใหญ่อย่างเหมาะสม ดูเหมือนว่าจะมีหนึ่งแถวที่มีชื่อสำหรับแต่ละสถาบันดังนั้นฉันจะคว้ามันและตอนนี้ฉันต้องการเงื่อนไขการเข้าร่วม

ดังนั้นสิ่งที่ Alation กำลังทำอยู่ก็คือมองย้อนกลับไปที่บันทึกคิวรีอีกครั้งโดยดูครั้งก่อนหน้าว่าทั้งสองตารางได้เข้าร่วมและแนะนำวิธีต่างๆในการเข้าร่วม มีการแทรกแซงอีกครั้ง ถ้าฉันดูหนึ่งในนั้นมันมีคำเตือนที่แสดงให้ฉันเห็นว่าสิ่งนี้ควรใช้สำหรับการวิเคราะห์แบบรวมเท่านั้น อาจเป็นสิ่งที่ผิดถ้าคุณพยายามทำบางอย่างผ่านสถาบันโดยสถาบัน ในขณะที่อันนี้ด้วยรหัส OPE ได้รับการรับรองว่าเป็นวิธีที่เหมาะสมในการเข้าร่วมสองตารางนี้หากคุณต้องการข้อมูลระดับมหาวิทยาลัย ดังนั้นฉันจึงทำเช่นนั้นและเป็นคำถามสั้น ๆ แต่ฉันเขียนแบบสอบถามโดยไม่จำเป็นต้องมีความเข้าใจอย่างถ่องแท้ว่าข้อมูลคืออะไร ฉันไม่เคยดูแผนภาพ ER ของชุดข้อมูลนี้ แต่ฉันรู้มากเกี่ยวกับข้อมูลนี้อยู่แล้วเพราะข้อมูลที่เกี่ยวข้องกำลังมาถึงฉัน

ดังนั้นสิ่งเหล่านี้เป็นสามวิธีที่แคตตาล็อกสามารถทำได้โดยใช้เครื่องมือคิวรีแบบรวมซึ่งส่งผลโดยตรงต่อเวิร์กโฟลว์เมื่อคุณกำลังเขียนคิวรี แต่ข้อดีอย่างหนึ่งของการมีเครื่องมือสืบค้นที่รวมเข้ากับแคตตาล็อกก็คือเมื่อฉันทำแบบสอบถามเสร็จและบันทึกฉันสามารถใส่ชื่อเช่น“ ค่าเล่าเรียนของสถาบันและเงินเดือนคณะ” จากนั้นฉันมีปุ่มที่นี่ อนุญาตให้ฉันเพียงแค่เผยแพร่ลงในแคตตาล็อก มันกลายเป็นเรื่องง่ายมากสำหรับฉันที่จะป้อนกลับ แม้ว่าฉันจะไม่เผยแพร่มันก็ถูกบันทึกเป็นส่วนหนึ่งของบันทึกการสืบค้น แต่เมื่อฉันเผยแพร่มันจริง ๆ แล้วจะกลายเป็นส่วนหนึ่งของวิธีการที่ศูนย์กลางรวมที่ความรู้ข้อมูลทั้งหมดมีชีวิต

ดังนั้นถ้าฉันคลิกค้นหาสำหรับการค้นหาทั้งหมดใน Alation ฉันจะถูกดำเนินการ - และที่นี่คุณจะเห็นอินเทอร์เฟซแคตตาล็อกเพิ่มเติม - ฉันถูกพาไปที่การค้นหาข้อความค้นหาเฉพาะที่แสดงวิธีค้นหาข้อความข้าม ทั้งองค์กร และคุณเห็นว่าข้อความค้นหาที่เผยแพร่ใหม่ของฉันอยู่ด้านบนสุด และบางคนอาจสังเกตเห็นที่นี่เมื่อเราจับการสืบค้นเราก็จับผู้เขียนและเราจัดเรียงความสัมพันธ์นี้ระหว่างฉันในฐานะผู้เขียนและวัตถุข้อมูลเหล่านี้ที่ฉันรู้ตอนนี้ และฉันถูกจัดตั้งขึ้นเป็นผู้เชี่ยวชาญในแบบสอบถามนี้และวัตถุข้อมูลเหล่านี้ มันมีประโยชน์จริง ๆ เมื่อผู้คนต้องการเรียนรู้เกี่ยวกับข้อมูลจากนั้นพวกเขาสามารถไปหาคนที่เหมาะสมที่จะเรียนรู้ และถ้าฉันยังใหม่กับข้อมูลไม่ว่าฉันจะเป็นนักวิเคราะห์ขั้นสูง - ในฐานะนักวิเคราะห์ขั้นสูงฉันอาจดูที่นี่และดูตัวอย่างมากมายที่จะให้ฉันเริ่มชุดข้อมูลใหม่ ในฐานะที่เป็นคนที่อาจไม่เข้าใจ SQL เป็นพิเศษฉันสามารถค้นหาข้อความค้นหาที่สร้างไว้ล่วงหน้าซึ่งเป็นรายงานที่ฉันสามารถใช้ประโยชน์ได้

นี่คือหนึ่งใน Phil Mazanett เกี่ยวกับคะแนนเฉลี่ยของ SAT คลิกที่นี่และฉันจะได้รับการเรียงลำดับของหน้าแคตตาล็อกสำหรับแบบสอบถามตัวเอง มันพูดเกี่ยวกับบทความที่เขียนขึ้นที่อ้างอิงแบบสอบถามนี้ดังนั้นจึงมีเอกสารบางอย่างให้ฉันอ่านถ้าฉันต้องการเรียนรู้วิธีการใช้ และฉันสามารถเปิดมันขึ้นมาในเครื่องมือการสืบค้นโดยคลิกที่ปุ่มเขียนและฉันก็สามารถเรียกใช้ตัวเองได้ที่นี่โดยไม่ต้องแก้ไข และที่จริงแล้วคุณจะได้เห็นความสามารถในการรายงานที่มีน้ำหนักเบาของเราเล็กน้อยซึ่งเมื่อคุณเขียนแบบสอบถามคุณสามารถวางตัวแปรเทมเพลตในลักษณะนี้และสร้างวิธีง่ายๆในการสร้างฟอร์มเพื่อเรียกใช้แบบสอบถามตาม บนพารามิเตอร์สองสามตัว

นั่นคือสิ่งที่ฉันมีสำหรับการสาธิต ฉันจะเปลี่ยนกลับไปเป็นสไลด์ เราจะแสดงให้เห็นว่าผู้ดูแลระบบผู้ดูแลข้อมูลสามารถแทรกแซงโดยการวางคำเตือนบนวัตถุที่ปรากฏในเครื่องมือสืบค้นวิธี Alation ใช้ความรู้ในการใช้วัตถุข้อมูลเพื่อทำคำแนะนำที่ชาญฉลาดอย่างไร ในการทำโปรไฟล์และเคล็ดลับอื่น ๆ เพื่อปรับปรุงเวิร์กโฟลว์ของนักวิเคราะห์เมื่อพวกเขาสัมผัสวัตถุเฉพาะและวิธีฟีดนั้นกลับเข้าไปในแคตตาล็อกเมื่อมีการเขียนแบบสอบถามใหม่

เห็นได้ชัดว่าฉันเป็นโฆษกในนามของ บริษัท ฉันจะบอกว่าสิ่งที่ดีเกี่ยวกับแคตตาล็อกข้อมูล หากคุณต้องการได้ยินโดยตรงจากลูกค้าของเรา Kristie Allen ที่ Safeway มีทีมงานของนักวิเคราะห์และมีเรื่องราวเจ๋ง ๆ เกี่ยวกับเวลาที่เธอต้องเอาชนะนาฬิกาเพื่อทำการทดลองการตลาดและวิธีการทั้งหมดของเธอ ทีมใช้ Alation เพื่อทำงานร่วมกันและพลิกกลับโครงการได้อย่างรวดเร็ว ดังนั้นคุณสามารถไปที่ลิงค์ bit.ly นี้เพื่อตรวจสอบเรื่องราวนั้นหรือหากคุณต้องการฟังนิดหน่อยเกี่ยวกับวิธีที่ Alation นำแคตตาล็อกข้อมูลมาไว้ในองค์กรของคุณเรายินดีที่จะตั้งค่าการสาธิตส่วนตัว ขอบคุณมาก.

Rebecca Jozwiak: ขอบคุณมากเดวิด ฉันแน่ใจว่า Dez และ Robin มีคำถามสองสามข้อก่อนที่ฉันจะตอบคำถามผู้ชม ดังนั้นคุณต้องการไปก่อนหรือไม่

Dez Blanchfield: อย่างแน่นอน ฉันชอบความคิดของแนวคิดของการสืบค้นที่เผยแพร่และเชื่อมโยงกลับไปยังแหล่งที่มาของการเขียน ฉันเป็นแชมป์เก่าแก่ของไอเดียนี้ของแอพสโตร์ภายในและฉันคิดว่านี่เป็นรากฐานที่ยอดเยี่ยมสำหรับการสร้าง

ฉันได้รับข้อมูลเชิงลึกเกี่ยวกับองค์กรที่คุณเห็นการทำเช่นนี้และเรื่องราวความสำเร็จที่พวกเขาอาจมีกับการเดินทางทั้งหมดนี้ไม่เพียง แต่ใช้ประโยชน์จากเครื่องมือและแพลตฟอร์มของคุณเพื่อค้นหาข้อมูล แต่ จากนั้นก็เปลี่ยนลักษณะทางวัฒนธรรมและพฤติกรรมภายในของพวกเขาไปรอบ ๆ ตอนนี้มีแอพในบ้านที่คุณดาวน์โหลดเพียงแค่แนวความคิดที่พวกเขาไม่เพียงแค่ค้นหา แต่พวกเขาสามารถเริ่มพัฒนาชุมชนเล็ก ๆ ได้โดยใช้ผู้ดูแลความรู้นั้น

David Crawford: ใช่ฉันคิดว่าเราประหลาดใจ เราเชื่อในคุณค่าของการแบ่งปันการสืบค้นทั้งจากในอดีตของฉันในฐานะผู้จัดการผลิตภัณฑ์ใน Adtech และจากลูกค้าทั้งหมดที่เราได้พูดคุยด้วย แต่ฉันก็ยังประหลาดใจที่บ่อยครั้งที่มันเป็นสิ่งแรกที่ลูกค้า พูดคุยเกี่ยวกับคุณค่าที่พวกเขาได้รับจาก Alation

ฉันทำการทดสอบผู้ใช้ของเครื่องมือสืบค้นที่ลูกค้าของเราคนหนึ่งชื่อ Invoice2go และพวกเขามีผู้จัดการผลิตภัณฑ์ที่ค่อนข้างใหม่และพวกเขาบอกว่า - จริง ๆ แล้วเขาบอกฉันโดยไม่แจ้งให้ทราบในระหว่างการทดสอบผู้ใช้“ ฉันจะไม่ จะเขียน SQL เลยยกเว้นว่ามันทำได้ง่ายโดย Alation” และแน่นอนเมื่อ PM ฉันไป“ คุณหมายถึงอะไรเราทำอย่างนั้นได้อย่างไร” และเขาก็พูดว่า“ เอาล่ะจริงๆมันแค่ เพราะฉันสามารถเข้าสู่ระบบและฉันสามารถดูแบบสอบถามที่มีอยู่ทั้งหมดเหล่านี้ได้” การเริ่มต้นด้วยกระดานชนวนว่างเปล่าด้วย SQL เป็นสิ่งที่ทำยากอย่างเหลือเชื่อ แต่การปรับเปลี่ยนแบบสอบถามที่มีอยู่ซึ่งคุณสามารถเห็นผลลัพธ์ที่ยื่นออกมาและคุณสามารถพูดได้ว่า “ โอ้ฉันแค่ต้องการคอลัมน์พิเศษนี้” หรือ“ ฉันต้องการกรองไปยังช่วงวันที่เฉพาะเจาะจง” นั่นเป็นสิ่งที่ง่ายกว่ามากที่จะทำ

เราได้เห็นบทบาทเสริมเหล่านี้เช่นผู้จัดการผลิตภัณฑ์บางทีผู้คนในฝ่ายขายผู้เริ่มรับสินค้าและผู้ที่ต้องการเรียนรู้ SQL และเริ่มรับสินค้าโดยใช้แคตตาล็อกนี้ นอกจากนี้เรายังเห็นว่ามี บริษัท จำนวนมากพยายามที่จะทำโอเพนซอร์ส ฉันพยายามสร้างสิ่งต่าง ๆ เหล่านี้ภายในซึ่งพวกเขาติดตามการสืบค้นและทำให้มันพร้อมใช้งานและมีความท้าทายการออกแบบที่ยุ่งยากบางอย่างเพื่อทำให้มีประโยชน์ Facebook มีเครื่องมือภายในที่พวกเขาเรียกว่า HiPal ซึ่งเป็นประเภทของการสืบค้นทั้งหมดที่เขียนบน Hive แต่สิ่งที่คุณค้นพบคือถ้าคุณไม่สะกิดผู้ใช้อย่างถูกวิธีคุณเพียงแค่จบด้วย รายการคำสั่งที่เลือกนานมาก และในฐานะผู้ใช้ที่พยายามคิดออกว่าการสืบค้นนั้นมีประโยชน์กับฉันหรือไม่ถ้ามันดีถ้าฉันลองดูรายการคำสั่งที่เลือกนาน ๆ ฉันจะต้องใช้เวลานานกว่าจะได้อะไรที่มีคุณค่ามากกว่า เริ่มจากศูนย์ เราคิดอย่างถี่ถ้วนเกี่ยวกับวิธีสร้างแคตตาล็อกแบบสอบถามที่นำสิ่งที่ถูกต้องมาไว้ข้างหน้าและจัดทำในวิธีที่มีประโยชน์

Dez Blanchfield: ฉันคิดว่าเราทุกคนต้องผ่านการเดินทางครั้งนี้ตั้งแต่อายุยังน้อยจนถึงวัยผู้ใหญ่ในหลาย ๆ ด้าน พวงของเทคโนโลยี ตัวฉันเองฉันได้ผ่านสิ่งที่เหมือนกันจริง ๆ เช่นเรียนรู้ที่จะตัดรหัส ฉันจะอ่านนิตยสารและหนังสือแล้วฉันจะเรียนในระดับหนึ่งและจากนั้นฉันต้องไปและได้รับการฝึกอบรมและการศึกษาเพิ่มเติม

แต่โดยไม่ได้ตั้งใจฉันพบว่าแม้ตอนที่ฉันจะสอนตัวเองและอ่านนิตยสารและอ่านหนังสือและตัดโปรแกรมของคนอื่นและไปที่หลักสูตรฉันก็ยังจบการเรียนรู้มากจากการทำหลักสูตรตามที่ฉันเพิ่งพูดคุยกับคนอื่น คนที่มีประสบการณ์ และฉันคิดว่ามันเป็นการค้นพบที่น่าสนใจซึ่งตอนนี้คุณนำมาวิเคราะห์ข้อมูลแล้วเราก็เห็นว่ามันขนานกันโดยทั่วไปว่ามนุษย์นั้นฉลาดมาก

อีกสิ่งหนึ่งที่ฉันกระตือรือร้นที่จะเข้าใจจริงๆคือในระดับที่สูงมากหลายองค์กรจะถามว่า "ใช้เวลานานแค่ไหนในการไปถึงจุดนั้น?" อะไรคือจุดเปลี่ยนเวลา ติดตั้งแพลตฟอร์มของคุณแล้วและพวกเขาเริ่มค้นพบเครื่องมือประเภทใด เร็วแค่ไหนที่ผู้คนมองเห็นสิ่งนี้กลายเป็นช่วงเวลา "a-ha" ทันทีที่พวกเขารู้ว่าพวกเขาไม่ได้กังวลเกี่ยวกับ ROI อีกต่อไปเพราะมันอยู่ที่นั่น แต่ตอนนี้พวกเขากำลังเปลี่ยนวิธีการทำธุรกิจ ? และพวกเขาค้นพบศิลปะที่หายไปและพวกเขาคาดหวังว่าพวกเขาจะทำอะไรได้จริงๆสนุกกับมันจริงๆ

เดวิดครอว์ฟอร์ด: ใช่ฉันสัมผัสได้นิดหน่อย ฉันคิดว่าเมื่อเราติดตั้งหนึ่งในสิ่งที่ดีหนึ่งในสิ่งที่คนชอบเกี่ยวกับแคตตาล็อกที่เชื่อมต่อโดยตรงกับระบบข้อมูลคือคุณไม่ได้เริ่มว่างที่คุณต้องกรอกใน ทีละหน้า และนี่เป็นความจริงของโซลูชันข้อมูลก่อนหน้าซึ่งคุณจะเริ่มด้วยเครื่องมือเปล่าและคุณต้องเริ่มสร้างหน้าสำหรับทุกสิ่งที่คุณต้องการทำเอกสาร

เนื่องจากเราจัดทำเอกสารหลายอย่างโดยอัตโนมัติโดยแยกข้อมูลเมตาโดยหลักแล้วภายในสองสามวันหลังจากติดตั้งซอฟต์แวร์คุณสามารถเห็นภาพของสภาพแวดล้อมข้อมูลของคุณที่มีอย่างน้อย 80 เปอร์เซ็นต์ในเครื่องมือ แล้วฉันคิดว่าทันทีที่ผู้คนเริ่มเขียนคำสั่งด้วยเครื่องมือพวกเขาจะถูกบันทึกกลับเข้าไปในแคตตาล็อกโดยอัตโนมัติดังนั้นพวกเขาก็จะเริ่มปรากฏขึ้นเช่นกัน

ฉันไม่อยากแสดงความกระตือรือร้นเกินไป ฉันคิดว่าสองสัปดาห์เป็นการประมาณการที่ค่อนข้างอนุรักษ์นิยมถึงหนึ่งเดือน สองสัปดาห์ถึงหนึ่งเดือนการประมาณการแบบอนุรักษ์นิยมของการหันกลับมาและความรู้สึกเหมือนว่าคุณได้รับประโยชน์จากมันเช่นคุณเริ่มแบ่งปันความรู้และสามารถไปที่นั่นและค้นหาข้อมูลเกี่ยวกับข้อมูลของคุณ

Dez Blanchfield: มันช่างน่าประหลาดใจจริงๆเมื่อคุณคิดถึงมัน ความจริงที่ว่าบางส่วนของแพลตฟอร์มข้อมูลขนาดใหญ่ที่คุณกำลังจัดทำดัชนีและจัดทำแคตตาล็อกอย่างมีประสิทธิภาพนั้นบางครั้งอาจใช้เวลาถึงหนึ่งปีในการติดตั้งและใช้งาน

คำถามสุดท้ายที่ฉันมีให้คุณก่อนที่จะส่งให้ Robin Bloor คือตัวเชื่อมต่อ หนึ่งในสิ่งที่กระโดดออกมาหาฉันทันทีคุณเห็นได้ชัดว่าความท้าทายทั้งหมดที่แยกออก ดังนั้นจึงมีคำถามสองสามข้อที่เร็วมาก หนึ่งการเชื่อมต่อทำได้รวดเร็วเพียงใด? เห็นได้ชัดว่าคุณเริ่มต้นด้วยแพลตฟอร์มที่ใหญ่ที่สุดเช่น Oracles และ Teradatas เป็นต้นไปและ DB2 แต่คุณเห็นการเชื่อมต่อใหม่เป็นประจำแค่ไหนและพวกเขาใช้เวลาตอบสนองอย่างไร ฉันคิดว่าคุณมีกรอบมาตรฐานสำหรับพวกเขา และคุณเข้าไปลึกแค่ไหน ตัวอย่างเช่น Oracles และ IBMs ของโลกและแม้กระทั่ง Tereadata และจากนั้นบางส่วนของแพลตฟอร์มโอเพ่นซอร์สปลายที่ได้รับความนิยมมากขึ้น พวกเขาทำงานโดยตรงกับคุณ? คุณค้นพบตัวมันเองหรือ คุณต้องมีความรู้เกี่ยวกับแพลตฟอร์มเหล่านั้นหรือไม่

การพัฒนาตัวเชื่อมต่อมีลักษณะอย่างไรและคุณมีส่วนเกี่ยวข้องกับพันธมิตรมากเพียงใดเพื่อให้แน่ใจว่าตัวเชื่อมต่อเหล่านั้นค้นพบทุกสิ่งที่คุณสามารถทำได้

David Crawford: ใช่แน่นอนมันเป็นคำถามที่ยอดเยี่ยม ฉันคิดว่าส่วนใหญ่เราสามารถพัฒนาตัวเชื่อมต่อได้ เราทำอย่างแน่นอนเมื่อเราเป็นเด็กที่เพิ่งเริ่มต้นและไม่มีลูกค้า เราสามารถพัฒนาการเชื่อมต่อได้อย่างแน่นอนโดยไม่จำเป็นต้องมีการเข้าถึงภายใน เราไม่เคยเข้าถึงระบบข้อมูลที่ไม่สามารถเข้าถึงได้แบบสาธารณะและบ่อยครั้งโดยไม่จำเป็นต้องใช้ข้อมูลภายในใด ๆ เราใช้ประโยชน์จากบริการข้อมูลเมตาที่มีอยู่ในระบบข้อมูลด้วยตนเอง บ่อยครั้งที่สิ่งเหล่านี้ค่อนข้างซับซ้อนและยากต่อการทำงาน ฉันรู้ว่า SQL Server โดยเฉพาะอย่างยิ่งวิธีที่พวกเขาจัดการบันทึกแบบสอบถามมีการกำหนดค่าที่แตกต่างกันหลายอย่างและเป็นสิ่งที่คุณต้องทำงานจริงๆ คุณต้องเข้าใจความแตกต่างและลูกบิดและหมุนเพื่อตั้งค่าอย่างถูกต้องและนั่นคือสิ่งที่เราทำงานกับลูกค้าตั้งแต่เราเคยทำมาหลายครั้งแล้ว

แต่ในระดับหนึ่งมันเป็น API สาธารณะที่มีอยู่หรือส่วนต่อประสานสาธารณะที่เราใช้ประโยชน์ได้ เรามีความร่วมมือกับ บริษัท เหล่านี้หลายแห่งซึ่งส่วนใหญ่เป็นพื้นที่รับรองเพื่อให้พวกเขารู้สึกสบายใจที่บอกว่าเราทำงานและพวกเขาสามารถจัดหาทรัพยากรให้เราสำหรับการทดสอบบางครั้งการเข้าถึงในช่วงแรกอาจจะเป็นแพลตฟอร์มที่ออกมาเพื่อให้แน่ใจว่า เราทำงานกับเวอร์ชันใหม่

หากต้องการเปิดการเชื่อมต่อใหม่ฉันจะพูดอีกครั้งพยายามที่จะอนุรักษ์ลองสมมุติว่าหกสัปดาห์ถึงสองเดือน มันขึ้นอยู่กับว่ามันคล้ายกันแค่ไหน ดังนั้น Postgre บางตัวก็ทำงานคล้ายกับ Redshift Redshift และ Vertica แบ่งปันรายละเอียดมากมาย ดังนั้นเราสามารถใช้ประโยชน์จากสิ่งเหล่านั้น แต่ใช่หกสัปดาห์ถึงสองเดือนจะยุติธรรม

เรายังมี API ดังนั้น - เราคิดว่า Alation เป็นแพลตฟอร์มข้อมูลเมตาเช่นกันดังนั้นหากไม่มีสิ่งใดที่เราสามารถเข้าถึงและคว้าโดยอัตโนมัติมีวิธีที่คุณสามารถเขียนตัวเชื่อมต่อด้วยตนเองและผลักดันมันเข้าไปในระบบของเราดังนั้น ว่าทุกอย่างยังคงรวมอยู่ในเครื่องมือค้นหาเดียว

Dez Blanchfield: วิเศษมาก ฉันขอขอบคุณที่. ดังนั้นเราจะส่งมอบให้กับโรบินเพราะฉันแน่ใจว่าเขามีคำถามมากมายเหลือเฟือเช่นกัน โรบิน?

Rebecca Jozwiak: โรบินอาจเป็นคนใบ้

Dez Blanchfield: คุณปิดรับตัวเองแล้ว

Robin Bloor: ใช่แล้ว ขออภัยฉันปิดเสียงตัวเอง เมื่อคุณใช้สิ่งนี้กระบวนการคืออะไร ฉันอยากรู้อยากเห็นเพราะมีข้อมูลจำนวนมากในหลาย ๆ ที่ แล้วมันทำงานอย่างไร

เดวิดครอว์ฟอร์ด: ใช่แน่นอน ก่อนอื่นเราเข้าสู่กระบวนการไอทีเพื่อให้แน่ใจว่ามีการจัดเตรียมเซิร์ฟเวอร์ของเราตรวจสอบให้แน่ใจว่าการเชื่อมต่อเครือข่ายพร้อมใช้งานแล้วพอร์ตเปิดอยู่เพื่อให้เราสามารถเข้าถึงระบบได้จริง พวกเขามักจะรู้ว่าระบบใดที่พวกเขาต้องการเริ่มต้นด้วย รู้ภายในระบบข้อมูลซึ่ง - และบางครั้งเราจะช่วยพวกเขา เราจะช่วยให้พวกเขาเริ่มต้นดูบันทึกการสืบค้นเพื่อทำความเข้าใจว่าใครใช้อะไรและมีผู้ใช้จำนวนเท่าใดในระบบ ดังนั้นเราจะช่วยหาว่าที่ไหน - บ่อยครั้งถ้าพวกเขามีหลายร้อยหรือหลายพันคนที่อาจเข้าสู่ระบบฐานข้อมูลจริง ๆ แล้วพวกเขาไม่รู้ว่าพวกเขากำลังลงชื่อเข้าใช้อยู่ที่ไหนดังนั้นเราสามารถค้นหาได้จาก แบบสอบถามจะบันทึกจำนวนบัญชีผู้ใช้ที่ไม่ซ้ำกันที่คุณมีจริงในการเข้าสู่ระบบและดำเนินการแบบสอบถามที่นี่ในเดือนหรือดังนั้น

ดังนั้นเราสามารถใช้ประโยชน์จากสิ่งนั้นได้ แต่มักจะเป็นสิ่งที่สำคัญที่สุดเท่านั้น เราทำให้พวกเขาตั้งค่าแล้วมีกระบวนการพูดว่า "มาจัดลำดับความสำคัญกันเถอะ" มีกิจกรรมหลากหลายที่สามารถเกิดขึ้นได้ในแบบคู่ขนาน ฉันจะมุ่งเน้นไปที่การฝึกอบรมการใช้เครื่องมือแบบสอบถาม เมื่อผู้คนเริ่มใช้เครื่องมือการสืบค้นก่อนอื่นผู้คนจำนวนมากชอบความจริงที่ว่ามันเป็นเพียงอินเทอร์เฟซเดียวกับระบบต่าง ๆ ทั้งหมดของพวกเขา พวกเขายังชอบความจริงที่ว่ามันเป็นบนเว็บไม่เกี่ยวข้องกับการติดตั้งใด ๆ หากพวกเขาไม่ต้องการ จากมุมมองด้านความปลอดภัยพวกเขาชอบมีจุดเข้าจุดเดียวจากจุดยืนเครือข่ายระหว่างเครือข่ายไอทีคอร์ปกับศูนย์ข้อมูลที่แหล่งข้อมูลการผลิตอยู่ ดังนั้นพวกเขาจะตั้งค่า Alation เป็นเครื่องมือสืบค้นและเริ่มใช้ Compose เป็นจุดเข้าถึงสำหรับระบบทั้งหมดเหล่านี้

ดังนั้นเมื่อสิ่งนั้นเกิดขึ้นสิ่งที่เรามุ่งเน้นในการฝึกอบรมคือการทำความเข้าใจความแตกต่างระหว่างเครื่องมือสืบค้นข้อมูลทางเว็บหรือเซิร์ฟเวอร์กับสิ่งที่คุณมีบนเดสก์ท็อปของคุณและความแตกต่างของการใช้งาน ที่. และในเวลาเดียวกันสิ่งที่เราจะพยายามทำคือระบุข้อมูลที่มีค่าที่สุดใช้ประโยชน์จากข้อมูลบันทึกการสืบค้นอีกครั้งและพูดว่า“ เฮ้คุณอาจต้องการเข้าไปข้างในและช่วยให้ผู้คนเข้าใจสิ่งเหล่านี้ มาเริ่มการเผยแพร่การสอบถามตัวแทนในตารางเหล่านี้” บางครั้งนั่นเป็นวิธีที่มีประสิทธิภาพที่สุดในการทำให้ผู้คนปั่นป่วนอย่างรวดเร็ว ลองดูที่ประวัติแบบสอบถามของคุณเองเผยแพร่สิ่งเหล่านี้เพื่อให้พวกเขาปรากฏเป็นแบบสอบถามแรก เมื่อผู้คนดูที่หน้าโต๊ะพวกเขาสามารถเห็นข้อความค้นหาทั้งหมดที่แตะตารางนั้นและพวกเขาสามารถเริ่มจากที่นั่น จากนั้นให้เราเริ่มเพิ่มชื่อและคำอธิบายลงในวัตถุเหล่านี้เพื่อให้ง่ายต่อการค้นหาและค้นหาเพื่อให้คุณทราบถึงความแตกต่างของวิธีใช้งาน

เราตรวจสอบให้แน่ใจว่าเราได้ดูบันทึกการสืบค้นอย่างละเอียดเพื่อให้เราสามารถสร้างสายเลือด หนึ่งในสิ่งที่เราทำคือเรามองผ่านบันทึกการสืบค้นเวลาที่ข้อมูลย้ายจากตารางหนึ่งไปยังอีกตารางหนึ่งและนั่นทำให้เราสามารถตั้งคำถามที่พบบ่อยที่สุดเกี่ยวกับตารางของข้อมูลได้ซึ่งมาจากไหน ฉันจะเชื่อถือได้อย่างไร และสิ่งที่เราสามารถแสดงได้ไม่เพียง แต่มันมาจากโต๊ะอื่น ๆ แต่มันถูกเปลี่ยนไปตามทาง อีกครั้งนี้เป็นประเภทขับเคลื่อนโดยบันทึกแบบสอบถาม

ดังนั้นเราจึงตรวจสอบให้แน่ใจว่าสิ่งเหล่านั้นได้รับการติดตั้งและเราได้รับสายเลือดเข้าสู่ระบบและเรากำลังกำหนดเป้าหมายที่มีค่ามากที่สุดและเป็นเมตาดาต้าที่มีประโยชน์มากที่สุดที่เราสามารถสร้างขึ้นได้บนหน้าตาราง เมื่อคุณค้นหาคุณจะพบสิ่งที่มีประโยชน์

Robin Bloor: โอเค คำถามอื่น - มีคำถามมากมายจากผู้ชมดังนั้นฉันไม่ต้องการใช้เวลามากเกินไปที่นี่ - คำถามอื่น ๆ ที่นึกได้คือแค่จุดปวด มีการซื้อซอฟต์แวร์จำนวนมากเพราะผู้คนมีปัญหากับบางสิ่ง ดังนั้นจุดปวดทั่วไปที่นำผู้คนไปสู่ ​​Alation คืออะไร?

David Crawford: ใช่ ฉันคิดว่ามีบางอย่าง แต่ฉันคิดว่าหนึ่งในสิ่งที่เราได้ยินค่อนข้างบ่อยคือนักวิเคราะห์ที่อยู่บนเครื่อง “ ฉันจะต้องจ้างคน 10, 20, 30 คนในระยะเวลาอันใกล้ที่จะต้องสร้างความเข้าใจใหม่ ๆ จากข้อมูลนี้พวกเขาจะเพิ่มความเร็วได้อย่างไร?” ดังนั้นนักวิเคราะห์การขึ้นเครื่องบินเป็นสิ่งที่เราแน่นอน ต่อสู้ นอกจากนี้ยังมีเพียงการบรรเทานักวิเคราะห์อาวุโสจากการใช้เวลาตอบคำถามจากคนอื่น ๆ เกี่ยวกับข้อมูล นั่นเป็นบ่อยมากเช่นกัน และทั้งคู่เป็นปัญหาการศึกษาเป็นหลัก

แล้วฉันจะพูดอีกสถานที่ที่เราเห็นคนใช้ Alation คือเมื่อพวกเขาต้องการตั้งค่าสภาพแวดล้อมข้อมูลใหม่สำหรับคนทำงานพวกเขาต้องการโฆษณาและทำตลาดภายในเพื่อให้ผู้คนได้ใช้ประโยชน์ จากนั้นทำให้ Alation เป็นส่วนหน้าของสภาพแวดล้อมการวิเคราะห์ใหม่ที่น่าสนใจมาก มันมีเอกสารประกอบมีจุดแนะนำเบื้องต้น - จุดเดียวในการเข้าถึงระบบและนั่นคืออีกที่หนึ่งที่ผู้คนจะมาหาเรา

Robin Bloor: โอเคฉันจะส่งต่อคุณไปยัง Rebecca เพราะผู้ชมพยายามที่จะเข้าถึงคุณ

Rebecca Jozwiak: ใช่เรามีคำถามผู้ชมที่ดีมากมายที่นี่ และเดวิดสิ่งนี้ถูกโพสต์ถึงคุณโดยเฉพาะ มันมาจากคนที่เห็นได้ชัดว่ามีประสบการณ์บางอย่างกับคนที่ใช้ข้อความค้นหาในทางที่ผิดและเขาก็บอกว่ายิ่งเราให้อำนาจผู้ใช้มากเท่าไหร่ก็ยิ่งยากที่จะควบคุมการใช้ทรัพยากรคอมพิวเตอร์อย่างรับผิดชอบ ดังนั้นคุณสามารถป้องกันการเผยแพร่วลีค้นหาที่เข้าใจผิด แต่เป็นเรื่องธรรมดาได้หรือไม่?

David Crawford: ใช่ฉันเห็นคำถามนี้ เป็นคำถามที่ยอดเยี่ยม - คำถามที่เราได้รับบ่อยมาก ฉันเคยเห็นความเจ็บปวดของตัวเองใน บริษัท ก่อนหน้านี้ซึ่งคุณต้องฝึกฝนผู้ใช้ ตัวอย่างเช่น“ นี่คือตารางบันทึกมันมีบันทึกย้อนกลับไปหลายปี หากคุณกำลังจะเขียนแบบสอบถามในตารางนี้คุณจะต้อง จำกัด ตามวันที่” ดังนั้นตัวอย่างเช่นนั่นคือการฝึกอบรมที่ฉันเคยผ่านที่ บริษัท ก่อนหน้านี้ก่อนที่ฉันจะสามารถเข้าถึงฐานข้อมูลได้

เรามีสองวิธีที่เราพยายามจะแก้ปัญหานี้ ฉันจะบอกว่าฉันคิดว่าข้อมูลบันทึกการสืบค้นนั้นมีประโยชน์มากสำหรับการจัดการ มันให้ข้อมูลเชิงลึกอื่นกับสิ่งที่ฐานข้อมูลดำเนินการภายในด้วยการวางแผนแบบสอบถาม และสิ่งที่เราทำคือหนึ่งในการแทรกแซงนั้น - เรามีการแทรกแซงด้วยตนเองที่ฉันแสดงให้เห็นและมันมีประโยชน์ใช่ไหม? ตัวอย่างเช่นในการเข้าร่วมโดยเฉพาะคุณสามารถพูดว่า "มาเลิกใช้แล้ว" มันจะมีธงสีแดงขนาดใหญ่เมื่อมันปรากฏขึ้นในการแนะนำอย่างชาญฉลาด นั่นคือวิธีหนึ่งในการพยายามเข้าถึงผู้คน

อีกสิ่งหนึ่งที่เราทำคือดำเนินการอัตโนมัติตามเวลาดำเนินการ ที่จริงแล้วจะใช้แผนภูมิการแยกวิเคราะห์ของแบบสอบถามก่อนที่เราจะเรียกใช้เพื่อดูรวมถึงตัวกรองบางอย่างหรือสิ่งอื่น ๆ ที่เราทำด้วยเช่นกัน แต่หนึ่งในสิ่งที่มีค่าที่สุดและง่ายที่สุดที่จะอธิบายคือมันมีตัวกรองหรือไม่? เช่นเดียวกับตัวอย่างที่ฉันเพิ่งให้ตารางบันทึกนี้ถ้าคุณจะสอบถามมันต้องมีช่วงวันที่คุณสามารถระบุในหน้าตารางที่คุณกำหนดให้ใช้ตัวกรองช่วงวันที่ หากมีคนพยายามเรียกใช้แบบสอบถามที่ไม่มีตัวกรองนั้นจริง ๆ แล้วจะหยุดพวกเขาด้วยคำเตือนใหญ่และจะพูดว่า "คุณควรเพิ่ม SQL บางอย่างที่มีลักษณะเช่นนี้ในแบบสอบถามของคุณ" พวกเขาสามารถดำเนินการต่อไปถ้า พวกเขาต้องการ. เราจะไม่ห้ามไม่ให้ใช้พวกเขาอย่างสมบูรณ์ - มันเป็นคิวรี่ด้วยเช่นกันเมื่อสิ้นวันให้เรียกใช้คิวรี แต่เราวางสิ่งกีดขวางที่ค่อนข้างใหญ่ไว้ข้างหน้าพวกเขาและเราให้คำแนะนำแก่พวกเขาซึ่งเป็นข้อเสนอแนะที่เป็นรูปธรรมในการแก้ไขแบบสอบถามเพื่อปรับปรุงประสิทธิภาพของพวกเขา

ที่จริงแล้วเราทำเช่นนั้นโดยอัตโนมัติในบางกรณีอีกครั้งโดยการสังเกตบันทึกการสืบค้น หากเราเห็นว่ามีการค้นหาจำนวนมากในตารางนี้ใช้ประโยชน์จากตัวกรองบางตัวหรือส่วนคำสั่งการรวมเฉพาะเราจะปรากฏขึ้นมา เราจะส่งเสริมสิ่งนั้นเพื่อการแทรกแซง จริงๆแล้วมันเกิดขึ้นกับฉันในชุดข้อมูลภายใน เรามีข้อมูลลูกค้าและเรามี ID ผู้ใช้ แต่ชุด ID ผู้ใช้เนื่องจากเป็นประเภท - เรามี ID ผู้ใช้ที่ลูกค้าทุกคน มันไม่ซ้ำกันดังนั้นคุณต้องจับคู่กับรหัสลูกค้าเพื่อรับคีย์เข้าร่วมที่ไม่ซ้ำกัน และฉันกำลังเขียนแบบสอบถามและฉันพยายามวิเคราะห์บางสิ่งและมันก็โผล่ขึ้นมาแล้วพูดว่า“ เฮ้คนอื่น ๆ ดูเหมือนว่าจะเข้าร่วมตารางเหล่านี้กับทั้งรหัสลูกค้าและรหัสผู้ใช้ คุณแน่ใจหรือว่าคุณไม่ต้องการทำสิ่งนั้น” และจริง ๆ แล้วมันทำให้ฉันไม่สามารถทำการวิเคราะห์ที่ผิดพลาดได้ ดังนั้นจึงใช้ได้ทั้งความแม่นยำของการวิเคราะห์เช่นเดียวกับประสิทธิภาพ นั่นคือวิธีที่เราจัดการกับปัญหานั้น

Rebecca Jozwiak: ดูเหมือนว่าฉันจะมีประสิทธิภาพ คุณบอกว่าคุณไม่จำเป็นต้องปิดกั้นผู้คนจากการเดินโซเซทรัพยากร แต่เรียงลำดับของการสอนพวกเขาว่าสิ่งที่พวกเขากำลังทำอาจจะไม่ดีที่สุดใช่ไหม?

เดวิดครอว์ฟอร์ด: เราคิดเสมอว่าผู้ใช้นั้นไม่ประสงค์ร้าย - มอบเจตจำนงที่ดีที่สุดให้กับพวกเขาและเราพยายามที่จะเปิดใจในทางนั้น

Rebecca Jozwiak: โอเค นี่คือคำถามอื่น:“ ความแตกต่างระหว่างตัวจัดการแคตตาล็อกเช่นเดียวกับโซลูชันของคุณและเครื่องมือ MDM คืออะไร? หรือว่ามันจะใช้หลักการที่แตกต่างกันโดยการขยายตัวเลือกของตารางแบบสอบถามในขณะที่ MDM จะทำมันโดยอัตโนมัติ แต่ด้วยหลักการพื้นฐานเดียวกันของการรวบรวมข้อมูลเมตา "

David Crawford: ใช่ฉันคิดว่าเมื่อฉันดูโซลูชัน MDM แบบดั้งเดิมความแตกต่างหลักคือปรัชญา มันคือทั้งหมดที่เกี่ยวกับผู้ใช้ที่เป็น อย่างที่ฉันพูดตอนเริ่มต้นการนำเสนอของฉัน Alation ฉันคิดว่าเมื่อเราก่อตั้งขึ้นเราก่อตั้งขึ้นโดยมีจุดประสงค์เพื่อให้นักวิเคราะห์สร้างความเข้าใจที่ลึกซึ้งยิ่งขึ้นทำให้พวกเขาผลิตได้เร็วขึ้นและแม่นยำยิ่งขึ้น การผลิต ฉันไม่คิดว่าเป็นเป้าหมายของโซลูชั่น MDM แบบดั้งเดิมมาก่อน โซลูชั่นเหล่านั้นมีแนวโน้มที่จะถูกกำหนดเป้าหมายไปยังผู้ที่ต้องการจัดทำรายงานว่าข้อมูลใดที่ถูกจับไปยัง SCC หรือภายในเพื่อจุดประสงค์ในการตรวจสอบประเภทอื่น บางครั้งมันสามารถเปิดใช้งานนักวิเคราะห์ แต่บ่อยครั้งขึ้นหากจะเปิดใช้งานผู้ปฏิบัติงานในการทำงานของพวกเขาก็มีแนวโน้มที่จะเปิดใช้งานสถาปนิกด้านข้อมูลเช่น DBA

เมื่อคุณคิดถึงสิ่งต่าง ๆ จากจุดยืนของนักวิเคราะห์นั่นคือเมื่อคุณเริ่มสร้างเครื่องมือสืบค้นที่เครื่องมือ MDM จะไม่ทำ นั่นคือเมื่อคุณเริ่มคิดเกี่ยวกับประสิทธิภาพและความถูกต้องรวมทั้งทำความเข้าใจกับข้อมูลที่เกี่ยวข้องกับความต้องการทางธุรกิจของฉัน ทุกสิ่งเหล่านี้เป็นสิ่งที่ป๊อปอัพในใจของเราเมื่อเราออกแบบเครื่องมือ มันเข้าสู่อัลกอริทึมการค้นหาของเรามันจะเข้าไปในเลย์เอาต์ของหน้าแคตตาล็อกและความสามารถในการมีส่วนร่วมในความรู้จากทั่วทั้งองค์กร มันเป็นความจริงที่ว่าเราสร้างเครื่องมือสืบค้นข้อมูลและเราสร้างแคตตาล็อกลงในนั้นโดยตรงดังนั้นฉันคิดว่ามันมาจากที่จริง คุณคำนึงถึงผู้ใช้คนใดเป็นอันดับแรก

Rebecca Jozwiak: โอเคดี นั่นช่วยอธิบายได้จริงๆ ใครกำลังจะตายที่จะได้รับจดหมายเหตุเพราะเขาต้องจากไป แต่เขาต้องการตอบคำถามของเขา เขาบอกว่ามันถูกกล่าวถึงในตอนแรกว่ามีหลายภาษา แต่ SQL เป็นภาษาเดียวที่ใช้ประโยชน์จากส่วนประกอบในการเขียนหรือไม่

เดวิดครอว์ฟอร์ด: ใช่มันเป็นเรื่องจริง และหนึ่งในสิ่งที่ฉันสังเกตเห็นเมื่อฉันเห็นการระเบิดของฐานข้อมูลประเภทต่าง ๆ ของฐานข้อมูลเอกสารของฐานข้อมูลกราฟของร้านค้าที่มีค่าที่สำคัญคือพวกเขามีประสิทธิภาพมากสำหรับการพัฒนาแอปพลิเคชัน พวกเขาสามารถตอบสนองความต้องการเฉพาะที่นั่นได้ดีจริงๆในวิธีที่ดีกว่าฐานข้อมูลเชิงสัมพันธ์ได้

แต่เมื่อคุณนำมันกลับไปวิเคราะห์ข้อมูลเมื่อคุณนำมันกลับมาที่ - เมื่อคุณต้องการให้ข้อมูลนั้นแก่ผู้ที่จะทำการรายงานแบบเฉพาะกิจหรือเฉพาะกิจการขุดเข้าไปในข้อมูลพวกเขามักจะกลับไปที่ความสัมพันธ์ อย่างน้อยก็อินเตอร์เฟสสำหรับมนุษย์ ส่วนหนึ่งเป็นเพราะ SQL เป็นภาษากลางของการวิเคราะห์ข้อมูลดังนั้นสำหรับมนุษย์มันก็มีไว้สำหรับเครื่องมือที่รวมเข้าด้วยกัน ฉันคิดว่านี่เป็นเหตุผลที่ SQL บน Hadoop ได้รับความนิยมและมีความพยายามมากมายในการแก้ไขเพราะในตอนท้ายของวันนั่นคือสิ่งที่ทุกคนรู้ อาจมีผู้คนหลายล้านคนที่รู้วิธีการเขียน SQL และฉันจะร่วมทุนกับคนหลายล้านคนที่ไม่ทราบวิธีการเขียนแบบสอบถามเฟรมเวิร์กไปป์ไลน์ Mongo และเป็นภาษามาตรฐานที่ใช้สำหรับการรวมข้ามแพลตฟอร์มที่หลากหลายอย่างแท้จริง ดังนั้นทั้งหมดที่กล่าวว่าเราไม่ค่อยได้รับการร้องขอให้ออกไปข้างนอกเพราะนี่เป็นอินเทอร์เฟซที่นักวิเคราะห์ส่วนใหญ่ใช้และเป็นสถานที่ที่เรามุ่งเน้นโดยเฉพาะอย่างยิ่งในการเขียนที่เรามุ่งเน้นการเขียน SQL

ฉันจะบอกว่าวิทยาศาสตร์ข้อมูลเป็นสถานที่ที่พวกเขามีส่วนร่วมนอกมากที่สุดดังนั้นเราจึงได้รับคำถามเกี่ยวกับการใช้ Pig หรือ SAS เป็นครั้งคราว นี่คือสิ่งที่เราไม่ได้จัดการใน Compose และเราต้องการรวบรวมในแคตตาล็อก และฉันก็เห็น R และ Python เช่นกัน เรามีสองสามวิธีที่เราได้สร้างอินเทอร์เฟซที่คุณสามารถใช้แบบสอบถามที่เขียนใน Alation ภายในสคริปต์ R และ Python ดังนั้นบ่อยครั้งเมื่อคุณเป็นนักวิทยาศาสตร์ด้านข้อมูลและคุณทำงานในภาษาสคริปต์ แหล่งข้อมูลอยู่ในฐานข้อมูลเชิงสัมพันธ์ คุณเริ่มต้นด้วยแบบสอบถาม SQL จากนั้นดำเนินการเพิ่มเติมและสร้างกราฟภายในของ R และ Python และเราได้ทำแพคเกจที่คุณสามารถนำเข้าสู่สคริปต์เหล่านั้นที่ดึงแบบสอบถามหรือผลลัพธ์แบบสอบถามจาก Alation เพื่อให้คุณสามารถมีเวิร์กโฟลว์แบบผสมผสานได้ที่นั่น

Rebecca Jozwiak: โอเคเยี่ยม ฉันรู้ว่าเราวิ่งผ่านจุดสูงสุดไปนิดนึงฉันจะถามคำถามอีกหนึ่งหรือสองข้อ ฉันรู้ว่าคุณได้พูดคุยเกี่ยวกับระบบต่าง ๆ ทั้งหมดที่คุณสามารถเชื่อมต่อได้ แต่เท่าที่ข้อมูลโฮสต์ภายนอกและข้อมูลโฮสต์ภายในสามารถค้นหาร่วมกันในมุมมองเดียวของคุณในแพลตฟอร์มเดียวของคุณได้หรือไม่?

David Crawford: แน่นอน มีสองสามวิธีที่จะทำเช่นนั้น ฉันหมายถึงโฮสต์ภายนอกฉันจะจินตนาการว่าฉันกำลังพยายามคิดอย่างชัดเจนว่าอาจหมายถึงอะไร อาจหมายถึงฐานข้อมูลที่มีคนโฮสต์ใน AWS ให้คุณ อาจหมายถึงแหล่งข้อมูลสาธารณะจาก data.gov เราเชื่อมต่อโดยตรงกับฐานข้อมูลโดยลงชื่อเข้าใช้เหมือนกับแอปพลิเคชันอื่นด้วยบัญชีฐานข้อมูลและนั่นคือวิธีที่เราแยกข้อมูลเมตา ดังนั้นหากเรามีบัญชีและเราเปิดพอร์ตเครือข่ายเราก็สามารถไปได้ และเมื่อเราไม่มีสิ่งเหล่านั้นเรามีสิ่งที่เรียกว่าแหล่งข้อมูลเสมือนจริงที่ช่วยให้คุณสามารถผลักดันเอกสารไม่ว่าจะเป็นโดยอัตโนมัติโดยการเขียนตัวเชื่อมต่อของคุณเองหรือโดยการกรอกข้อมูลด้วยการทำเช่นเดียวกับการอัปโหลด CSV เพื่อจัดทำเอกสารข้อมูลข้างข้อมูลภายในของคุณ ที่ได้รับทั้งหมดไว้ในเครื่องมือค้นหา มันสามารถอ้างอิงได้ภายในบทความและเอกสารประกอบอื่น ๆ และการสนทนาภายในระบบ นั่นคือวิธีที่เราจัดการเมื่อเราไม่สามารถเชื่อมต่อกับระบบได้โดยตรง

Rebecca Jozwiak: โอเคมันสมเหตุสมผลแล้ว ฉันจะส่งคำถามให้คุณอีกหนึ่งคำถาม หนึ่งผู้เข้าร่วมคือ ถามว่า“ เนื้อหาของแค็ตตาล็อกข้อมูลควรได้รับการตรวจสอบความถูกต้องตรวจสอบหรือดูแลรักษาอย่างไรในขณะที่ข้อมูลต้นฉบับได้รับการปรับปรุงขณะที่มีการแก้ไขข้อมูลต้นฉบับเป็นต้น”

David Crawford: ใช่มันเป็นคำถามที่เราได้รับมากมายและฉันคิดว่าหนึ่งในสิ่งที่เรา - หนึ่งในปรัชญาของเราอย่างที่ฉันพูดเราไม่เชื่อว่าผู้ใช้จะเป็นอันตราย เราคิดว่าพวกเขากำลังพยายามให้ความรู้ที่ดีที่สุด พวกเขาจะไม่เข้ามาและทำให้ผู้อื่นเข้าใจผิดเกี่ยวกับข้อมูล หากนั่นเป็นปัญหาที่องค์กรของคุณบางที Alation ไม่ใช่เครื่องมือที่เหมาะสมสำหรับคุณ แต่ถ้าคุณถือว่าผู้ใช้มีเจตนาที่ดีเราก็คิดว่ามันเป็นสิ่งที่มีการอัพเดทเข้ามาและโดยทั่วไปแล้วสิ่งที่เราทำก็คือเราใส่ผู้ดูแลในแต่ละวัตถุข้อมูลหรือแต่ละส่วนของข้อมูล และเราสามารถแจ้งผู้ดูแลเหล่านั้นได้เมื่อมีการเปลี่ยนแปลงข้อมูลเมตาและพวกเขาสามารถจัดการได้ด้วยวิธีดังกล่าว พวกเขาเห็นการปรับปรุงเข้ามาพวกเขาตรวจสอบพวกเขา หากพวกเขาไม่ถูกต้องพวกเขาสามารถย้อนกลับและแก้ไขและแจ้งและหวังว่าจะสามารถเข้าถึงผู้ใช้ที่ให้ข้อมูลและช่วยให้พวกเขาเรียนรู้

นั่นคือวิธีหลักที่เราคิดเกี่ยวกับการทำมัน ข้อเสนอแนะประเภทนี้โดยผู้ชมและผู้บริหารโดยผู้ดูแลดังนั้นเราจึงมีความสามารถรอบข้าง

Rebecca Jozwiak: โอเคดี และถ้าคุณเพียงแค่ให้คนรู้ว่าพวกเขาสามารถเริ่มต้นด้วย Alation ได้ดีที่สุดและพวกเขาสามารถไปที่ไหนโดยเฉพาะเพื่อรับข้อมูลเพิ่มเติม ฉันรู้ว่าคุณแบ่งปันหนึ่ง bit.ly นั่นคือสถานที่ที่ดีที่สุด?

David Crawford: Alation.com/learnmore ฉันคิดว่ามันเป็นวิธีที่ยอดเยี่ยม หากต้องการลงทะเบียนเพื่อสาธิตเว็บไซต์ Alation.com มีแหล่งข้อมูลที่ดีมากมายเอกสารข้อมูลลูกค้าและข่าวสารเกี่ยวกับโซลูชันของเรา ดังนั้นฉันคิดว่ามันเป็นจุดเริ่มต้นที่ดี คุณยังสามารถส่งอีเมล

Rebecca Jozwiak: โอเคเยี่ยม และฉันรู้ว่าผู้เข้าร่วมขออภัยถ้าฉันไม่ได้ไปทุกคำถามในวันนี้ แต่ถ้าไม่พวกเขาจะถูกส่งต่อไปยังเดวิดหรือทีมขายของเขาหรือใครบางคนที่ Alation เพื่อให้พวกเขาสามารถช่วยตอบคำถามของคุณและช่วยให้เข้าใจได้อย่างแน่นอน Alation ทำอะไรหรือทำอะไรได้ดีที่สุด

และด้วยสิ่งนั้นผู้คนฉันจะไปข้างหน้าและลงชื่อเรา คุณสามารถค้นหาคลังเก็บได้ตลอดเวลาที่ InsideAnalysis.com คุณสามารถค้นหาได้ที่ Techopedia.com พวกเขามักจะอัปเดตเร็วขึ้นเล็กน้อยดังนั้นลองตรวจสอบดู และขอบคุณมากสำหรับ David Crawford, Dez Blanchfield และ Robin Boor วันนี้ มันเป็นการออกอากาศทางเว็บที่ยอดเยี่ยม และด้วยสิ่งนั้นฉันจะอำลาคุณ ขอบคุณครับ ลาก่อน.

David Crawford: ขอบคุณ

พลังของข้อเสนอแนะ: วิธีที่แคตตาล็อกข้อมูลช่วยให้นักวิเคราะห์