Q:
การขูดข้อมูลเพื่อการเรียนรู้ของเครื่องจักรกลายเป็นปัญหาคอขวดที่ใช้แรงงานมากที่สุดนับตั้งแต่การป้อนข้อมูลด้วยตนเองในการโอนย้ายระบบเดิม
A:หนึ่งในปัญหาในทางปฏิบัติที่ บริษัท อาจประสบเมื่อพยายามเริ่มโครงการการเรียนรู้ด้วยเครื่องจักร (ML) คือความท้าทายในการรับชุดข้อมูลการฝึกอบรมเบื้องต้น ซึ่งอาจรวมถึงกระบวนการที่ใช้แรงงานมากเช่นการขูดเว็บหรือการขูดข้อมูลอื่น ๆ
ข้อกำหนดการขูดเว็บและการขูดข้อมูลส่วนใหญ่อ้างถึงกิจกรรมอัตโนมัติโดยซอฟต์แวร์คอมพิวเตอร์ แต่สำหรับโครงการ ML หลายโครงการจะมีกรณีที่คอมพิวเตอร์ไม่มีความซับซ้อนในการรวบรวมข้อมูลเป้าหมายที่ถูกต้องดังนั้นจึงต้องทำ "ด้วยมือ." สิ่งนี้คุณอาจเรียกว่า "เว็บมนุษย์ / การคัดลอกข้อมูล" และมันก็เป็นงานที่ไม่ต้องขอบคุณ โดยทั่วไปจะเกี่ยวข้องกับการออกไปข้างนอกและค้นหาข้อมูลหรือรูปภาพเพื่อ "ป้อน" โปรแกรม ML ผ่านชุดฝึกอบรม บ่อยครั้งที่มันค่อนข้างซ้ำซึ่งทำให้งานน่าเบื่อและเฉื่อยชา
ดาวน์โหลดฟรี: การเรียนรู้ของเครื่องและเหตุผลที่สำคัญ |
การขูดข้อมูลสำหรับชุดการฝึกอบรม ML แสดงถึงคอขวดที่มีปัญหาเฉพาะในการเรียนรู้ของเครื่องส่วนหนึ่งเป็นเพราะงานอื่น ๆ ส่วนใหญ่มีแนวคิดสูงและไม่ซ้ำซ้อน มีหลายคนที่คิดไอเดียที่ยอดเยี่ยมสำหรับแอพใหม่ที่ทำงานกับการเรียนรู้ของเครื่องจักร แต่ถั่วและสลักเกลียวและการใช้งานจริงนั้นยากกว่ามาก โดยเฉพาะอย่างยิ่งการมอบหมายงานในการประกอบชุดฝึกอบรมจริง ๆ แล้วอาจเป็นหนึ่งในส่วนที่ยากที่สุดของโครงการ ML ซึ่งสำรวจอย่างเต็มที่ในรายการทีวี "Silicon Valley" ของ Mike Judge ในฤดูกาลที่สี่ตอนผู้ประกอบการที่เพิ่งเริ่มต้นรังแกหุ้นส่วนคนแรกเข้ามาทำงานที่ต้องใช้แรงงานมากจากนั้นก็พยายามส่งต่อนักศึกษาโดยปลอมตัวเป็นงานบ้าน
ตัวอย่างนี้มีประโยชน์เพราะมันแสดงให้เห็นว่าการขูดข้อมูลด้วยตนเองนั้นไม่ชอบและไม่สำคัญ อย่างไรก็ตามมันยังแสดงให้เห็นว่ากระบวนการนี้จำเป็นสำหรับผลิตภัณฑ์การเรียนรู้ของเครื่องจักรที่หลากหลาย แม้ว่าคนส่วนใหญ่จะเกลียดการป้อนข้อมูลชุดฝึกอบรมจะต้องมีการประกอบในบางวิธี ผู้เชี่ยวชาญเกี่ยวกับกระบวนการมักแนะนำให้ใช้บริการการขูดเว็บ - เพียงแค่จ้างงานที่ต้องใช้แรงงานจำนวนมากกับบุคคลภายนอก แต่นั่นอาจทำให้เกิดปัญหาด้านความปลอดภัยและทำให้เกิดปัญหาอื่น ๆ เมื่อทำให้การรวบรวมข้อมูลด้วยตนเองทำงานได้เองต้องมีการเตรียมการสำหรับขั้นตอนที่ต้องทำด้วยตนเองและใช้เวลานาน
ในบางวิธี "การคัดลอกข้อมูลมนุษย์" สำหรับการเรียนรู้ของเครื่องดูเหมือนกับการป้อนข้อมูลด้วยตนเองซึ่งบางครั้งต้องดำเนินการในการโยกย้ายแบบดั้งเดิม เมื่อระบบคลาวด์เริ่มได้รับความนิยมมากขึ้นเรื่อย ๆ และ บริษัท ต่าง ๆ นำกระบวนการและขั้นตอนการทำงานของพวกเขาไปไว้ในคลาวด์บางคนพบว่าพวกเขาไม่ได้ทำงานในด้านการปฏิบัติเพื่อให้ได้ข้อมูลองค์กรของพวกเขา เป็นผลให้บางคนที่เป็นนักวิทยาศาสตร์ด้านข้อมูลหรือคนที่มีความคิดสร้างสรรค์ที่มีทักษะด้านไอทีที่จำเป็นพบว่าตนเองทำงานด้านการป้อนข้อมูลที่ไม่พึงประสงค์
เช่นเดียวกันมีแนวโน้มที่จะเกิดขึ้นกับการเรียนรู้ของเครื่อง คุณอาจได้ยินนักวิทยาศาสตร์ด้านข้อมูลบ่นว่า“ ฉันเป็นคนที่มีความคิดสร้างสรรค์” หรือ“ ฉันอยู่ในด้านการพัฒนา” - แต่บางคนต้องทำงานที่สกปรก
หากการไหลของงานสร้างสรรค์ไม่ได้ถูกจับคู่โดยการประเมินเชิงปฏิบัติของการมอบหมายเวิร์กโฟลว์ก็จะมีความไม่ตรงกันในการกำหนดทิศทางการจัดการงาน เมื่อ บริษัท ไม่มีคนที่จะทำการขูดข้อมูลในการรวบรวมชุดข้อมูลมันขาดส่วนสำคัญของห่วงโซ่ของกระบวนการสำหรับโครงการที่ประสบความสำเร็จ เป็นสิ่งที่ควรคำนึงถึงในทุกครั้งที่ บริษัท พยายามทำสิ่งที่ดีให้เป็นความคิดที่มีพื้นฐานมาจากการพัฒนาแอพพลิเคชั่นการเรียนรู้ของเครื่องจักร
