สารบัญ:
คำจำกัดความ - การขูดเนื้อหาหมายถึงอะไร
การขูดเนื้อหาเป็นวิธีที่ผิดกฎหมายในการขโมยเนื้อหาต้นฉบับจากเว็บไซต์ที่ถูกกฎหมายและการโพสต์เนื้อหาที่ถูกขโมยไปยังเว็บไซต์อื่นโดยไม่ต้องมีความรู้หรือได้รับอนุญาตจากเจ้าของเนื้อหา ตัวขูดเนื้อหามักจะพยายามส่งต่อเนื้อหาที่ถูกขโมยเป็นของตนเองและไม่สามารถระบุแหล่งที่มาของเจ้าของเนื้อหาได้
การคัดลอกเนื้อหาสามารถทำได้ผ่านการคัดลอกและวางด้วยตนเองหรืออาจใช้เทคนิคที่ซับซ้อนมากขึ้นเช่นการใช้ซอฟต์แวร์พิเศษการเขียนโปรแกรม HTTP หรือ HTML หรือ DOM parsers
เนื้อหาส่วนใหญ่ที่ตกเป็นเหยื่อของการขูดเป็นเนื้อหาที่มีลิขสิทธิ์ การโพสต์ซ้ำโดยไม่ได้รับอนุญาตจากเจ้าของลิขสิทธิ์ถือเป็นความผิดที่มีโทษ อย่างไรก็ตามไซต์มีดโกนมีการโฮสต์ทั่วโลกและ scrapers ที่ถูกขอให้ลบเนื้อหาที่มีลิขสิทธิ์อาจเพียงแค่เปลี่ยนโดเมนหรือหายไป
Techopedia อธิบายการขูดเนื้อหา
เครื่องขูดเนื้อหาสามารถเพิ่มปริมาณการเข้าชมเว็บไซต์ของพวกเขาโดยการคัดลอกเนื้อหาที่มีคุณภาพสูงและมีความหนาแน่นของคำหลักจากเว็บไซต์อื่น ๆ นักเขียนบล็อกมีความอ่อนไหวต่อเรื่องนี้โดยเฉพาะอาจเป็นเพราะบล็อกเกอร์ส่วนบุคคลไม่น่าจะเริ่มโจมตีทางกฎหมายกับแครปเปอร์ สแครปเปอร์ได้รับการสนับสนุนให้ทำเช่นนี้ต่อไปเนื่องจากเครื่องมือค้นหายังไม่พบวิธีที่มีประสิทธิภาพในการกรองเนื้อหาที่ไม่ซ้ำจากเนื้อหาที่คัดลอกมา
ผู้ดูแลเว็บไซต์สามารถป้องกันตัวเองจากการคัดลอกผ่านมาตรการง่ายๆเช่นการเพิ่มลิงค์ไปยังเว็บไซต์ของตนเองภายในเนื้อหา อย่างน้อยจะทำให้พวกเขาได้รับปริมาณการใช้ข้อมูลจากเนื้อหาที่คัดลอกมา วิธีการที่ซับซ้อนยิ่งขึ้นในการจัดการกับการขูดด้วยบอตรวมถึง:
- แอปพลิเคชั่นต่อต้านบอทเพื่อการพาณิชย์
- จับบ็อตด้วย honeypot และปิดกั้นที่อยู่ IP ของพวกเขา
- การบล็อกบอทด้วยรหัสจาวาสคริปต์
