สารบัญ:
คำจำกัดความ - Tokenization หมายถึงอะไร
โทเค็นไลเซชันคือการแบ่งลำดับของสตริงออกเป็นชิ้น ๆ เช่นคำ, คำ, วลี, สัญลักษณ์และองค์ประกอบอื่น ๆ ที่เรียกว่าโทเค็น โทเค็นอาจเป็นคำวลีหรือประโยคทั้งหมดก็ได้ ในกระบวนการโทเค็นอักขระบางตัวเช่นเครื่องหมายวรรคตอนจะถูกยกเลิก โทเค็นกลายเป็นอินพุตสำหรับกระบวนการอื่นเช่นการแยกวิเคราะห์และการทำเหมืองข้อความ
โทเค็นไลเซชันใช้ในวิทยาการคอมพิวเตอร์ซึ่งมีบทบาทสำคัญในกระบวนการวิเคราะห์คำศัพท์
Techopedia อธิบาย Tokenization
โทเค็นไลเซชันส่วนใหญ่อาศัยฮิวริสติกแบบง่ายเพื่อแยกโทเค็นโดยทำตามสองสามขั้นตอน:
- โทเค็นหรือคำคั่นด้วยช่องว่างเครื่องหมายวรรคตอนหรือตัวแบ่งบรรทัด
- พื้นที่สีขาวหรือเครื่องหมายวรรคตอนอาจมีหรือไม่มีก็ได้ขึ้นอยู่กับความต้องการ
- อักขระทั้งหมดภายในสตริงที่ต่อเนื่องเป็นส่วนหนึ่งของโทเค็น โทเค็นสามารถประกอบด้วยอักขระตัวอักษรและตัวเลขหรืออักขระที่เป็นตัวเลขเท่านั้น
โทเค็นเองสามารถเป็นตัวคั่นได้ ตัวอย่างเช่นในภาษาการเขียนโปรแกรมส่วนใหญ่ตัวระบุสามารถวางพร้อมกับตัวดำเนินการทางคณิตศาสตร์โดยไม่มีช่องว่าง แม้ว่าจะดูเหมือนว่าสิ่งนี้จะปรากฏเป็นคำเดียวหรือโทเค็นไวยากรณ์ของภาษาจะพิจารณาตัวดำเนินการทางคณิตศาสตร์ (โทเค็น) เป็นตัวคั่นดังนั้นจริง ๆ แม้ว่าจะมีหลายโทเค็นรวมเข้าด้วยกันพวกเขายังสามารถแยกทางคณิตศาสตร์ได้ ผู้ประกอบการ
