บ้าน พัฒนาการ โทเค็นคืออะไร - คำจำกัดความจาก techopedia

โทเค็นคืออะไร - คำจำกัดความจาก techopedia

สารบัญ:

Anonim

คำจำกัดความ - Tokenization หมายถึงอะไร

โทเค็นไลเซชันคือการแบ่งลำดับของสตริงออกเป็นชิ้น ๆ เช่นคำ, คำ, วลี, สัญลักษณ์และองค์ประกอบอื่น ๆ ที่เรียกว่าโทเค็น โทเค็นอาจเป็นคำวลีหรือประโยคทั้งหมดก็ได้ ในกระบวนการโทเค็นอักขระบางตัวเช่นเครื่องหมายวรรคตอนจะถูกยกเลิก โทเค็นกลายเป็นอินพุตสำหรับกระบวนการอื่นเช่นการแยกวิเคราะห์และการทำเหมืองข้อความ

โทเค็นไลเซชันใช้ในวิทยาการคอมพิวเตอร์ซึ่งมีบทบาทสำคัญในกระบวนการวิเคราะห์คำศัพท์

Techopedia อธิบาย Tokenization

โทเค็นไลเซชันส่วนใหญ่อาศัยฮิวริสติกแบบง่ายเพื่อแยกโทเค็นโดยทำตามสองสามขั้นตอน:

  • โทเค็นหรือคำคั่นด้วยช่องว่างเครื่องหมายวรรคตอนหรือตัวแบ่งบรรทัด
  • พื้นที่สีขาวหรือเครื่องหมายวรรคตอนอาจมีหรือไม่มีก็ได้ขึ้นอยู่กับความต้องการ
  • อักขระทั้งหมดภายในสตริงที่ต่อเนื่องเป็นส่วนหนึ่งของโทเค็น โทเค็นสามารถประกอบด้วยอักขระตัวอักษรและตัวเลขหรืออักขระที่เป็นตัวเลขเท่านั้น

โทเค็นเองสามารถเป็นตัวคั่นได้ ตัวอย่างเช่นในภาษาการเขียนโปรแกรมส่วนใหญ่ตัวระบุสามารถวางพร้อมกับตัวดำเนินการทางคณิตศาสตร์โดยไม่มีช่องว่าง แม้ว่าจะดูเหมือนว่าสิ่งนี้จะปรากฏเป็นคำเดียวหรือโทเค็นไวยากรณ์ของภาษาจะพิจารณาตัวดำเนินการทางคณิตศาสตร์ (โทเค็น) เป็นตัวคั่นดังนั้นจริง ๆ แม้ว่าจะมีหลายโทเค็นรวมเข้าด้วยกันพวกเขายังสามารถแยกทางคณิตศาสตร์ได้ ผู้ประกอบการ

โทเค็นคืออะไร - คำจำกัดความจาก techopedia