Bài viết này giới thiệu một cách tiếp cận hiệu quả để tự động tách các đơn vị từ trong văn bản tiếng Việt với độ chính xác cao bằng cách sử dụng các biểu thức chính quy và một số phương pháp khử hai loại nhập nhằng phổ biến của tách từ, gồm nhập nhằng chồng lấn và nhập nhằng tổ hợp.
Tách từ là bài toán cơ bản đầu tiên trong việc xử lí và hiểu ngôn ngữ. Với nhiều ngôn ngữ thông dụng, việc tách một câu thành các đơn vị từ là không khó vì trong văn bản các từ thường được viết cách nhau bằng kí tự trắng hoặc bằng các dấu câu. Tuy nhiên, nhiều ngôn ngữ không có kí hiệu đánh dấu biên của các từ, điều này làm cho tách từ không phải là việc dễ dàng. Chẳng hạn tiếng Việt là một ngôn ngữ đơn lập điển hình, kí tự trắng không được dùng để tách các từ mà chỉ được dùng để tách các âm tiết, trong khi một từ có thể chứa nhiều âm tiết.
Chi tiết xin xem bài viết tiếng Anh ở địa chỉ:

https://techinsight.com.vn/language/en/vietnamese-word-segmentation-part-i/

Lê Hồng Phương – FHO 
Tin liên quan: