Xây dựng tài nguyên tiếng Việt phân tích văn bản trên mạng xã hội

318

Trong bài viết này, chúng tôi thực hiện báo cáo về việc xây dựng tài nguyên ngôn ngữ phục vụ cho việc phân tích văn bản trên mạng xã hội Việt Nam trong nhiều lĩnh vực. Trước hết, chúng tôi mô tả phương pháp luận bao gồm phát triển các hướng dẫn, các phần mềm chú thích và đảm bảo chất lượng. Sau đó là phần trình bày về kết quả của giai đoạn thử nghiệm đầu tiên của dự án. Cuối cùng, chúng tôi nêu lên một số quan điểm về sự phát triển hiện tại và kết quả mong đợi.

Trong kỷ nguyên xử lý ngôn ngữ tự nhiên, dữ liệu ngôn ngữ được gán nhãn đóng vai trò quan trọng trong việc đánh giá và huấn luyện các công cụ tiên tiến cho hầu hết các bài toán xử lý ngôn ngữ tự nhiên. Tuy nhiên, gán nhãn dữ liệu ngôn ngữ là một trong những công đoạn tốn kém nhất về thời gian và chi phí khi làm nghiên cứu về xử lý ngôn ngữ tự nhiên. Điều quan trọng là gán nhãn dữ liệu ngôn ngữ nên được xem xét và tài trợ bởi không chỉ các tổ chức nghiên cứu nhà nước mà còn bởi các công ty tư nhân làm việc về công nghệ ngôn ngữ tự nhiên, đặc biệt là với các ngôn ngữ có nguồn lực hạn chế như tiếng Việt.

Trong bài báo này, chúng tôi trình bày về việc xây dựng bộ tài nguyên ngôn ngữ lớn được gán nhãn với mục đích phân tích các văn bản mạng xã hội Việt Nam trong nhiều lĩnh vực. Dự án gán nhãn dữ liệu này được tài trợ bởi tập đoàn FPT nhằm xây dựng bốn bộ dữ liệu gán nhãn ngôn ngữ trong bốn lĩnh vực văn bản xã hội về (1) thương mại điện tử, (2) dịch vụ tài chính, (3) chính phủ điện tử và (4) tin tức. Trong mỗi lĩnh vực, có khoảng 100.000 câu được gán nhãn thủ công tách từ, từ loại, thực thể và phân tích cú pháp nông. Dữ liệu thô được thu thập để phục vụ cho việc gán nhãn này đến từ các nguồn khác nhau như bài đăng và bình luận trên Facebook, diễn đàn thảo luận và blog.

Có một số đặc tính khiến cho dự án này khác biệt so với các dự án hiện có về xây dựng tài nguyên ngôn ngữ cho tiếng Việt. Đầu tiên, dự án này tập trung vào văn bản mạng xã hội thay vì văn bản tin tức thông thường như dự án VLSP (Xử lý ngôn ngữ và ngôn ngữ Việt Nam) [1]. Ngoài ra, kết quả dự kiến của dự án này có nhiều tham vọng hơn so với VLSP trong đó bốn miền văn bản xã hội sẽ được xem xét và trong mỗi miền, khoảng 100.000 câu sẽ được gán nhãn, so với chỉ khoảng 20.000 câu của dự án VLSP chỉ được gán nhãn ở cấp độ cú pháp. Đặc biệt hơn nữa dự án phát triển dữ liệu này được tài trợ bởi một công ty tư nhân (FPT) chứ không phải bởi một tổ chức công nhà nước như dự án VLSP.

Điều đáng nói là đây là một dự án đang được triển khai tích cực tại bộ phận Nghiên cứu và Phát triển của tập đoàn FPT. Dự án tập hợp một loạt các nhân viên trong nhiều nhóm bao gồm các nhà ngôn ngữ học, chuyên gia xử lý ngôn ngữ tự nhiên, chuyên gia về lĩnh vực mà văn bản được thu thập để phân tích, nhà phát triển phần mềm, quản lý dự án và các thành viên hỗ trợ. Bài viết này báo cáo một số kết quả hiện tại của dự án sau giai đoạn thử nghiệm đầu tiên, tập trung vào phương pháp luận và một số kết quả ban đầu.

Phần còn lại của bài viết này được cấu trúc như sau. Phần II phác thảo phương pháp luận được thông qua trong dự án của chúng tôi. Sau đó, Phần III trình bày kết quả của giai đoạn đầu tiên của dự án. Cuối cùng, Phần IV kết thúc bài báo và đưa ra một số định hướng cho công việc tương lai của dự án.

Xem thêm tại ĐÂY.

Nguyễn Thế Tuyên (FPT Technology Innovation)
Lương Xuân Vũ (Vietnam Lexicography Center)
Lê Hồng Phương (Data Science Laboratory, University of Science, VNU Hanoi)

Tin liên quan:
  • 37
    Shares