Bài báo khoa học giới thiệu hai bộ dữ liệu mới bằng tiếng Việt vốn có ít tư liệu, để đánh giá các mô tương tự ngữ nghĩa hoặc có mối quan hệ ngữ nghĩa: Bộ ViCon bao gồm các cặp từ đồng nghĩa và từ trái nghĩa giữa các lớp từ, từ đó cung cấp dữ liệu để phân biệt giữa tương đồng và không tương đồng. Bộ ViSim-400 đánh giá mức độ tương đồng thông qua năm mối quan hệ ngữ nghĩa, được nhận định bởi các chuyên gia trước đó. Hai bộ dữ liệu được xác minh thông qua các mô hình mạng đồng trục và mạng thần kinh tiêu chuẩn, đã cho ra kết quả tương đồng với các bộ dữ liệu tiếng Anh tương tự.

Giới thiệu

Các mô hình tính toán phân biệt sự tương đồng về ngữ nghĩa và mối quan hệ ngữ nghĩa (Budanitsky và Hirst, 2006) có vai trò vô cùng quan trọng đối với nhiều ứng dụng NLP, ví dụ như thế hệ từ điển tự động, từ điển đồng nghĩa và ontology (Biemann, 2005; Cimiano et al., 2005; al., 2006) và dịch máy (He et al., 2008; Marton et al., 2009). Để đánh giá các mô hình này cần nhiều nguồn tài nguyên tiêu chuẩn với các cặp từ (thường là các cặp có mối quan hệ ngữ nghĩa như từ đồng nghĩa, thượng hạ vị, phản nghĩa, đồng âm, ẩn dụ,…) và mức độ tương tự của chúng cần được đánh giá bởi các phán đoán của con người.

Các ví dụ nổi bật nhất về tài nguyên tiêu chuẩn vàng bằng tiếng Anh là bộ dữ liệu Rubenstein & Goodenough (RG) (Rubenstein và Goodenough, 1965), các câu hỏi kiểm tra TOEFL (Landauer và Dumais, 1997), WordSim353 (Finkelstein et al., 2001), MEN (Bruni et al., 2012), SimLex-999 (Hill et al., 2015) và bộ dữ liệu tương phản từ vựng (Nguyen et al., 2016a, 2017). Đối với các ngôn ngữ khác, chúng ta có bản dịch của bộ dữ liệu RG sang tiếng Đức (Gurevych, 2005), bộ dữ liệu về mối quan hệ nghịch lý của Đức (Scheible và Schulte im Walde, 2014) và bản dịch WordSim-353 và SimLex-999 sang tiếng Đức, Ý và Nga (Leviant và Reichart, 2015). Tuy nhiên, đối với các ngôn ngữ có ít nguồn tư liệu, vẫn còn thiếu các bộ dữ liệu như vậy, đặc biệt là tiếng Việt, một ngôn ngữ không có dấu hiệu hình thái như bối cảnh, giới tính, số, thì, do đó khác biệt mạnh mẽ với các ngôn ngữ Tây Âu.

Các tác giả của bào báo giới thiệu hai bộ dữ liệu mới cho tiếng Việt: bộ dữ liệu các cặp tương phản từ vựng ViCon để phân biệt giữa tương đồng (đồng nghĩa) và không tương đồng (phản nghĩa) và bộ dữ liệu các cặp quan hệ ngữ nghĩa ViSim-400 để phản ánh mối liên hệ giữa sự tương tự và sự có liên quan. Hai bộ dữ liệu đã được công bố. Ngoài ra, cũng xác minh bộ dữ liệu mới của nhóm nghiên cứu thông qua các mô hình tiêu chuẩn, để chứng minh kết quả tương tự như đối với bộ dữ liệu tiếng Anh SimLex-999 (Hill et al., 2015 ) và bộ dữ liệu tương phản từ vựng (từ đó là LexCon), cf. Nguyen et al. (2016a).

Xem thêm tại ĐÂY.

Nguyễn Kim Anh
Sabine Schulte im Walde
Vũ Ngọc Thắng 

Tin liên quan:
  • 203
    Shares