Giới thiệu về Xử lý Ngữ nghĩa trong Ngôn ngữ Tự nhiên – Phần 1

1328

Ngôn ngữ tự nhiên là một công cụ để biểu đạt thông tin và mã hóa kiến thức của con người. Xử lý ngữ nghĩa trong ngôn ngữ tự nhiên là việc làm cho máy tính hiểu được  ý nghĩa của câu hoặc văn bản. Xử lý ngữ nghĩa đóng một vai trò quan trọng trong việc tạo nên trợ lý thông minh nói riêng và trong trí tuệ nhân tạo nói chung. Trong bài viết này, người viết giới thiệu sơ lược về xử lí ngữ nghĩa, gồm các phương pháp biểu diễn nghĩa, phân tích ngữ nghĩa nông và phân tích ngữ nghĩa sâu.

Để máy tính có thể hiểu và lập luận với ngữ nghĩa trong văn bản, các nhà khoa học máy tính cần phát triển những phương pháp khoa học để biểu diễn ngữ nghĩa và tính toán hoặc suy diễn từ văn bản.

1. Biểu diễn ngữ nghĩa của văn bản

Công việc quan trọng đầu tiên  được gọi là biểu diễn ngữ nghĩa của văn bản (SRT – Semantic Representation of Text). SRT nhằm mục đích phản ánh ý nghĩa của câu và văn bản một cách tường minh. Mỗi lược đồ biểu diễn nghĩa cần đi kèm với phương pháp trích xuất thông tin từ đó sao cho con người có thể đánh giá trực tiếp cả cách biểu diễn ngữ nghĩa và phương pháp trích rút ngữ nghĩa.

Có ba hướng tiếp cận chính đối với SRT. Hướng đầu tiên là sử dụng cấu trúc đối vị từ để xác định sự kiện, thành phần tham gia và quan hệ giữa chúng. Về cơ bản, phương pháp này giúp trả lời những câu hỏi sau: Ai đã làm gì với ai, ở đâu, khi nào và tại sao?. Hướng thứ hai là sử dụng các tiêu chuẩn hoặc ứng dụng bên ngoài để hỗ trợ việc suy luận chẳng hạn suy diễn văn bản (textual entailment), logic vị từ hoặc truy vấn cơ sở tri thức. Hướng thứ ba là sử dụng mô hình không gian vec-tơ (vector space models) để biểu diễn tất cả các yếu tố ngôn ngữ học bởi các véc-tơ số thực với số chiều nhỏ. Hướng tiếp cận này thường dựa trên các phương pháp mạng nơ-ron sâu.

2. Gán nhãn vai nghĩa

Các sự kiện là các thành phần cơ bản cấu thành nên biểu diễn cấu trúc đối vị từ của câu; còn được gọi là khung hay mệnh đề. Vị từ là yếu tố quyết định chính về nội dung sự kiện và các đối là bổ từ (thành phần cốt lõi) hoặc trợ từ (thành phần phụ). Ví dụ, xét câu sau:

Although Ann was leaving, she gave the present to John

Câu này có hai sự kiện chính là leavinggave. Ann, present và  John là các đối.

Các nhà ngôn ngữ học tính toán đã xây dựng một cách thủ công một số tài nguyên ngôn ngữ, trong đó một số câu tiếng Anh mẫu được chú thích với sự kiện và đối. Ví dụ, ngữ liệu FrameNet định nghĩa khung nghĩa là những mẩu nội dung lược thể, được gợi lên bởi một tập hợp các vị từ tương tự về mặt khái niệm. Ví dụ, DEPARTING → {leave, depart, exit,…}, hay GIVING → {give, donate, gift,… }.

Các vai nghĩa là các loại khác nhau của đối. Rất nhiều danh mục vai nghĩa khác nhau đã được đề xuất và sử dụng trong xử lí ngôn ngữ tự nhiên. Các danh mục vai nghĩa điển hình gồm FrameNet, PropBank và AMR. Trong FrameNet, vai nghĩa được chia sẻ giữa các vị từ có cùng kiểu khung nghĩa; trong khi ở PropBank, vai nghĩa lại gắn với động từ. AMR (Abstract  Meaning Representation — Biểu diễn ngữ nghĩa trừu tượng) là một dự án tiếp theo của PropBank trong đó tập vai nghĩa được mở rộng. VerbNet là một tài nguyên ngôn ngữ khác về vai nghĩa trong đó tập vai nghĩa là đóng, chẳng hạn như là TÁC THỂ (AGENT), BỊ THỂ (PATIENT)CÔNG CỤ (INSTRUMENT) và các vai nghĩa này có thể áp dụng với tất cả các đối.

Gán nhãn vai nghĩa (Semantic Role Labeling – SRL) là tác vụ chú giải vai nghĩa tự động cho mỗi câu. Ví dụ, Hình 1 mô tả quá trình phân tích của một câu tiếng Anh.

Hình 1: Một câu mẫu tiếng Anh

SRL rất hữu ích trong trong hỏi đáp. Nó giúp máy tính hiểu câu ở mức độ ngữ nghĩa nông, và có thể trả lời các câu hỏi sau đây:

Mặc dù cú pháp của những câu có thể rất đa dạng, chẳng hạn:

Nhưng cấu trúc đối vị của câu vẫn không đổi như sau:

Hình 2: Các vai nghĩa của một câu tiếng Anh

một quả bóng chày: Công cụ

hôm qua: Trạng ngữ thời gian

Gán nhãn vai nghĩa còn có thể liên quan đến một số cấu trúc cú pháp như cây cú pháp  (PropBank) hay phân loại cú pháp/từ loại đối vị (FrameNet, VerbNet) và chúng chỉ tập trung vào cấu trúc đối , một kiểu phân tích ngữ nghĩa nông. Hình 2 là một ví dụ về gán nhãn vai nghĩa của một câu tiếng Anh.

Một số ví dụ khác về các câu tiếng Anh có vai trò ngữ nghĩa được chú thích:

  • [TÁC THỂ John] broke [THỤ THỂ the window]
  • [THỤ THỂ The window] broke
  • [TÁC THỂ  Mary] offered [TIẾP THỂ the Dorrance  heirs] [THỤ THỂ a money-back guarantee]
  • [TÁC THỂ  Mary]  offered [THỤ THỂ  a  money-back guarantee]  to [TIẾP THỂ the Dorrance  heirs]
  • [TIẾP THỂ The  Dorrance  heirs]  will [ARM-NEG  not]  be offered [THỤ THỂ   a money-back guarantee]
Hình 3: Kết quả tốt nhất hiện nay cho SRL

Tại ACL 2017, hội nghị hàng đầu trong lĩnh vực xử lý ngôn ngữ tự nhiên và ngôn ngữ học tính toán, một nhóm các nhà khoa học máy tính đến từ trường Đại học Washington ở Seatle đã trình bày một nghiên cứu mang tiêu đề “Deep Semantic  Role Labeling: What Works and What’s Next” trong đó nhóm tác giả đã đạt được kết quả tốt nhất về SRL. Ý tưởng và kết quả chính của họ là:

  • Dùng một mạng nơ-ron LSTM hai chiều (bidirectional LSTM) với 8 tầng và các kết nối kiểu highway;
  • Đạt 83,2% điểm số F1 trên dữ liệu kiểm thử CoNLL 2005, 83,4% đối với CoNLL 2012, giảm khoảng 10% sai số tương đối so với kết quả tốt nhất trước đó.

Một số yếu tố chính góp phần vào sự thành công của mô hình mạng nơ-ron sâu của họ bao gồm việc áp dụng các tiến bộ gần đây trong việc huấn luyện mạng nơ-ron truy hồi sâu (gated highway connection, recurrent neural network dropout) và sử dụng thuật toán giải mã A* để ràng buộc tính nhất quán cấu trúc trong quá trình giải mã.

TÀI LIỆU THAM KHẢO

  • The State of the Art in Semantic Representation, Omri Abend and Ari Rappoport, Proceedings of ACL 2017.
  • Deep Semantic Role Labeling: What Works and What’s Next, Luheng He, Kenton Lee, Mike Lewis, and Luke Zettlemoyer, Proceedings of ACL 2017.
  • Automatic Semantic Role Labeling, Scott Wen-tau Yih, Kristina Toutanova, Tutorial of HLT-NAACL 2006.

Giới thiệu về Xử lí Ngữ nghĩa trong Ngôn ngữ Tự nhiên (Phần 2)

Lê Hồng Phương – Ban công nghệ FPT (FTI)

Tin liên quan:
  • 1
    Share