Phòng thí nghiệm khoa học máy tính và trí tuệ nhân tạo MIT (MIT CSAIL) đã phát triển ra một hệ thống có thể giải mã được những ngôn ngữ đã ‘chết’ theo thời gian.

Trong quá trình phát triển hệ thống giải mã ngôn ngữ  này, các nhà nghiên cứu tại MIT đã nghiên cứu về tiếng Ugaritic – một ngôn ngữ tương quan với tiếng Hebrew, từng được giải mã bởi các nhà ngôn ngữ học. Ảnh: S.R.K. Branavan.

Nhiều nghiên cứu gần đây đã chỉ ra rằng, đa số các ngôn ngữ từng tồn tại đã không còn được sử dụng nữa. Rất nhiều những ngôn ngữ này sau đó đã mai một, và do vậy không thể được giải mã do sự thiếu kiến thức về ngữ pháp, vốn từ, và cú pháp của những ngôn ngữ này ở hiện tại.

Việc giải mã các ngôn ngữ nói trên không chỉ có ý nghĩa về mặt học thuật: nếu bỏ qua những ngôn ngữ này, ta cũng đang bỏ qua toàn bộ lịch sử của nhứng người từng sử dụng chúng. Ngoài ra, cũng có quá ít ghi chép còn sót lại, khiến các nhà khoa học không thể sử dụng các thuật toán dịch máy (machine translation) như Google Translate để thực hiện dịch thuật. Một số ngôn ngữ ‘chết’ thậm chí còn không có các ngôn ngữ tương quan để đối chiếu, và thường không tồn tại các dấu hiệu phân chia giữa các từ như dấu câu và dấu cách. (Để hình dung rõ hơn, hãythửtưởngtượngviệcgiảimãmộtngônngữtrôngnhưthếnày.)

Tuy nhiên, gần đây các nhà nghiên cứu tại Phòng thí nghiệm khoa học máy tính và trí tuệ nhân tạo MIT (MIT CSAIL) lại đã thành công mở ra một bước tiến mới cho lĩnh vực này: đó là một hệ thống với khả năng tự động giải mã các ngôn ngữ cũ, mà không cần quá nhiều kiến thức đối chiếu ngôn ngữ này với các ngôn ngữ khác. Ngoài ra, hệ thống này cũng có thể tự xác định quan hệ giữa các ngôn ngữ với nhau, và đã được sử dụng để củng cố cho quan điểm học thuật rằng ngôn ngữ Iberia không thực sự có liên hệ với Basque.

Mục tiêu cuối cùng của nhóm nghiên cứu là ứng dụng hệ thống này để giải mã các ngôn ngữ mà những nhà ngôn ngữ học đã gặp khó khăn trong việc xử lý suốt hàng thập kỷ – mà chỉ cần một vài nghìn từ trong ngôn ngữ đó để làm dữ liệu đầu vào.

Nghiên cứu này được chỉ đạo bởi Giáo sư MIT Regina Barzilay, và được dựa trên các sự thật về ngôn ngữ đã được chứng minh, cụ thể như: ngôn ngữ thường chỉ tiến hóa theo một số phương thức cụ thể, có thể dự đoán được. Ví dụ, ngôn ngữ thường ít khi bỏ đi hoặc thêm vào các âm tiết mới, mà thường xuất hiện sự thay thế trong âm tiết. Một từ phát âm ‘p’ trong ngôn ngữ gốc thường sẽ thay đổi thành âm ‘b’ trong các ngôn ngữ tiến hóa sau này, nhưng sẽ không đổi thành âm ‘k’ do có quá nhiều khác biệt về mặt phát âm.

Thông qua việc tích hợp các sự thật nói trên và một số hạn chế về mặt ngôn ngữ học, Barzilay và nghiên cứu sinh Tiến sỹ Jiaming Luo đã cùng phát triển một thuật toán giải mã, với khả năng xử lý nhiều biến đổi ngôn ngữ khác nhau mà không cần tới quá nhiều dữ liệu đầu vào. Thuật toán này sẽ học được cách đính các âm tiết vào một không gian đa chiều, mà trong đó sự khác biệt về phát âm sẽ được biểu hiện bằng khoảng cách giữa các vector tương ứng. Thiết kế này sẽ giúp các nhà khoa học nắm bắt được những xu thế thay đổi ngôn ngữ và biến đổi được chúng thành các ràng buộc trên máy tính. Kết quả thu được một mô hình có khả năng phân tách từ ngữ trong ngôn ngữ cổ, và liên hệ các từ này tới những từ tương tự trong các ngôn ngữ liên quan.

Dự án này lấy nền tảng là một nghiên cứu được Barzilay và Luo viết vào hồi năm ngoái về việc giải mã tiếng Ugarit và Linear B – ngôn ngữ mà con người đã phải dành hàng thập kỷ để giải mã. Tuy nhiên, khác với dự án lần này, Ugarit và Linear B đã được biết là lần lượt có liên hệ với tiếng Hebrew và tiếng Hy Lạp.

Trong khi đó, ở hệ thống mới, việc tìm liên hệ giữa các ngôn ngữ sẽ được thực hiện bằng thuật toán –cũng là trở ngại lớn nhất trong tiến trình giải mã ngôn ngữ. Sở dĩ việc giải mã Linear B mất nhiều thời gian như vậy là do phải sau nhiều thập kỷ, con người mới phát hiện ra ngôn ngữ gần hơn được phát triển từ nó. Còn với tiếng Iberia, các học giả vẫn chưa thống nhất được đâu mới là ngôn ngữ có ‘họ hàng’ với nó: nhiều người thì cho rằng thứ tiếng gần nhất là Basque, trong khi một số khác lại phủ nhận giả định này, đồng thời khẳng định rằng chưa phát hiện được ngôn ngữ nào có liên hệ với tiếng Iberia.

Thuật toán được đề xuất sẽ có khả năng đánh giá tính liên hệ giữa hai ngôn ngữ. Trên thực tế, khi được thử nghiệm với các ngôn ngữ đã biết, nó thậm chí còn có thể nhận định chính xác các nhóm ngôn ngữ trực hệ. Khi được thử nghiệm đối chiếu tiếng Iberia với Basque và cả những nhóm ngôn ngữ xa hơn như Roman, ngữ tộc German, ngữ hệ Turc, và ngữ hệ Ural, thuật toán đã cho kết quả là, tuy tiếng Iberia gần với Basque và Latinh hơn các ngôn ngữ khác – chúng vẫn không đủ gần để được coi là ngôn ngữ liên quan.

Trong tương lai, đội ngũ nghiên cứu hy vọng sẽ tiếp tục mở rộng phạm vi nghiên cứu của mình, sao cho không bị hạn chế trong việc kết nối các văn bản với những từ ngữ liên quan trong một ngôn ngữ đã được biết – một tác vụ gọi là “giải mã tương quan”. Trước đây, các nhà ngôn ngữ học thường giả định rằng đã có ngôn ngữ tương quan với ngôn ngữ cần giải mã được biết đến, song trường hợp của tiếng Iberia lại chỉ ra rằng, giả định này không phải lúc nào cũng có thể được áp dụng. Do đó, đội ngũ sẽ mở ra một phương thức hoàn toàn mới mà trong đó, họ sẽ nhận diện ngữ nghĩa của các từ trong ngôn ngữ, cho dù hoàn toàn không biết cách đọc những từ này.

“Chúng tôi sẽ có thể nhận diện mọi dấu hiệu nhắc tới người hay địa điểm trong một văn bản, sau đó nghiên cứu sâu hơn về những dấu hiệu này dựa trên các minh chứng lịch sử,” Barzilay nói. “Những phương thức ‘nhận diện thực thể’ như thế này thường xuất hiện trong các ứng dụng xử lý văn bản hiện đại với độ chính xác rất cao. Tuy nhiên, câu hỏi nghiên cứu cần đặt ra là, liệu tác vụ này có thực sự khả thi nếu không có dữ liệu huấn luyện cho những ngôn ngữ cổ?”

Theo MIT News

Tin liên quan: