Trước đây, các nhà phát triển các công cụ dịch máy thường sử dụng từ điển để hiểu được các hệ ngôn ngữ mới. Tuy nhiên, giờ đây đã xuất hiện một phương thức mới: sử dụng những con số.

Theo các nhà nghiên cứu tại Facebook, việc “render” từ ngữ thành các phương trình, qua đó phát hiện các mặt toán học giống nhau của ngôn ngữ là một lĩnh vực nghiên cứu đầy hứa hẹn. Đáng buồn thay, các công cụ dịch thuật xuyên vũ trụ như trong “Star Trek” vẫn còn quá xa vời với công nghệ hiện đại.

Với các “gã khổng lồ” công nghệ, các công cụ dịch thuật tự động là một ưu tiên lớn, bởi lẽ chúng không chỉ giúp kết nối mọi người, mà còn đem lại những lợi ích lớn cho việc kinh doanh.

Facebook, Google, Microsoft, Yandex của Nga, Baidu của Trung Quốc, và nhiều gã khổng lồ khác đều đang liên tục tìm cách cải thiện các công cụ dịch thuật.

Facebook đã thuê rất nhiều chuyên gia về AI để làm việc trong một số các phòng nghiên cứu tại Paris của hãng.

Theo ông Antoine Bordes, đồng Trưởng bộ phận nghiên cứu AI của Facebook, có tới 200 ngôn ngữ khác nhau hiện đang được sử dụng trên mạng xã hội này.

Hiện tại, dịch tự động đang sử dụng các hệ dữ liệu về những văn bản đồng nghĩa trong hai loại ngôn ngữ khác nhau, từ đó đưa ra các bản dịch thuật. Tuy nhiên, đối với một số ngôn ngữ, bộ dữ liệu này đơn thuần là không đủ.

Chính vì vậy, các nhà nghiên cứu hiện đang nghiên cứu một phương thức mới, trong đó các từ ngữ sẽ được chuyển sang dạng toán học.

Cụ thể, một từ sẽ được “vector” hóa trong một không gian đa chiều. Qua đó, các từ liên quan mật thiết với nhau sẽ có vị trí gần nhau.

Guillaume Lample, một trong những nhà thiết kế hệ thống đã chia sẻ:“Ví dụ, nếu bạn lấy 2 từ là “chó” và “mèo”, thì hai từ này sẽ ở cùng nhau trong không gian đa chiều, bởi lẽ chúng mang ngữ nghĩa giống nhau. Và điều tương tự sẽ xảy ra khi bạn lấy các tên riêng của các thủ đô Châu Âu như “Madrid”, “London”, hay “Paris.”

Sau đó, những ngôn từ này sẽ có thể được liên kết với nhau sử dụng thuật toán, dần trở nên hoàn thiện hơn, cho tới khi hệ thống có thể ráp chúng vào với nhau, đạt tính chính xác ổn định.

Lample khẳng định, kết quả là rất đáng hứa hẹn.

Đồng thời, Lample cũng cho biết cặp ngôn ngữ Tiếng Anh và Tiếng Romania được dịch hiệu quả tương đương nhau so với hệ thống vector word mới. Tuy nhiên, hệ thống mới này lại vượt trội hơn hẳn so với các hệ thống dịch máy trước đó.

Vậy thì liệu phương thức này có thể thành công với những thứ tiếng khó, như dịch tiếng Basque thành ngôn ngữ của thổ dân Amazon chẳng hạn?

Theo Lample, trong lý thuyết thì điều này hoàn toàn là có thể. Tuy nhiên, ông cũng khẳng định rằng, để có thể hoàn thành hệ ngôn ngữ, ta sẽ cần nhiều văn bản lâu đời, và yếu tố này lại hoàn toàn không tồn tại trong ngôn ngữ của thổ dân Amazon. Ông khẳng đinh: “Có một vạn hay một triệu từ là chưa đủ. Có khi bạn sẽ cần hàng trăm ngàn văn bản.”

Theo các chuyên gia tại trung tâm khoa học quốc gia CNRS, Pháp, phương thức của Lample có thể sẽ đưa ra những kết quả hữu ích, cho dù các bản dịch của nó chưa thể hoàn hảo.

Thierry Poibeau – Chuyên gia tại trung tâm khoa học quốc gia CNRS nói rằng, “Việc dịch mà không có dữ liệu song song (tức các từ điển hoặc bài dịch sẵn), là một bước đi thần thánh trong việc dịch máy.

Tuy nhiên, Poibeau lại thắc mắc về mức độ hoàn thiện của hệ thống. Bởi lẽ, theo phương thức này, thì bản dịch sẽ “truyền tải lại đúng ý của văn bản gốc”, chứ chưa hề chứng minh được những bản dịch của hệ thống sẽ là những bản dịch hay.

Ông cũng nói thêm: “Cách phân tích ngữ nghĩa trong tiếng Trung khác hoàn toàn với tiếng Pháp.” Tuy nhiên, kể cả khi những bản dịch chưa được hoàn thiện, thì nó cũng sẽ giúp Facebook trong việc phát hiện các phát ngôn tiêu cực.

FPT TechInsight
Theo The Japan Times

Tin liên quan: