Một công cụ có tên gọi BERT giờ đây đã có thể đạt kết quả cao hơn con người trong các bài kiểm tra đọc hiểu trình độ nâng cao. Đây cũng minh chứng cho chặng đường dài và các thành tựu của AI.

Mạng nơ-ron BERT đã tạo ra một cuộc cách mạng về việc hiểu ngôn ngữ con người của máy tính. Minh họa: Jon Fox / Quanta Magazine.

Vào mùa thu năm 2017, Sam Bowman, một nhà ngôn ngữ học máy tính tại Đại học New York đã phát hiện ra rằng, máy tính vẫn còn yếu trong tác vụ hiểu văn bản. Tuy rằng máy móc đã có thể mô phỏng việc đọc hiểu trong một vài lĩnh vực hẹp, như dịch tự động và phân tích cảm xúc (tức xác định xem tông giọng của một câu mang hàm ý tích cực hay tiêu cực), nhưng Saw Bowman lại mong muốn có một bằng chứng đo lường được về khả năng đọc hiểu của máy tính với các văn bản thật, với độ con người cao. Vì vậy, ông đã làm ra một bài kiểm tra.

Trong một nghiên cứu được xuất bản vào tháng 4 năm 2018, Bowman đã hợp tác với các tác giả tại Đại học Washington và DeepMind – Một công ty chuyên về AI, trực thuộc Google. Nghiên cứu này đã giới thiệu 9 bài kiểm tra về kỹ năng đọc hiểu cho máy tính, có tên gọi là GLUE (tức General Language Understanding Evaluation – Đánh giá mức độ hiểu ngôn ngữ chung). Theo Bowman, bài kiểm tra này được thiết kế như một “ví dụ đại diện cho những thử thách được coi là thú vị bởi giới nghiên cứu, song lại dễ dàng với con người.” Cụ thể, một trong số 9 tác vụ yêu cầu máy tính trả lời xem một câu là đúng hay sai dựa trên thông tin có trước đó. Trong bài này, bạn sẽ được coi là đã vượt qua kiểm tra nếu bạn hiểu được “Tổng thống Trump đã hạ cánh ở Iraq, bắt đầu cuộc viếng thăm kéo dài 7 ngày”, có nghĩa là “Tổng thống Trump đang đi ngoại giao ở nước ngoài.”

Kết quả của máy tính trong những bài đánh giá này đơn giản là tệ hại: Kể cả những hệ nơ-ron tiên tiến nhất cũng chỉ đạt tối đa 69 điểm trên thang điểm 100, tương đương với mức D+ trên thang điểm chữ. Và Bowman cũng các đồng tác giả không hề ngạc nhiên trước kết quả này. Dù các mạng nơ-ron – Tức các lớp kết nối máy tính được xây dựng mô phỏng theo cách các nơ-ron giao tiếp trong não bộ của động vật có vú, trước đây từng cho thấy tiềm năng trong lĩnh vực “xử lý ngôn ngữ tự nhiên”, nhưng những nhà nghiên cứu lại không hề tin tưởng rằng, các mạng này thực sự học được những phần quan trọng của ngôn ngữ. Và GLUE là minh chứng rõ nhất cho điều này. “Những kết quả tiên quyết cho thấy rằng, các mô hình và phương thức hiện tại vẫn chưa thể giải quyết những vấn đề được đưa ra bởi GLUE,” Bowman và các đồng tác giả đã viết trong nghiên cứu.

Tuy nhiên, khẳng định này lại chẳng duy trì được bao lâu. Tới tháng 10 năm 2018, Google đã giới thiệu một phương thức mới mang tên BERT (Bidirectional Encoder Representations from Transformers), đạt kết quả là 80,5 điểm khi thực hiện GLUE. Và như vậy, điểm kiểm tra của máy tính trên thang đo lường mức độ hiểu ngôn ngữ tự nhiên đã thay đổi từ D+ thành B- chỉ trong 6 tháng.

Đó hẳn là lúc chúng tôi hiểu ra,” Bowman kể lại. “Phản ứng chung của cộng đồng lúc đó là sự hoài nghi. BERT đang đạt kết quả tốt trong những việc mà chúng tôi tưởng đã là giới hạn của máy tính.” Trước đó, GLUE thậm chí còn không có điểm số trung bình khi được thực hiện bởi con người. Và khi điểm số này được thêm vào GLUE vào hồi tháng 2 năm 2019, thì chỉ vài tháng sau, chúng đã bị đánh bại bởi một hệ thống của Microsoft dựa trên BERT.

Ở thời điểm hiện tại, mọi vị trí đầu trên bảng xếp hạng điểm GLUE đều được chiếm giữ bởi các hệ thống sử dụng BERT. 5 trong số các hệ thống này thậm chí còn vượt qua con người.

Nhưng AI có thật sự hiểu ngôn ngữ của chúng ta hay không – hay sự thật là nó chỉ đang biết cách để làm kiểm tra tốt hơn? Sau khi các mạng nơ-ron dựa trên BERT dễ dàng đánh bại GLUE, đã có rất nhiều thang đánh giá khác xuất hiện, khiến cho những hệ thống NLP mạnh mẽ trở nên giống như phiên bản máy tính của chú ngựa Hans vào thế kỷ 20 – Được tin là có thể làm toán, nhưng thực chất chỉ đang nghe lệnh ẩn từ người huấn luyện.

Tự đặt luật chơi

Trong thí nghiệm nổi tiếng Chinese Room, một người không biết tiếng Trung sẽ ngồi trong một căn phòng bao gồm rất nhiều sách quy tắc. Khi được kết hợp nhau, các sách này sẽ hướng dẫn cụ thể cách kết hợp những ký tự tiếng Trung để tạo thành câu trả lời thích hợp. Một người ngoài phòng sẽ nhét vào một câu hỏi bằng Tiếng Trung thông qua khe cửa, và sau đó người trong phòng sẽ sử dụng các sách trên để trả lời một cách thành thạo bằng tiếng Trung.

Thí nghiệm này được sử dụng để khẳng định rằng, dù thế nào đi chăng nữa, thì người trong phòng chắc chắn không thể thực sự hiểu tiếng Trung. Tuy nhiên, chỉ cần biết một phần vừa đủ, họ đã có thể đạt được mục tiêu đủ tốt cho việc hiểu ngôn ngữ tự nhiên.

Vấn đề là, chẳng có sách quy tắc nào là hoàn hảo cả, ngôn ngữ tự nhiên quá phức tạp và ngẫu nhiên để có thể được tóm gọn trong một vài quy chuẩn cụ thể. Hãy lấy cú pháp làm ví dụ minh họa: Có những quy luật để xác định ta có thể kết hợp những nhóm từ nào với nhau để tạo thành câu có nghĩa. Tuy nhiên, trên thực tế, ta có thể viết “những ý tưởng không màu xanh lá ngủ một cách giận dữ” – Một câu hoàn toàn không sai về mặt cú pháp, song lại chẳng có ý nghĩa gì. Và tương tự, các sách quy tắc sẽ không thể nắm bắt được những quy luật bất thành văn của ngôn ngữ tự nhiên. Và để giải quyết vấn đề này, nhiều nhà nghiên cứu hiện đang để các mạng nơ-ron tự tạo ra sách quy tắc, và quá trình này được gọi là “tiền huấn luyện.”

Trước năm 2018, công cụ tiền huấn luyện cho xử lý ngôn ngữ tự nhiên phổ biến thường tương tự như từ điển. Trong đó, các từ ngữ sẽ được truyền tải thành dạng con số, phù hợp với chuẩn đầu vào của mạng nơ-ron sâu – Điều này tương tự như cho người trong phòng của thí nghiệm Chinese Room một quyển sách về vốn từ tiếng Trung. Tuy nhiên, kể cả khi được tiền huấn luyện với từ điển, thì các mạng nơ-ron sẽ vẫn không thể hiểu từ ngữ trên cấp độ câu. Theo Tal Linzen, một nhà ngôn ngữ học máy tính tại Đại học Johns Hopkins: “Các mạng này sẽ tưởng lầm 2 câu “Anh ta cắn con chó” và “Con chó cắn anh ta” là mang cùng nghĩa với nhau.”

Tal Linzen, một nhà ngôn ngữ học máy tính tại Đại học Johns Hopkins, thắc mắc về mức độ hiểu ngôn ngữ thật sự của các mô hình, chứ không đơn thuần là biết được một số chiêu trò có hiệu quả. Ảnh: Will Kirk / Đại học John Hopkins.

Để việc huấn luyện hiệu quả hơn, các sách quy tắc cần giàu có hơn – Không chỉ bao gồm vốn từ, mà còn có cả cú pháp và văn cảnh. Và tới đầu năm 2018, các nhà nghiên cứu đến từ OpenAI, Đại học San Francisco, Viện Allen về AI, và Đại học Washington đã đồng thời phát hiện ra một cách để thực hiện điều này. Trong đó, thay vì chỉ thực hiện tiền huấn luyện nên lớp đầu của hệ thống với các nghĩa của từ, thì họ huấn luyện toàn bộ hệ thống, sử dụng một tác vụ mang tên “mô hình hóa ngôn ngữ” (language modeling).

Mô hình ngôn ngữ đơn giản nhất là: Đọc thật nhiều từ, rồi thử dự đoán những từ tiếp theo,” Myle Otte, một nhà khoa học nghiên cứu tại Facebook giải thích. “Nếu tôi nhập vào chuỗi từ “George Bush được sinh vào năm”, thì mô hình sẽ dự đoán từ tiếp theo trong câu này.”

Và các mô hình ngôn ngữ sâu được tiền huấn luyện này có thể được sản xuất một cách tương đối hiệu quả. Trong đó, các nhà nghiên cứu đơn thuần cho mạng nơ-ron xử lý thật nhiều văn bản từ các nguồn như Wikipedia – Hàng tỷ từ ngữ, được viết thành các câu đúng ngữ pháp và có nghĩa, sau đó để các hệ thống tự dự đoán các từ ngữ tiếp theo. Về cơ bản, điều này tương tự như ta yêu cầu người trong phòng của thí nghiệm Chinese Room thử tự tạo quy tắc bằng cách tham khảo tin nhắn bằng tiếng Trung được cung cấp.

Phương thức này hay ở chỗ, thông qua nó, mô hình học được rất nhiều về cú pháp,” Ott nói. Ngoài ra, những mạng nơ-ron sâu được tiền huấn luyện này sẽ có thể ứng dụng những điều học được lên những tác vụ không liên quan, chuyên sâu về xử lý ngôn ngữ tự nhiên hơn – Một quá trình được gọi là fine-tuning.

Ông giải thích: “Bạn có thể lấy mô hình từ bước tiền huấn luyện, sau đó để nó thích ứng với mọi tác vụ bạn muốn. Và kết quả đạt được thậm chí sẽ còn tốt so với nếu bạn bắt đầu từ những tác vụ kia.”

Và quả nhiên, tới tháng 6 năm 2018, OpenAI đã giới thiệu một mạng nơ-ron mang tên GPT, với một mô hình ngôn ngữ được huấn luyện sử dụng gần 1 tỷ từ ngữ (lấy từ 11.083 cuốn sách trên mạng) trong suốt 1 tháng. Điểm GLUE của hệ thống này đạt mức 72,8, và ngay lập tức dẫn đầu bảng xếp hạng. Tuy vậy, nhưng Sam Bowman vẫn tin tưởng rằng, lĩnh vực này còn một hành trình dài trước khi các hệ thống có thể hiểu tốt như con người.

Nhưng mọi thứ đã thay đổi với sự xuất hiện của BERT.

Một công thức mạnh mẽ

Vậy, BERT là gì?

Trước tiên, ta cần phải biết, BERT không phải là một mạng nơ-ron được huấn luyện hoàn chỉnh, với khả năng đánh bại con người ngay từ đầu. Thay vào đó, theo Bowman, BERT là một công thức kỹ lưỡng cho việc huấn luyện mạng nơ-ron. Tương tự như những công thức làm bánh giúp ta nướng được những chiếc bánh ngon lành, có thể được áp dụng cho nhiều loại bánh mới, thì các nhà nghiên cứu tại Google đã tạo ra một công thức – Một nền tảng hoàn hảo để “nướng” ra những mạng nơ-ron với khả năng xử lý ngôn ngữ tự nhiên tốt. Đồng thời, mã nguồn của BERT là mã nguồn mở, và mọi người đều có thể tải BERT về, cũng như họ có thể dễ dàng tìm kiếm các công thức làm bánh.

Vậy nếu BERT là công thức, thì ta cần những nguyên liệu nào? “Nó là kết quả của 3 thứ khác nhau, kết hợp vào với nhau để thành công,” Omer Levy, một nhà khoa học nghiên cứu tại Facebook đã phát biểu sau khi phân tích BERT.

Omer Levy, một nhà khoa học nghiên cứu tại Facebook, đã thử tìm hiểu nguyên nhân thành công của BERT. Ảnh: Omer Levy.

Cụ thể, nguyên liệu đầu tiên là một mô hình ngôn ngữ được tiền huấn luyện. Còn nguyên liệu thứ 2 là khả năng phát hiện xem tính chất nào của câu là quan trọng hơn cả.

Vào năm 2017, một kỹ sư cho Google Brain, ông Jakob Uszkoreit đã nghiên cứu về cách đẩy nhanh khả năng hiểu ngôn ngữ của Google. Trong quá trình này, ông phát hiện ra rằng, các mạng nơ-ron tiên tiến đều gặp phải một vấn đề: Chúng xử lý trình tự từ ngữ theo từng từ một. Vốn dĩ đây là mô phỏng theo cách con người đọc văn bản, song theo Uszkoreit, việc hiểu ngôn ngữ theo trình tự có thể không phải là phương thức tối ưu.

Chính vì vậy, Uszkoreit và các đồng nghiệp đã phát triển một kiến trúc mạng nơ-ron mới, tập trung vào “sự chú ý”, tuân theo cơ chế khiến các lớp mạng quan trọng một vài tính chất hơn so với các tính chất còn lại. Kiến trúc này được gọi là “transformer”, và nó có khả năng tiếp nhận đầu vào là một câu như “con chó cắn một người”, sau đó mã hóa từng từ theo nhiều hướng trong cùng một lúc. Cụ thể, kiến trúc này sẽ vừa nối “cắn” và “người” thành cụm động từ và vị ngữ, bỏ qua “một”, vừa kết nối “cắn” và “chó” thành cụm động từ và chủ ngữ, trong khi bỏ qua từ “con”.

Việc không tuân theo trình tự khiến câu được biểu hiện theo một cách có hàm ý hơn, được Uszkoreit mô tả như dạng một sơ đồ cây. Trong đó, từng lớp của mạng nơ-ron sẽ tạo ra rất nhiều kết nối song song đồng thời giữa một số từ, trong khi bỏ qua một số từ khác. Và những kết nối này cũng có thể xảy ra giữa các từ cách xa nhau trong câu.

Cách thức biểu hiện này khiến các mô hình có thể gây dựng ý nghĩa cho văn cảnh, đồng thời hiểu được mối quan hệ giữa các từ trong một câu phức tạp. Nói về cách thức này, Uszkoreit chia sẻ: “Đây là một phương thức phản trực giác, song lại có gốc từ lĩnh vực ngôn ngữ – Trong đó cũng biểu hiện ngôn ngữ qua các mô hình dạng cây.”

Jakob Uszkoreit, trưởng đội ngũ Google AI Brain tại Berlin, đã giúp tạo ra một kiến trục mạng nơ-ron mới, tập trung vào “sự chú ý”. Ảnh: Google.

Và nguyên liệu cuối cùng trong công thức của BERT đã đẩy mọi thứ đi xa hơn nữa.

Không như những mô hình ngôn ngữ được tiền huấn luyện, trong đó các mạng nơ-ron đọc văn bản từ trái qua phải, BERT đọc chúng từ cả hai hướng trong cùng một thời điểm, sau đó học cách dự đoán những từ ở giữa, được giấu đi một cách hoàn toàn ngẫu nhiên. Ví dụ, BERT sẽ xử lý đầu vào mang dạng “George Bush được […] tại Connecticut vào năm 1946” theo cả hai chiều, từ đó dự đoán được từ ở giữa là “sinh”. “Hướng đi 2 chiều này khiến các mạng nơ-ron có thể khai thác được tối đa ngữ nghĩa từ một bộ ngôn ngữ bất kỳ,” Uszkoreit chia sẻ.

Phương thức này được gọi là mô hình hóa ngôn ngữ che giấu (masked-language modeling), và nó không hề mới. Trên thức tế, nó đã được sử dụng để đánh giá khả năng đọc hiểu của con người trong suốt nhiều thập kỷ. Còn đối với Google, đây là một hình thức thực tế, cho phép mạng nơ-ron xử lý 2 chiều, thay thế cho xu hướng 1 chiều từng thống trị lĩnh vực xử lý ngôn ngư tự nghiên. Nhà khoa học nghiên cứu tại Google, Kenton Lee chia sẻ: “Trước khi có BERT, mô hình hóa ngôn ngữ một chiều là tiêu chuẩn cho lĩnh vực, dù nó có quá nhiều hạn chết không cần thiết.”

Và mỗi nguyên liệu trong công thức – Mô hình ngôn ngữ được tiền huấn luyện, sự chú ý, và tính 2 chiều đều tồn tại rất lâu trước sự ra đời của BERT. Nhưng chỉ khi công thức được công bố bởi Google vào năm 2018, thì chưa ai từng nhận ra sức mạnh của việc kết hợp chúng.

FPT TechInsight
Theo Wired

Tin liên quan: