Tiếp nối phần 1, trong phần 2 này, chúng ta hãy cùng tìm hiểu liệu máy tính có thật sự thông minh như con người trong lĩnh vực đọc hiểu. 

Tinh chế công thức

Cũng như mọi công thức, BERT dần được thay đổi để phù hợp. Và mùa xuân 2019 đã khởi đầu giai đoạn Microsoft và Alibaba liên tục theo sát nhau từng tuần, liên tục thay đổi các mô hình, và vượt qua nhau trên bảng điểm xếp hạng. Và khi RoBERTa – Một phiên bản BERT được cải tiến chính thức ra đời vào hồi tháng 8, thì nhà nghiên cứu tại DeepMind, ông Sebastian Ruder, đã miêu tả giai đoạn sau đó là: “Thêm một tháng, thêm một mô hình ngôn ngữ được được tiền huấn luyện mới.”

Công thức của BERT bao gồm một số quyết định về thiết kế cấu trúc có ảnh hưởng tới năng lực của hệ thống này, bao gồm: kích cỡ của mạng nơ-ron, lượng dữ liệu sử dụng cho tiền huấn luyện, các dữ liệu này được che ra sao, và thời gian huấn luyện kéo dài như thế nào. Sau đó, những công thức như RoBERTa sẽ thay đổi một chút những quyết định này, như cách các đầu bếp cố làm món ăn hoàn hảo hơn.

Trong trường hợp của RoBERTa, các nhà nghiên cứu tại Facebook và Đại học Washington đã tăng lượng của một số nguyên liệu (tăng lượng dữ liệu tiền huấn luyện, tăng độ dài câu đầu vào, tăng thời gian huân luyện), và loại bỏ đi một tác vụ (dự đoán câu tiếp theo), đồng thời cải tiến một tác vụ khác (làm quá trình huấn luyện ngôn ngữ che giấu khó hơn). Và kết quả là vị trí dẫn đầu trên bản xếp hạng GLUE – Nhưng điều này cũng chẳng kéo dài lâu. Chỉ 6 tuần sau, các nhà nghiên cứu tại Microsoft và Đại học Maryland lại tiếp tục thay đổi RoBERTa, đã cướp lấy vị trí dẫn đầu. Và ngay tại lức này, lại xuất hiện một mô hình mang tên ALBERT (viết tắt cho “A Lite BERT”), đã lại vươn lên đứng đầu chỉ với một vài thay đổi.

Về vấn đề này, Ott chia sẻ: “Chúng tôi vẫn đang tìm hiểu xem công thức nào có hiệu quả, và công thức nào thì không.”

Vậy nhưng, việc hoàn thiện kỹ năng nướng bánh không thể giúp bạn học hóa tốt hơn, và việc tối ưu hóa BERT cũng sẽ chẳng có ảnh hưởng gì tới những lý thuyết xoay quanh việc cải thiện xử lý ngôn ngữ tự nhiên. Linzen thẳng thắn bày tỏ: “Nói thực, tôi không hề theo dõi các nghiên cứu này, bởi vì chúng qua nhàm chán.” Anh thừa nhận, rằng nó cũng là một bài toán khoa học, nhưng câu trả lời không nằm ở việc làm cho BERT thông minh hơn, hay tìm ra lý do cho trí thông minh đó. Mà với anh, thứ chúng ta cần làm là “biết được mức hiểu ngôn ngữ của những mô hình này, chứ không phải tìm ra một vài chiêu trò có hiệu quả trên bộ dự liễu chúng ta thường dùng để đánh giá.”

Ngắn gọn hơn, thì điều này có nghĩa là: BERT đang là một số thứ đúng, nhưng mục đích của nó lại có thể sai.

Tài giỏi chứ không thông minh

Vào tháng 7/2019, 2 nhà nghiên cứu tại Đại học Quốc gia Cheng Kung, Đài Loan, đã sử dụng BERT để đạt được một kết quả vô cùng ấn tượng trong việc lý luận và tranh cãi. Để thực hiện được điều này, mô hình cầu phải tìm được một giả thiết, minh chứng cho một luận điểm, từ đó khẳng định một lý luận cụ thể. Ví dụ: Để khẳng định rằng “hút thuốc gây ung thư”, tuân theo luận điểm “các nghiên cứu khoa học đã tìm ra mối liên hệ giữa hút thuốc và ung thư”, thì bạn cần phải giả thiết rằng “các nghiên cứu khoa học là đáng tin. Có dễ hiểu không?

Nếu bạn cảm thấy khó hiểu, thì đừng vội lo, bởi lẽ kể cả con người, nếu không được luyện tập, cũng khó có thể làm tốt điều này. Trên GLUE, thang điểm trung bình của con người là 80, còn của BERT là 77.

Nhưng thay vì nhanh chống kết luận rằng, BERT có thể làm tốt việc này, thì 2 nhà nghiên cứu lại đưa ra một giả thiết đơn giản hơn: BERT đã tìm ra các xu hướng của những giả thiết. Và quả nhiên, khi phân tích bộ dữ liệu huấn luyện, thì các manh mối này là có thể phát hiện được. Ví dụ: chỉ cần chọn các giả thiết bao gồm từ “không” đã có thể giúp BERT đưa ra đáp án đúng tới 61% thời gian. Và sau khi loại bỏ các manh mối nay, điểm GLUE của BERT đã giảm mạnh, từ con số 77, xuống còn vỏn vẹn 53 – Một điểm số không sai biệt với đoán bừa là bao. Trong một bài báo, BERT thậm chí đã được so sánh với chú ngựa Clever Hans giải toán ngày nào.

Trong một nghiên cứu khác mang tên “Đúng vì những lý do sai”, Linzen và đồng nghiệp đã đưa ra các minh chứng rằng, kết quả của BERT trên GLUE chủ yếu là do các manh mối trong những bộ dữ liệu huấn luyện. Nghiên cứu cũng bao gồm việc sử dụng một bộ dữ liệu thay thế mang tên Heuristic Analysis for Natural-Language-Inference Systems (HANS), lật tẩy con đường đi tắt của BERT.

Vậy liệu có phải mọi thành tựu của BERT và tất cả những mô hình tương tự đều là giả hay không? Bowman đồng nhất với Linzen rằng, bộ dữ liệu của GLUE là vô cùng lộn xộn, mang một số thiên vị của người tạo ra nó, và có thể được khai thác bởi các mạng nơ-ron sử dụng BERT. Bowman chia sẻ: “Không có một giải pháp hoàn hảo nào cho GLUE, nhưng lại có vô cùng nhiều lối tắt giúp việc giải quyết GLUE dễ dàng hơn, và các mô hình có thể phát hiện ra những lối tắt này.” Nhưng điều này không có nghĩa, là nền tảng của BERT không có trọng lượng. Bowman cũng chia sẻ rằng: “Chúng ta có một mô hình có vẻ như là đã học được nhiều về ngôn ngữ. Nhưng nó lại không đang thực sự học ngôn ngữ để hiểu theo một cách chắc chắn.”

Theo Yejin Choi, một nhà khoa học máy tính tại Đại học Washington và Viện Allen, để thúc đẩy việc hiểu ngôn ngữ một cách chắc chắn, thay vì chỉ tập trung vào việc tạo ra những BERT tốt hơn, ta cần phải đặt ra những dấu mốc phù hợp hơn, với các dữ liệu huấn luyện có thể giảm khả năng gian lận và đi lối tắt. Công trình của bà đã thử nghiệm một phương thức mang tên “lọc đối kháng” (adversarial filtering), trong đó sử dụng thuật toán để quét các bộ dữ liệu huấn luyện NLP và loại bỏ các ví dụ lặp lại hoặc chứa nhiều manh mối cho các mạng nơ-ron. Và sau quá trình học đối kháng, “kết quả của BERT đã giảm sút đáng kể,” bà nói, trong khi “kết quả của con người lại không có quá nhiều thay đổi.”

Vậy nhưng, nhiều nhà nghiên cứu về NLP lại tin rằng, kể cả khi được huấn luyện tốt hơn, thì các mô hình ngôn ngữ sử dụng mạng nơ-ron vẫn sẽ gặp chướng ngại trong việc hiểu ngôn ngữ. Cụ thể, kể cả với quá trình tiền huấn luyện kỹ lưỡng, BERT vẫn không được thiết kế để mô hình hóa ngôn ngữ một cách hoàn hảo. Thay vào đó, theo Anna Rogers, một nhà ngôn ngữ học máy tính tại Text Machine Lab, Đại học Massachusetts, Lowell, nó mô hình hóa “một tác vụ NLP cụ thể, hoặc chỉ một bộ dữ liệu cụ thể cho tác vụ đó.” Và khả năng cao là, sẽ không có một bộ dữ liệu huấn luyện nào, dù được thiết kế hay sàng lọc cẩn thận tới đâu, có thể bao hàm được mọi trường hợp và đoán trước được mọi đầu vào như con người khi tiếp cận ngôn ngữ tự nhiên.

Theo Bowman, rất khó để biết được, liệu chúng ta có thể bao giờ tin vào khả năng hiểu ngôn ngữ thực sự của các mạng nơ-ron hay không. Bởi lẽ, những bài kiểm tra tiêu chuẩn nào cũng sẽ có lối đi tắt. “Việc tạo ra các bài kiểm tra đủ khó, và đủ phức tạp để ngăn chặn chiêu trò, đủ để chúng ta thật sự tin vào sự hiểu ngôn ngữ của AI, là vô cùng khó khăn”, Bowman chia sẻ.

Hiện tại, Bowman và đồng nghiệp đã tiếp tục tạo ra một bài kiểm tra mang tên SuperGLUE, và cho tới nay, vẫn chưa có hệ thống nào vượt qua con người với bài kiểm tra này. Tuy nhiên, kể cả khi máy móc có thể vượt qua con người trong SuperGLUE, thì liệu đây có đủ để làm cơ sở cho chúng ta tin rằng, máy móc hiểu được ngôn ngữ? Hay nó chỉ đơn thuần có nghĩa là, chúng ta đang dạy máy móc cách làm bài kiểm tra có hiệu quả hơn?

Bowman nói: “Một so sánh khá chính xác là LSAT và MCAT. Cụ thể, ta có thể biết được cách đạt điểm cao trong những kỳ thi này, nhưng làm tốt ở chúng, không có nghĩa là ta đủ tiểu chuẩn để trở thành bác sỹ hay luật sư.” Ông cũng bổ sung rằng: “Cờ vua từng là một bài kiểm tra trí tuệ cho tới khi ta viết được phần mềm chuyên chơi cờ vua. Hiện nay, ta đang ở một thời đại với mực tiêu là luôn tìm ra những vấn đề khó hơn cho việc hiểu ngôn ngữ, và rồi lại liên tục tìm ra các giải pháp cho những vấn đề này.”

FPT TechInsight
Theo Wired

Tin liên quan: