Sự ra đời của BERT vào 1 năm trước đã đặt ra một dấu mốc mới cho việc nghiên cứu ngôn ngữ tự nhiên, thông qua việc sử dụng các văn bản sẵn có để tiền huấn luyện các tham số của mô hình bằng hình thức học tự kiểm soát, mà không cần tới việc đánh dấu dữ liệu.

Như vậy, ta sẽ không cần phải huấn luyện từ đầu các mô hình machine learning cho NLP (xử lý ngôn ngữ tự nhiên) nữa, mà thay vào đó, mô hình khởi đầu sẽ có sẵn các kiến thức về ngôn ngữ. Tuy nhiên, để có thể cải thiện phương thức NLP mới này, ta cần phải hiểu rõ các yếu tố ảnh hưởng tới hiệu quả hiểu ngôn ngữ của mô hình, như – chiều cao của mạng (số lớp), chiều rộng (kích thước của các lớp biểu hiện ẩn), tiêu chuẩn học tự kiểm soát, cũng như nhiều yếu tố khác biệt khác.

Bài viết này sẽ giới thiệu một phiên bản nâng cấp của BERT, giúp công nghệ này cho hiệu quả tốt hơn trên 12 tác vụ NLP, bao gồm Bộ dữ liệu trả lời câu hỏi Stanford (SQuAD v2.0), và mức đánh giá RACE dựa trên các bài đọc hiểu theo chuẩn SAT. Ngoài ra, phiên bản này, được gọi là ALBERT, cũng sẽ được công bố như một nền tảng mở trên TensorFlow, với một số mô hình ALBERT đã được tiền luấn luyện sẵn.

Các yếu tố ảnh hưởng tới hiệu quả xử lý ngôn ngữ tự nhiên (NLP)

Việc xác định các yếu tố chính tác động lên hiệu quả xử lý ngôn ngữ tự nhiên là rất khó, và theo như nghiên cứu của Google, việc phân tích từng yếu tố sẽ không thể cho ra kết quả chính xác.

Trong khi đó, thiết kế của ALBERT sẽ tối ưu hóa việc phân bổ khả năng của các mô hình một cách hiệu quả hơn. Cụ thể, về mặt tiếng, ta cần cho mô hình học mà không hiểu ngữ cảnh, trong khi về mặt nghĩa, thì ta lại cần cân nhắc bối cảnh một cách chặt chẽ, để hạn chế nhầm lẫn khi xảy ra trường hợp đồng âm.

Để thực hiện điều trên, mô hình sẽ sử dụng tham số thành phần ngôn ngữ, được chia ra làm các thành phần mức đầu vào với cấu trúc thấp chiều (VD: 128), và các thành phần ẩn, cao chiều hơn (768). Chỉ với bước này, ALBERT đã có thể giảm tới 80% tham số của projection block, trong khi chỉ giảm một phần rất ít trong hiệu quả hoạt động. Cụ thể, điểm SQuAD so với BERT đã giảm từ 80,4 xuống 80,3, còn điểm RACE đã giảm từ 68,2 xuống còn 67,9, trong điều kiện không thay đổi.

Ngoài ra, một điểm thiết kế quan trọng khác của ALBERT lại liên quan tới sự dài dòng, thừa thãi trong ngôn ngữ. Thông thường, các kiến trúc mạng nơ-ron chuyển hóa (như BERT, XLNet, và RoBERTa), sẽ phải dựa vào nhiều lớp độc lập chồng lên nhau, gây ra hiện tượng mô hình phải thực hiện các tác vụ giống nhau trên từng lớp, với những tham số khác nhau của mạng. Còn ALBERT lại sử dụng chung tham số trên nhiều lớp khác nhau, giúp loại bỏ điểm yếu kể trên. Hệ quả là, độ chính xác sẽ giảm không đáng kể so với phần trăm tham số bị loại bỏ. Cụ thể, với mức tham số giảm 90% ở block ngoài cùng (và 70% trên trung bình), thì điểm SQuAD sẽ giảm 0,3 điểm, còn điểm RACE sẽ giảm 3,9 điểm.

Khi kết hợp 2 thay đổi về thiết kế nói trên, ta đạt được một mô hình ALBERT với 12 triệu tham số, giảm 80% so với mô hình sử dụng BERT, trong khi vẫn có những kết quả tương đối tích cực. Với sự giảm tham số này, mô hình có thể được mở rộng mạng hơn, giúp tăng số lượng thành phần ẩn lên từ 10 tới 20 lần khi đủ điều kiện về bộ nhớ. Cụ thể, nếu kích cỡ ẩn là 4069, thì sau khi mở rộng, mô hình ALBERT sẽ giảm được 30% tham số so với mô hình BERT, đồng thời cải thiện hiệu quả xử lý ngôn ngữ: tăng 4,2 điểm SQuAD2.0 và 8,5 điểm RACE.

Điều này có nghĩa là, việc hiểu ngôn ngữ có liên quan mật thiết tới việc xây dựng các biểu hiện chắc chắn, có năng lực và tính bối cảnh cao. Trong đó, bối cảnh sẽ được tích hợp trong các thành phần ngô ngữ ẩn, giúp mô hình hiểu được nghĩa của từng từ, từ đó hiểu được cả văn bản, và hiệu quả thì sẽ được đo bằng các quy chuẩn đánh giá cụ thể.

Tối ưu hóa hiệu quả mô hình với bộ dữ liệu RACE

Để đánh giá năng lực hiểu ngôn ngữ của một mô hình, ta có thể sử dụng một bài kiểm tra đọc hiểu (tương tự như bài đọc trong kỳ thi SAT). Ở đây, bộ dữ liệu có thể sử dụng là RACE (2017), tức bộ dữ liệu lớn nhất hiện nay cho mục đích đánh giá này. Thông qua kết quả sử dụng bộ dữ liệu, ta có thể thấy các tiến bộ trong công nghệ NLP của những năm gần đây: trước đó, một mô hình chỉ được huấn luyện không tích hợp văn cảnh có kết quả tương đối thấp (45,9 điểm – cột ngoài cùng bên trái), trong khi đó BERT lại đạt số điểm tương đối tốt là 72,0. Các mô hình BERT cải tiến như XLNet và RoBERTa còn đạt số điểm cao hơn, nằm trong khoảng từ 82-83 điểm, còn ALBERT mở rộng, lại đạt số điểm là 82,3, khi dùng chung bộ dữ liệu với BERT. Còn khi sử dụng dữ liệu tương tự XLNet và RoBERTa, kết quả đạt được còn tích cực hơn nhiều, với số điểm là 89,4.

Kết quả RACE của các mô hình. Trong đó, sàn điểm khi chọn ngẫu nhiên là 25 điểm, còn điểm tối đa là 95 điểm.

Sự thành công của ALBERT đã cho thấy tầm quan trọng của việc xác định các yếu tố mô hình giúp phân tích ngữ cảnh hiệu quả hơn. Thông qua việc tập trung vào các yếu tố này, mô hình sẽ được cải thiện về cả hiệu suất lẫn hiệu quả khi thực hiện các tác vụ NLP. Hiện, Google đã cung cấp mã nguồn mở của ALBERT cho cộng đồng nghiên cứu về lĩnh vực này.

FPT TechInsight
Theo Google AI Blog

Tin liên quan: