Đây là một phương pháp tối ưu cho việc tiền huấn luyện các hệ thống xử lý ngôn ngữ tự nhiên (NLP), cụ thể là các hệ thống sử dụng công nghệ Bidirectional Encoder Representations from Transformers, còn gọi là BERT – một phương pháp tự giám sát được Google giới thiệu vào năm 2018.
BERT là một kỹ thuật mang tính cách mạng, giúp đem lại hiệu quả cao trong nhiều tác vụ NLP, mà chỉ cần dùng tới các văn bản chưa chú thích lấy từ internet, thay vì phải dùng tới một lượng lớn ngôn ngữ đã đánh nhãn cho từng tác vụ cụ thể. Chính vì vậy, công nghệ này đã dần trở thành chính thống trong lĩnh vực nghiên cứu NLP, cũng như trong kiến trúc tác vụ cuối.
Ngoài ra, BERT còn nhấn mạnh bản chất hợp tác của việc nghiên cứu AI – bởi lẽ, thông qua việc mở nguồn của Google, các nhà nghiên cứu đã có thể nghiên cứu tái tạo BERT, qua đó tìm ra nhiều cách thức để tiếp tục cải thiện mô hình này. Và nghiên cứu này, RoBERTa, chính là một trong những phương thức đó, với khả năng đạt kết quả cao trên thang đánh giá NLP phổ biến nhất hiện tại – GLUE (General Language Understanding Evaluation).
Song song với nghiên cứu nêu cụ thể các kết quả này, các nhà nghiên cứu cũng sẽ công khai các mô hình cùng code được sử dụng, nhằm chứng minh tính hiệu quả của RoBERTa.
Phương thức nghiên cứu
RoBERTa được xây dựng dựa trên chiến thuật mask ngôn ngữ của BERT, trong đó hệ thống sẽ học được cách dự đoán một số phần văn bản được chủ ý giấu đi trong số rất nhiều các văn bản không chú thích khác. RoBERTa được thực hiện trên PyTorch, với khả năng thay đổi một số siêu tham số chính trong BERT, trong đó bao gồm mục tiêu tiền huấn luyện câu tiếp theo của BERT, cũng như việc huấn luyện theo nhóm nhỏ và tốc độ học. Nhờ vậy, RoBERTa có thể cải thiện mục tiêu mô hình hóa các ngôn ngữ đã được mask so với BERT, qua đó cải thiện hiệu quả các tác vụ downstream (tức các tác vụ trong đó luồng dữ liệu đi từ mạng về thiết bị đầu cuối). Ngoài ra, các nhà nghiên cứu cũng đã thử huấn luyện RoBERTa trên qui mô lớn, nhiều dữ liệu hơn so với BERT, trên một khoảng thời gian dài hơn. Việc huấn luyện này sử dụng song song cả các bộ dữ liệu NLP không chú thích và CC-News – một bộ dữ liệu mới, lấy nguồn từ các bài báo công khai trên mạng.
Những thay đổi trên về thiết kế đã cho hiệu quả cao trong các tác vụ MNLI, QNLI, RTE, STS-B, và RACE, cũng như cải thiện đáng kể trên bảng xếp hạng GLUE. Cụ thể, với điểm số là 88,5, RoBERTa hiện đang dẫn đầu bảng xếp hạng GLUE, đồng hạng với XLNet-Large. Những kết quả này đã cho thấy tầm quan trọng của một số thiết kế chưa từng được tìm hiểu trong huấn luyện BERT, đồng thời giúp chỉ rõ các ảnh hưởng riêng biệt gây ra bởi các yếu tố như kích thước dữ liệu sử dụng, thời gian huấn luyện, và mục tiêu tiền huấn luyện.
Ý nghĩa nghiên cứu
Kết quả nghiên cứu cho thấy rằng, quá trình huấn luyện BERT có thể gây ra những hiệu quả đáng kể trong nhiều tác vụ NLP khác nhau, qua đó chứng minh rằng, phương thức này mang tính cạnh tranh cao trong số rất nhiều các phương thức khác. Nói rộng hơn, thì nghiên cứu đã chỉ ra tiềm năng của các kỹ thuật huấn luyện tự giám sát, giúp đuổi kịp, hay thậm chí là vượt qua các cách thức truyền thống, có giám sát trước đây. Ngoài ra, RoBERTa cũng là một đóng góp của Facebook trong quá trình cải thiện công nghệ trong các hệ thống tự giám sát, được đặc biệt phát triển để ít lệ thuộc vào việc đánh nhãn dữ liệu hơn – một quá trình vô cùng lâu dài và tốn tài nguyên. Các nhà nghiên cứu cũng rất hi vọng rằng, cộng đồng công nghệ sẽ tiếp tục phát triển và cải thiện, đem lĩnh vực NLP đi xa hơn nữa, với bộ mô hình và code của RoBERTa.
Xem toàn bộ nghiên cứu tại ĐÂY
Theo ai.facebook