Các tham số là điểm mấu chốt của thuật toán trong học máy. Chúng giúp mô hình học từ các dữ liệu đào tạo. Nói chung, trong lĩnh vực ngôn ngữ, mối tương quan giữa số lượng tham số và sự tinh vi đã được chứng minh một cách khá thuyết phục. Ví dụ, GPT-3 của OpenAI – một trong những mô hình ngôn ngữ lớn nhất được đào tạo với 175 tỉ tham số – có thể làm các phép loại suy cơ bản, tạo ra các công thức và thâm chí hoàn thiện code cơ bản.

Trong một bài kiểm tra có lẽ là toàn diện nhất từ trước đến nay về mối tương quan này, các nhà nghiên cứu của Google đã phát triển và đánh giá các kỹ thuật được cho là có thể giúp đào tạo một mô hình ngôn ngữ chứa hơn một nghìn tỉ tham số. Mô hình 1,6 tỉ tham số của họ, có vẻ là mô hình có kích thước lớn nhất cho đến nay, đã đạt được tốc độ cao gấp 4 lần mô hình ngôn ngữ lớn nhất của Google trước đây (T5 – XXL). 

Như đã được chỉ ra trong bài công bố miêu tả chi tiết cuộc nghiên cứu, đào tạo quy mô lớn là một con đường hiệu quả để tiến tới các mô hình mạnh mẽ. Các kiến trúc đơn giản, được hỗ trợ bởi bộ dữ liệu lớn và nhiều tham số, vượt trội hơn nhiều so với các thuật toán phức tạp. Nhưng việc đào tạo hiệu quả trên quy mô lớn cực kỳ tập trung vào mặt tính toán. Đó là lý do tại sao các nhà nghiên cứu theo đuổi thứ gọi là Switch Transformer, một kỹ thuật “được kích hoạt thưa thớt” chỉ sử dụng một tập con các trọng số của mô hình (weight) – các tham số chuyển đổi dữ liệu đầu vào trong mô hình. 

Switch Transformer được xây dựng dựa trên sự kết hợp các chuyên gia, một mô hình AI lần đầu tiên được đề xuất vào những năm 90. Khái niệm sơ lược của mô hình này là có nhiều chuyên gia, hay các mô hình được chuyên môn hoá cho các nhiệm vụ khác nhau, trong một mô hình lớn hơn, đồng thời có “mạng lưới giám sát” lựa chọn chuyên gia nào sẽ giải quyết dữ liệu nào đó được đưa ra.

Sự mới lạ của Switch Transformer là nó tận dụng hiệu quả phần cứng được thiết kế cho các phép nhân ma trận dày đặc – các phép toán được sử dụng rộng rãi trong các mô hình ngôn ngữ – chẳng hạn như GPU và đơn vị xử lý tensor (TPU) của Google. Trong thiết lập đào tạo phân tán của các nhà nghiên cứu, mô hình của họ phân chia các trọng số duy độc nhất trên các thiết bị khác nhau, vì thế số lượng trọng số tăng lên cùng với số lượng thiết bị, nhưng chúng vẫn duy trì bộ nhớ có thể quản lý và ghi lại tính toán trên mỗi thiết bị.

Trong một thử nghiệm, các nhà nghiên cứu đã đào tạo trước một số mô hình Switch Transformer khác nhau bằng cách sử dụng 32 lõi TPU trên Colossal Clean Crawled Corpus, một tập dữ liệu văn bản có kích thước 750GB được lấy từ Reddit, Wikipedia và các nguồn web khác. Họ giao cho các mô hình nhiệm vụ dự đoán các từ còn thiếu trong các đoạn văn, với 15% số từ đã bị che mất, cũng như những thử thách khác, ví dụ như đọc văn bản để trả lời các câu hỏi có độ khó tăng dần.

Các nhà nghiên cứu khẳng định mô hình 1,6 nghìn tỷ tham số của họ với 2.048 chuyên gia (Switch-C) cho thấy “không có sự bất ổn nào trong việc đào tạo cả”, trái ngược với một mô hình nhỏ hơn (Switch-XXL) chứa 395 tỷ tham số và 64 chuyên gia. Tuy nhiên, trên một thước đo tên là Sanford Question Answering Dataset (SQuAD), Switch-C đạt số điểm thấp hơn (87,7) so với Switch-XXL (89,6). Các nhà nghiên cứu cho rằng nguyên nhân là do mối quan hệ không rõ ràng giữa chất lượng tinh chỉnh, các yêu cầu tính toán và số lượng tham số.

Trong trường hợp này, Switch Transformer đã đem đến các lợi ích cho một số nhiệm vụ hạ nguồn. Ví dụ, các nhà nghiên cứu đã chứng minh các mô hình thưa thớt lớn có thể được sử dụng để tạo ra các mô hình nhỏ, dày đặc được tinh chỉnh trên các tác vụ với chất lượng tăng lên 30% so với mô hình lớn. Nó cho phép tăng tốc độ đào tạo lên 7 lần trong khi sử dụng cùng một lượng tài nguyên tính toán. Trong một thử nghiệm mà Switch Transformer được đào tạo để dịch 100 ngôn ngữ khác nhau, các nhà nghiên cứu đã quan sát được “sự cải thiện toàn diện” trong 101 ngôn ngữ, với 91% các ngôn ngữ được tăng tốc lên hơn 4 lần so với mô hình cơ sở. 

Các nhà nghiên cứu cho biết trong bài công bố: “Mặc dù công trình này tập trung vào các mô hình cực lớn, chúng tôi cũng nhận thấy rằng các mô hình có ít nhất hai chuyên gia cải thiện được hiệu suất và thích hợp với sự hạn chế của bộ nhớ GPU hoặc TPU thường có. Chúng tôi không thể bảo toàn hoàn toàn chất lượng của mô hình, nhưng có thể đạt được tốc độ nén từ 10 đến 100 lần bằng cách trích các mô hình thưa thớt thành các mô hình dày đặc trong khi đạt được ~30% mức tăng chất lượng của mô hình chuyên gia. 

Trong công trình tương lai, các nhà nghiên cứu dự định áp dụng Switch Transformer cjo “các phương thức mới và khác nhau”, bao gồm hình ảnh và văn bản. Họ tin rằng sự thưa thớt của mô hình có thể mang lại lợi thế cho một loạt các phương tiện khác nhau cũng như các mô hình đa phương thức. 

Thật không may, công trình của các nhà nghiên cứu đã không tính đến tác động của các mô hình ngôn ngữ lớn này trong thế giới thực. Các mô hình thường mang thành kiến được mã hoá trong dữ liệu công khai này. Một phần dữ liệu đào tạo không hề hiếm được lấy từ các cộng đồng có định kiến giới, chủng tộc và tôn giáo. Công ty nghiên cứu AI OpenAI lưu ý rằng điều này có thể dẫn đến việc đặt các từ ngữ như “hư hỏng” hoặc “mút” gần đại từ chỉ nữ, và “Hồi giáo” gần các từ như “khủng bố”. Các nghiên cứu khác, như một nghiên cứu được công bố vào tháng 4 bởi Intel, MIT và các nhà nghiên cứu của sáng kiến AI Canada CIFAR, đã phát hiện ra mức độ thiên vị khuôn mâix cao từ một số mô hình phổ biến nhất, bao gồm BERT và XLNet của Google, GPT-2 của OpenAI và RoBERTa của Facebook. Theo Viện Nghiên cứu Quốc Tế Middlebury, thành kiến này có thể bị lợi dụng bởi những kẻ độc hại để gây bất hoà bằng cách truyền bá thông tin sai lệch và những lời nói dối hoàn toàn “cực đoan hoá các cá nhân thành những tư tưởng và hành vi bạo lực”. 

Không rõ liệu các chính sách của Google về các nghiên cứu học máy có thể đóng một vai trò nào đó trong việc này hay không. Reuters đã đưa tin vào cuối năm ngoái rằng các nhà nghiên cứu tại công ty hiện phải tham khảo ý kiến ​​của các nhóm pháp lý, chính sách và quan hệ công chúng trước khi theo đuổi các chủ đề như phân tích khuôn mặt và cảm xúc và phân loại chủng tộc, giới tính hoặc đảng phái chính trị. Và vào đầu tháng 12, Google đã sa thải nhà đạo đức học AI Timnit Gebru, người được cho là một phần của bài nghiên cứu bàn về rủi ro của các mô hình ngôn ngữ lớn, bao gồm tác động của dấu chân carbon của chung lên các cộng đồng bị thiệt thòi và xu hướng tiếp tục lạm dụng ngôn ngữ, lời nói thù địch, phân biệt, khuôn mẫu và ngôn ngữ phi nhân tính khác nhằm vào các nhóm người cụ thể.

Theo VentureBeat

Tin liên quan: