GPT-2, mô hình tổng hợp ngôn ngữ của OpenAI còn có một năng lực khác – Đó là chơi cờ vua, cho dù hoàn toàn chưa biết về luật của trò chơi này.

Nghe thật kỳ lạ phải không nào? Điều này quả thật là vô cùng khác biệt so với khả năng chính của GPT-2 – tổng hợp ra văn bản sau khi nhận dữ liệu đầu vào là 1 hoặc 2 câu ngắn.

GPT-2 được huấn luyện bằng 8 triệu bài báo, trang web được lấy từ Reddit, và có khả năng học được các xu thế ngôn ngữ thường được sử dụng, để từ đó hình thành tổng hợp ra câu văn. Kết quả của GPT-2 thường là những câu đúng về ngữ pháp, có thể hiểu được nhiều phần, dù đôi khi hơi vô nghĩa.

Tuy nhiên, một điều ít người biết là, cờ cũng có thể được chuyển hóa thành các chuỗi văn bản với các xu thế và luật hệ riêng, có thể được phân tích bởi GPT-2. Nhận biết được điều này, cặp đôi kỹ sư Shawn Presser và Gwern Branwen đã phát hiện rằng, nếu chỉnh sửa cờ vua một cách vừa đủ, thì có thể dùng chúng như dữ liệu để huấn luyện mô hình.

Chia sẻ với báo chí, Presser nói: “Chúng tôi đã huấn luyện GPT-2 sử dụng 2,4 triệu ván cờ được ghi lại trên Kingbase – một bộ dữ liệu mà trong đó, ví trị của các quân cờ được biểu hiện dưới dạng PGN.”

PGN sẽ đánh số các hàng trong bàn cờ từ 1 tới 8, và kí hiệu các cột bằng chữ cái viết thường từ a tới h. Sau đó, tên các quân cờ sẽ được ký hiện bằng chữ cái viết hoa. Ví dụ, “Nf3” sẽ có nghĩa là, một quân Mã đã di chuyển tới điểm f3 trên bàn cờ.

Sau quá trình huấn luyện với 2,4 triệu ván cờ, được xử lý trong 24 tiếng đồng hồ bằng 140 chip Cloud TPU của Google, GPT-2 đã có thể sao chép và chơi lại các nước cờ trong bộ dữ liệu, mà không cần hiểu về luật cờ cũng như nhìn thấy bàn cờ.

GPT-2 chỉ khó đấu ở đầu ván cờ

Nghe thì có vẻ vô cùng ấn tượng, song, cũng như mọi mạng nơ-ron khác, tới một mức nhất định, mạng sẽ bắt đầu bị overfit dữ liệu. Trong trường hợp này, GPT-2 sẽ bắt đầu đi những nước không hợp lệ sau 10 tới 13 nước cờ.

“Nó sẽ bắt đầu đi quân xe tới vị trí mà đang có quân tốt,” Presser nói. Và kết quả là, ván cờ càng kéo dài, thì GPT-2 càng mất đi hiệu quả so với đầu ván.

Anh cũng tiếp lời: “Khi đấu với con người ở đầu ván, hệ thống là chuyên gia trong những nước cờ đầu, sau đó chơi kém dần đi. Khả năng lớn là, nó đã ghi nhớ các bước khởi đầu – một việc bình thường trong giới chơi cờ, do chỉ có một số phạm vi nhất định ở những nước đi đầu.”

Tuy nhiên, GPT-2 cũng cho dấu hiệu rằng, hệ thống này không chỉ lặp lại những gì đã học trước đó. Cụ thể, Presser khẳng định: “Nó cũng phản ứng tương thích: Nếu người chơi bắt đầu bằng những nước cờ khác, thì nó cũng sẽ đấu lại bằng cách khác. Và nếu bạn bắt đầu bằng những nước cờ lạ, kiểu như đi hậu trước, thì hầu hết thời gian, GPT-2 sẽ ăn quân cờ này.”

Theo Presser và Branwen, GPT-2 chỉ chơi tệ đi sau khi việc theo dõi bàn cờ trở nên khó khăn.

Kiểu như, nếu bạn đổi Mã sang f3, thì máy sẽ không thế nhớ được vị trí trước đó của mã là ở đâu,” Presser chia sẻ.

Con người thì rất rõ điều này, do chỉ có một số vị trí mà quân mã này có thể từng ở trước đó. Trong khi đó, AI lại được huấn luyện bằng PGN. Có thể, nếu được huấn luyện sử dụng các định vị số học dài hơn, thì AI sẽ nhớ được cả những vị trí trước đó, thay vì chỉ biết được các vị trí hiện tại.”

Presser và Brandwen cũng hi vọng sẽ có thể tích hợp thêm hành vi tự đấu vào quá trình huấn luyện – trong đó GPT-2 sẽ tự đấu với bản thân mình. Như vậy, hệ thống sẽ có thể tập chơi ở mức độ vừa phải, và nếu hệ thống này tiến bộ, thì điều này sẽ là minh chứng rằng, nó thật sự có thể học luật lệ của trò chơi.

Trong tương lai, cặp đôi cũng muốn thử thách với Stockfish – một máy đánh cờ phổ biến, để biết được năng lực thật sự của GPT-2 qua bảng đánh giá Elo. Còn ở hiện tại, thì bạn có thể thử đấu với GPT-2 bằng cách tuân theo các hướng dẫn ở đây.

FPT TechInsight
Theo The Register

Tin liên quan: