AI AlphaStar đã thành thạo trò chơi chiến thuật trên thời gian thực mang tên StarCraft.

Mới đây, DeepMind đã đặt ra một cột mốc mới cho các AI được huấn luyện để chơi game StarCraft II. Cụ thể, phần mềm phức tạp mới của phòng nghiên cứu AI này đã tạo ra AlphaStar, một AI có khả năng chơi StarCraft vô cùng thành thạo, với thành tích tốt hơn 99,8% tổng số người chơi. Các kết quả của nghiên cứu đã được đăng tải trên tạp chí khoa học Nature.

DeepMind cũng đã khẳng định rằng, AlphaStar đã chiến thắng hầu hết các đối thủ người thật trong một giải đấu hồi hè năm nay. Để huấn luyện AI này, hãng đã sử dụng cả 3 cuộc đua của trò chơi, đồng thời chọn mức khó cho người chuyên nghiệp. AlphaStar cũng bị giới hạn tầm nhìn tương đương với người chơi thường, đồng thời bị hạn chế số lần click chuột xuống còn 22 lần click trong mỗi 5 giây – Tương đương tốc độ tiêu chuẩn của con người.

AlphaStar là AI đầu tiên thành thạo StarCraft II

Và mặc dù phải chịu các hạn chế trên, AI này vẫn có thể chơi game một cách thành thạo, đạt ví trí cao nhất trên bảng xếp hạng thi đấu trực tuyến – Đây cũng là hệ thống AI đầu tiên đạt được thành tích như vậy trên game này. Với DeepMind, đây là minh chứng rõ rệt cho khả năng sử dụng công nghệ học tăng cường dùng cho mục đích chung trong tương lai – Nơi nó có thể được dùng để huấn luyện các robot tự học, xe tự lái, và tạo ra các hệ thống nhận diện hình ảnh và sự vật tiên tiến hơn.

Lịch sử phát triển của AI bao gồm các dấu mốc là thành tựu đạt được trong các trò chơi. Kể từ khi AI có thể đánh bại cờ vây, cờ vua, và cả poker, StarCraft đã trở thành một mục tiêu mới,” David Silver, nhà khoa học nghiên cứu thuộc đội ngũ AlphaStar phát biểu. “Trò chơi này phức tạp hơn nhiều so với cờ vua, bởi lẽ người chơi cần phải kiểm soát tới hàng trăm yếu tố, và cũng phức tạp hơn cờ vây với 10^26 lựa chọn cho mỗi bước đi, và đồng thời cũng có ít thông tin về đối thủ hơn so với poker.”

Vào hồi tháng 1, DeepMind đã công bố rằng, AlphaStar đã có thể đánh bạn 10 game thủ chuyên nghiệp hàng đầu liên tục trong một phiên thi đấu, và chỉ chịu thất bạt trước game thủ chuyên nghiệp Grzegorz “MaNa” Komincz trong một trận đấu trực tiếp. Và công ty đã tiếp tục cải thiện hệ thống cho tới tháng 6, sau đó bắt đầu mời các game thủ hàng đầu thế giới tham gia thi đấu với AI này. Các trận đấu trên được diễn tra trong 2 tháng 7 và 8.

Và AlphaStar đã đạt kết quả vô cùng ấn tượng: Nó đã đánh bại hầu hết các game thủ trong Starcraft II, chỉ chịu thua 0,2% trong toàn bộ số người thách đấu. Dự kiến, con số này sẽ còn tiếp tục giảm đi trong tương lai.

Ảnh: DeepMind

Cột mốc nghiên cứu này cũng mang tầm ảnh hưởng tương tự như nghiên cứu của OpenAI vào hồi tháng 4, khi công trình nghiên cứu của hãng này – Phần mềm OpenAI Five được cải tiến, đã đánh bại đội game thủ hàng đầu thế giới trong trò chơi Dota2. Được biết, vào mùa hè trước đó, AI này đã để thua 2 nhóm chơi e-sport ít chuyên nghiệp hơn, cho thấy sự cải tiến rõ rệt. Sự tiến bộ trong năng lực của AlphaStar cũng như OpenAI là minh chứng rõ ràng cho cách sử dụng AI để cải thiện năng lực chơi game.

Việc đánh bại con người trong chơi game không chỉ mang một ý nghĩa đơn thuần. Trái lại, đây là bằng chứng khẳng định rằng, các phần mềm AI phức tạp có thể đánh bại con người trong hầu hết mọi thi đấu về nhận thức, nếu được huấn luyện đủ kỹ lưỡng. Đồng thời, nó cũng thể hiện rõ các lợi ích của công nghệ học tăng cường – Một nhánh đặc biệt của Machine Learning, với các thành tựu nhất định khi được kết hợp với năng lực máy tính cao và các quy trình huấn luyện như mô phỏng thực tế ảo.

Giống như OpenAI, DeepMind cũng huấn luyện các AI của mình bằng cách cho chúng thử thách lẫn nhau với tốc độ được tăng cường, giúp các AI này có thể thực nghiệm hàng trăm giờ chơi chỉ trong vòng vài tháng. Với quá trình này, các phần mềm của OpenAI và DeepMind đã có thể vượt qua con người trong các nước cờ, và giờ đây là cả các trò chơi điện tử phức tạp như Starcraft và Dota.

Tuy nhiên, các AI này vẫn chỉ bị bó hẹp trong mục đích thiết kế. Cụ thể, AI chơi cờ vây thì sẽ không thể chơi Dota, và ngược lại. (Tuy nhiên, DeepMind đã thử cho AI chơi cờ vây chơi thử cờ vua, và AI này đã mất 8 tiếng để thành thạo bộ môn mới). Nguyên nhân cho điều này là do phần mềm không được lập trình với các quy luật và chỉ dẫn dễ thay thế. Thay vào đó, DeepMind cùng các viện nghiên cứu khác đã sử dụng học tăng cường để các AI tự hiểu cách chơi, giúp chúng có thể tìm ra những kiểu chơi khó đoán hơn, tinh vi hơn, mà thường tồn tại ở những người chơi giỏi nhất.

Diego “Kelazhur” Schwimer, một người chơi chuyên nghiệp thuộc đội Panda Global đã nói về AlphaStar như sau: “AlphaStar là một đối thủ thú vị và không lường trước được, nó có phản xạ và tốc độ tương đương với những người chơi hàng đầu, đồng thời có một phong cách chơi đặc biệt riêng. AlphaStar được huấn luyện bằng cách liên tục thi đấu, và vì vậy đã hình thành một kiểu chơi vô cùng khác biệt. Điều này cũng là một minh chứng rõ ràng cho những khả năng và khám phá vô tận mà ta có thể khai thác trong vũ trụ của StarCraft. Dù ban đầu vài chiến thuật của AlphaStar có vẻ rất kỳ lạ, nhưng sau đó tôi lại nghĩ rằng, có thể cách phối hợp nhiều kiểu chơi như vậy mới đem lại hiệu quả cao nhất.”

DeepMind hi vọng rằng, các tiến bộ trong học tăng cường của hãng sẽ giúp công nghệ này được áp dụng nhiều hơn trong tương lai. Có thể thấy, ứng dụng thực tiễn khả thi nhất cho công nghệ này sẽ là ở trong các robot, thông qua việc huấn luyện các cỗ máy làm những tác vụ thực tiễn (như di chuyển một cánh tay robot trên mô phỏng). Và sau một quá trình mô phỏng để có thể kiểm soát các chuyển động tốt hơn, AI sẽ có thể điều khiển một cánh tay robot ở dạng vật lý, sau đó tiến tới một robot toàn phần. Ngoài ra, DeepMind cũng thấy tiềm năng của những công nghệ này trong lĩnh vực xe tự lái.

FPT TechInsight
Theo The Verge

Tin liên quan: