Một mô hình AI đã học được cách tạo ra hình ảnh từ chú thích – một dấu hiệu quan trọng cho thấy rằng các mô hình đang hiểu sâu hơn về thế giới.

Trong số các mô hình AI trên thế giới, GPT-3 của OpenAI là mô hình có năng lực tưởng tượng tốt nhất – mô hình này có thể làm thơ, viết truyện ngắn, và sáng tác nhạc chỉ với vài gợi ý cơ bản. Chúng cũng có thể khiến mọi người tin rằng các tác phẩm này đều được viết bởi con người. Tuy nhiên, bản chất của năng lực này lại mang tính “mánh khóe” hơn là trí tuệ thực sự.

Tuy nhiên, các nhà nghiên cứu tin rằng, các kỹ thuật là GPT-3 sử dụng có thể là “chìa khóa” dẫn tới công nghệ AI tiên tiến hơn. GPT-3 được huấn luyện bằng một khối lượng văn bản khổng lồ, vậy nếu ta cùng thực hiện huấn luyện như vậy với cả văn bản và hình ảnh thì sao?

Giờ đây, nghiên cứu mới đến từ Viện Trí tuệ Nhân tạo Allen – AI2, đã mang ý tưởng này lên một tầm cao mới. Các nhà nghiên cứu đã phát triển ra một mô hình kết hợp văn bản và hình ảnh mới, còn được gọi là một mô hình thị giác – ngôn ngữ, với khả năng tổng hợp hình ảnh từ chú thích. Các hình ảnh này, tuy rằng kỳ lạ và không thực tế như các deepfake được tổng hợp bởi GAN – song lại có thể mở ra một hướng đi đầy hứa hẹn mới, giúp “phổ cập” trí tuệ nhân tạo và tạo ra các robot thông minh hơn.

Mô hình “điền vào chỗ trống”

GPT-3 là một trong số các mô hình được mệnh danh là “transformer” – một dạng công nghệ trở nên phổ biến sau sự thành công của BERT – mô hình ngôn ngữ do Google phát triển. Trước đây, khi BERT chưa xuất hiện, các mô hình ngôn ngữ thường có hiệu quả thấp, chúng có đủ khả năng dự đoán cho các ứng dụng như autocomplete (hoàn thành tự động) nhưng lại không đủ khả năng để tổng hợp ra các câu dài có nghĩa và đúng ngữ pháp.

BERT đã thay đổi tất cả với một kỹ thuật mới gọi là “masking”. Cụ thể, kỹ thuật này bao gồm việc “giấu” các từ ngữ khác nhau bên trong câu, rồi yêu cầu mô hình điền vào chỗ trống. Ví dụ:

  • Cô ấy tới ___ để luyện tập.
  • Họ đã mua rất ___ bánh mì để làm bánh sandwich.

Nếu mô hình phải lặp đi lặp lại tác vụ trên tới hàng triệu lần thì nó sẽ phát hiện ra các cơ chế sắp xếp từ trong câu, cũng như sắp xếp các câu trong đoạn. Kết quả là mô hình sẽ tổng hợp và hiểu được văn bản, qua đó tiến gần hơn tới hiểu được ý nghĩa của ngôn ngữ. (Google hiện đang sử dụng BERT để đưa ra các kết quả tìm kiếm phù hợp hơn cho nên tảng tìm kiếm của công ty này.) Hiệu quả của kỹ thuật “masking” (giấu từ trong chú thích hình ảnh) đã dẫn tới việc phổ biến kỹ thuật này trong các mô hình thị giác – ngôn ngữ, cụ thể như:

Một con ___ đang đứng cạnh cây | AI2.

Thông qua “masking”, mô hình đã có thể quan sát được cả các từ liên quan và nội dung của hình ảnh để điền vào chỗ trống. Sau hàng triệu lần luyện tập, mô hình đã có thể tìm được những xu hướng trong từ và mối quan hệ giữa từ và các yếu tố trên ảnh.

Những mô hình này đã có thể liên hệ những mô tả văn bản với các yếu tố hình ảnh – tương tự như cách trẻ sơ sinh có thể liên hệ các từ mà chúng học được với những điều mà chúng đang nhìn thấy. Như vậy, mô hình sẽ có thể nhìn vào những hình ảnh như bên dưới, rồi tổng hợp ra một chú thích hợp lý như “Phụ nữ chơi khúc côn cầu.” Hoặc, chúng có thể trả lời được những câu hỏi liên quan như “Quả bóng có màu gì?” bằng cách kết nối từ “quả bóng” với đồ vật có dạng hình tròn trong ảnh.

Mô hình thị giác – ngôn ngữ có thể chú thích ảnh trên theo đúng nội dung là “Phụ nữ chơi khúc côn cầu.”

“Trăm nghe không bằng một thấy”

Tuy nhiên, các nhà nghiên cứu AI2 lại muốn biết rằng, liệu những mô hình này có thể thật sự hiểu được các hình ảnh hay không. Với trẻ nhỏ, một khi biết được một món đồ được gọi là gì, thì chúng vừa có thể dùng từ ngữ đó để nhận diện đồ vật, vừa có thể vẽ lại đồ vật đó khi được yêu cầu, kể cả khi không có đồ vật tại đó để đối chiếu. Do đó, các nhà nghiên cứu đã yêu cầu điều tương tự ở các mô hình thị giác ngôn ngữ – khả năng tổng hợp hình ảnh từ chú thích. Tuy nhiên, chúng lại chẳng thể tổng hợp ra được hình ảnh nào ra hồn.

Là chim hay là máy bay? Chẳng là gì cả, chỉ là một mớ hỗn độn mà AI tổng hợp ra | AI2.

Thất bại này hoàn toàn có thể hiểu được: việc chuyển hóa văn bản thành hình ảnh khó hơn rất nhiều so với ngược lại. Theo Ani Kembhavi, trưởng đội ngũ thị giác máy tính tại AI2, chú thích không thể mô tả rõ mọi chi tiết trong ảnh.

Do đó, nếu ta yêu cầu mô hình vẽ “hươu cao cổ đi trên đường”, nó sẽ phải tự nhận thức được rằng, đường thường có màu xám chứ không phải màu hồng, và thường sẽ gần đồng cỏ hơn là biển – mặc dù các thông tin này hoàn toàn không được nêu trong chú thích.

Chính vì vậy, Kembhavi cùng các đồng nghiệp là Jaemin Cho, Jiasen Lu, và Hannaneh Hajishirzi đã quyết định sẽ thử dạy mô hình tất cả những tri thức thị giác nói trên, bằng cách thay đổi một chút kỹ thuật “masking”. Cụ thể, thay vì chỉ huấn luyện mô hình dự đoán các từ bị dấu trong chú thích ở các hình ảnh tương ứng, họ cũng cố đào tạo mô hình này sao cho dự đoán được các điểm ảnh (pixel) bị dấu dựa trên các chú thích tương ứng.

Các hình ảnh tổng hợp được bởi mô hình thường không quá thực tế, song đây không phải mục đích chính của thử nghiệm này. Bởi lẽ, các mô hình này sở hữu những khái niệm thị giác cao cấp và thích hợp – những khái niệm tương đương với việc một đứa trẻ có thể vẽ được người que để ký hiệu cho con người. (Bạn có thể thử nghiệm mô hình tại đây.)

Các hình ảnh được tổng hợp bởi mô hình của AI2 từ các chú thích dưới ảnh | AI2.

Việc các mô hình thị giác – ngôn ngữ có thể tổng hợp hình ảnh như trên đã đem lại một bước tiến mới trong việc nghiên cứu AI. Mô hình này đã sở hữu được khả năng trừu tượng hóa – một kỹ năng quan trọng giúp chúng hiểu được thế giới.

Về lâu dài, điều này cũng có thể mang lại những lợi thế nhất định cho lĩnh vực robotic. Robot càng hiểu được rõ được thế giới, càng sử dụng được ngôn ngữ để thể hiện điều này, thì nó lại càng thực hiện được những tác vụ phức tạp hơn. Còn trong ngắn hạn, khả năng này sẽ giúp các nhà nghiên cứu hiểu được cụ thể về “hộp đen” mà các mô hình AI đang học tập, Hajishirzi nói.

Trong tương lai, đội ngũ dự kiến sẽ tiếp tục thử nghiệm nhằm cải thiện chất lượng hình ảnh tổng hợp, đồng thời mở rộng ngôn ngữ và khả năng thị giác của các mô hình, bao hàm được nhiều chủ đề, đối tượng, và tính từ hơn.

Theo MIT Technology Review

Tin liên quan: