Về SIMMC

Situated and Interactive Multimodal Conversations, hay SIMMC (Tạm dịch: Các cuộc hội thoại tương tác có hoàn cảnh đa mô hình) là một bộ dữ liệu đầu tiên được mở nguồn, nhằm hỗ trợ các nhà nghiên cứu và kỹ sư phát triển ra các trợ lý ảo có khả năng xử lý những hội thoại phức tạp, mang tích tác vụ, trong bối cảnh đa mô hình đồng quan sát.

Hãy thử tưởng tượng bạn đang mua sắm trên một cửa hàng trực tuyến với công nghệ AR/VR. Lúc này, một trong những phương thức đơn giản nhất giúp tương tác này trở nên trơn tru sẽ là thông qua một trợ lý ảo được điều khiển bằng lệnh giọng nói (VD: “Tôi muốn mua ghế sofa da màu nâu”) – tương tự như cách người bán hỗ trợ bạn khi mua sắm ở cửa hàng truyền thống.

Tuy nhiên, môi trường AR/VR lại khá phức tạp, và vì vậy trợ lý ảo không thể chỉ thực hiện các tác vụ trả lời thông thường. Thay vào đó, để vận hành thành công, chúng cần phải có khả năng xử lý và ghi nhớ các đầu vào đa mô hình tồn tại trong những mỗi trường này, như các khía cạnh thị giác của vật thể, bao gồm màu sắc, kích cỡ, hình dạng, xu hướng.

Nếu cộng đồng nghiên cứu và kỹ thuật mong muốn phát triển được các trợ lý ảo giống với con người hơn, họ sẽ phải đối mặt thêm với nhiều thử thách mới vô cùng quan trọng.

SIMMC là một bộ dữ liệu chuyên dành cho việc huấn luyện các chương trình với khả năng thực hiện tác vụ đa mô hình trong bối cảnh đầu vào đa mô hình đồng tiến hóa, song song với lịch sử đối thoại. SIMMC sẽ giúp thực hiện được các hội thoại tác vụ, bao hàm trong đó là bối cảnh người dùng có hoàn cảnh nhất định và chi tiết, dưới dạng một hình ảnh đồng quan sát hoặc một môi trường VR – được liên tục cập nhật dựa trên hướng hội thoại và hành động của trợ lý ảo. Thông qua SIMMC, các trợ lý AI sẽ có thể hiểu được sự thay đổi liên tục trong bối cảnh của mỗi tương tác, tương tự như người dùng.

Chức năng của SIMMC

SIMMC bao gồm khoảng 13.000 hội thoại giữa người với người (với tổng số câu đạt khoảng 169.000), tập trung chủ yếu vào các trải nghiệm mua sắm (cụ thể là mua sẳm nội thất và quần áo). Sở dĩ đây được chọn làm lĩnh vực chính trong bộ dữ liệu này là do môi trường mua sắm liên tục thay đổi, và có rất nhiều tương tác đa mô hình phát sinh xung quanh các vật phẩm này.

So với các bộ dữ liệu đa mô hình hội thoại trước đó, SIMMC sở hữu 4 lợi thế chính:

  1. SIMMC giả định một bối cảnh đa mô hình đồng quan sát giữa người dùng và trợ lý ảo, sau đó ghi lại bề ngoài thực sự của mỗi vật phẩm xuất hiện trong bối cảnh. Các tác vụ SIMMC tập trung vào việc xử lý ngữ nghĩa của các phương thức đầu vào, trong khi các công trình trước đây trong lĩnh vực này lại tập trung vào xử lý hình ảnh gốc.
  2. Khác với các bộ dữ liệu hội thoại tác vụ trước đó, các chương trình hành động trong bộ dữ liệu SIMMC có phổ đa mô hình rất rộng, bao gồm các tác vụ như “xoay”, “tìm kiếm”, và “thêm vào giỏ”.
  3. Những chương trình hành động trên cũng có thể được thực hiện ở cả cấp vật thể (VD: thay đổi góc nhìn của một vật thể nhất định trong cảnh), và cả ở cấp cảnh (VD: giới thiệu cảnh/hình ảnh mới).
  4. SIMMC tập trung vào tác vụ phân tích ngữ nghĩa. Lược đồ gán nhãn SIMMC (SIMMC annotation schema) được đề xuất cho phép sử dụng các phương thức có hệ thống và cấu trúc hơn, giúp đặt nền tảng thị giác tốt hơn cho hội thoại. Điều này là vô cùng cần thiết cho việc giải quyết các vấn đề phức tạp trong những kịch bản thực tiễn ngoài đời thực.

Các mô hình machine learning được huấn luyện dựa trên các bộ dữ liệu về nội thất và thời trang sau đó đã được đánh giá hiệu quả khi gọi API cho dự đoán, tổng hợp phản hồi, và theo dõi trạng thái hội thoại.

Ý nghĩa của SIMMC

Với khung SIMMC, ta đã có thể tiến thêm một bước tới thế hệ trợ lý ảo mới, với khả năng thực hiện những lý luận đa mô hình cần thiết để gây dựng trải nghiệm động, ví dụ như mua sắm sử dụng AR/VR. Những bộ dữ liệu tương tự cũng sẽ giúp cộng đồng nghiên cứu sâu hơn về AI hội thoại, trong đó bao gồm việc phân biệt các thực thể đa mô hình.

Hai bộ dữ liệu (về nội thất và thời trang) đã được cung cấp, song song với đó công nghệ về ngôn ngữ tự nhiên có bối cảnh và các nhãn liên hệ ngữ pháp của các bộ dữ liệu này nhằm phục vụ mục đích nghiên cứu. Trong đó, nhiều tác vụ được thực hiện thông qua hai bộ dữ liệu đã có những ứng dụng thực tiễn cụ thể. Và tuy rằng hiện tại SIMMC vẫn đang trong giai đoạn nghiên cứu, nhưng những nhãn này sẽ giúp hỗ trợ việc nghiên cứu sâu hơn cho các tác vụ được nhắc tới trong công trình nghiên cứu, cũng như một số tác vụ khác.

Xem thêm SIMMC trên GitHub tại: Situated Interactive MultiModal Conversations (SIMMC) Challenge 2020

Theo Facebook AI

Tin liên quan: