Dựa trên tập dữ liệu gồm 6 triệu video, các nhà nghiên cứu đã huấn luyện mô hình để khớp các khung hình riêng lẻ với phần trình bày theo ngữ cảnh của phụ đề video, chia thành các phân đoạn.

Con người hiểu các sự kiện trên thế giới theo ngữ cảnh, thực hiện việc suy luận đa phương thức theo thời gian để đưa ra hiểu biết về quá khứ, hiện tại và tương lai. Khi được cho một văn bản và một hình ảnh và xem xét chúng riêng biệt – ví dụ, “Hãy xem có bao nhiêu người yêu bạn” và một bức tranh sa mạc cằn cỗi – mọi người nhận ra rằng những thứ này có hàm ý gây tổn thương khi chúng được ghép hoặc đặt cạnh nhau.

Ngay cả những hệ thống AI tốt nhất cũng phải vật lộn trong lĩnh vực này. Nhưng chúng ta đã có sự tiến bộ, gần đây nhất là từ một nhóm tại Viện Trí tuệ nhân tạo Allen và Trường Khoa học máy tính & Kỹ thuật Paul G.Allen của Đại học Washington. Trong một bài báo được xuất bản vào tháng này, các nhà nghiên cứu đã trình bày chi tiết về Mô hình kiến thức tập lệnh thần kinh đa phương thức (Merlot), một hệ thống học cách đối sánh hình ảnh trong video với các từ và thậm chí theo dõi các sự kiện trên toàn cầu theo thời gian bằng cách xem hàng triệu video trên Youtube có giọng nói phiên âm. Nó thực hiện tất cả những điều này một cách không được giám sát, nghĩa là các video mà nó xem chưa được gán nhãn hoặc phân loại – buộc hệ thống phải học hỏi từ cấu trúc vốn có của video.

Học từ video

Năng lực lập luận thông thường của chúng ta được hình thành bởi cách chúng ta trải nghiệm nguyên nhân và kết quả. Việc dạy cho máy loại “tri thức nhân quả” này là một thách thức không nhỏ, một phần là do lượng dữ liệu mà nó yêu cầu. Ví dụ: ngay cả một bức ảnh chụp mọi người đang dùng bữa tại nhà hàng cũng có thể ngụ ý vô số thông tin, chẳng hạn như thực tế là mọi người phải thoả thuận địa điểm đi, gặp và vào nhà hàng trước khi ngồi xuống.

Merlot cố gắng nội dung hoá những khái niệm này bằng cách xem các video trên Youtube. Rất nhiều video trên Youtube. Dựa trên tập dữ liệu gồm 6 triệu video, các nhà nghiên cứu đã huấn luyện mô hình để khớp các khung hình riêng lẻ với phần trình bày theo ngữ cảnh của phụ đề video, chia thành các phân đoạn. Tập dữ liệu chứa các video hướng dẫn, vlog phong cách sống về các sự kiện hàng ngày và video do Youtube tự động đề xuất cho các chủ đề phổ biến như “khoa học” và “cải tạo nhà cửa”. Mỗi video được lựa chọn một cách rõ ràng để khuyến khích mô hình tìm hiểu về nhiều đối tượng, hành động và khung cảnh.

Merlot AI

Mục tiêu của nghiên cứu là dạy cho Merlot ngữ cảnh hoá ở cấp độ từng khung hình theo thời gian và theo các từ được nói ra, từ đó có thể sắp xếp lại các khung hình video lộn xộn và hiểu được những phụ đề “nhiễu” – bao gồm cả các bản phụ đề sai chữ thường, thiếu dấu câu và các từ như “umm”, “hmm” và “yeah”. Các nhà nghiên cứu phần lớn đã hoàn thành điều này. Họ báo cáo rằng trong một loạt các bài kiểm tra định tính và định lượng, Merlot có sự hiểu biết sâu sắc về các sự kiện và tình huống hàng ngày, cho phép nó lấy một chuỗi các sự kiện lộn xộn từ một video và sắp xếp các khung hình cho phù hợp với mô tả, chẳng hạn như mọi người đang đi vòng quay ngựa gỗ. 

Các nghiên cứu trong tương lai

Merlot chỉ là công trình mới nhất về việc hiểu video trong cộng đồng nghiên cứu AI. Vào năm 2019, các nhà nghiên cứu tại Viện Công nghệ Georgia và Đại học Alberta đã tạo ra một hệ thống có thể tự động tạo bình luận cho các video “let’s play” về trò chơi điện tử. Gần đây hơn, các nhà nghiên cứu tại Microsoft đã xuất bản một bài báo mô tả một hệ thống có thể xác định xem các mô tả về video có đúng hay không bằng cách học từ các manh mối bằng hình ảnh và văn bản. Và Facebook đã đào tạo một hệ thống thị giác máy tính có thể tự động học các biểu diễn âm thanh, văn bản và hình ảnh từ các video công khai.

Merlot AI

Các nhà nghiên cứu của Viện Allen và Đại học Washington nhấn mạnh rằng, giống như những nghiên cứu trước, Merlot có những hạn chế, một số do dữ liệu được chọn để đào tạo mô hình. Ví dụ: Merlot có thể thể hiện thành kiến không mong muốn vì nó chỉ được đào tạo về dữ liệu tiếng Anh và phần lớn là các phân đoạn tin tức địa phương, có thể dành nhiều thời gian để đưa tin về các câu chuyện tội phạm theo cách giật gân. Các nhà nghiên cứu thừa nhận rằng “rất có thể” việc đào tạo những mô hình như Merlot chủ yếu bằng tin tức có thể khiến chúng học phải những kiểu phân biệt chủng tộc và giới tính, khi mà những Youtuber phổ biến nhất tại hầu hết các quốc gia là nam giới. Các nghiên cứu đã chỉ ra một sự tương quan giữa việc xem tin tức địa phương và việc có những niềm tin rõ ràng, phân biệt chủng tộc hơn về tội phạm.

Vì những lý do này, nhóm nghiên cứu khuyên rằng Merlot không nên được triển khai trong sản xuất. Nhưng họ cho biết mô hình này vẫn là một bước tiến đầy hứa hẹn đối với công việc tương lai trong hiểu biết đa thức. “Chúng tôi hy vọng rằng Merlot có thể truyền cảm hứng cho các nghiên cứu tương lai về tầm nhìn của việc học và biểu đạt ngôn ngữ một cách giống con người hơn so với việc học từ chú thích văn bản và hình ảnh tương ứng. Mô hình đạt được hiệu suất mạnh mẽ đối với các tác vụ yêu cầu lý luận cấp sự kiện qua video và hình ảnh tĩnh.”

Theo VentureBeat

Tin liên quan: