Theo Microsoft, thuật toán trí tuệ nhân tạo mới này thậm chí còn có thể diễn giải một số hình ảnh chính xác hơn so với con người.

Thuật toán diễn giải ảnh mới sẽ được sử dụng để cải thiện các ứng dụng như Seeing AI – trong ảnh đang được sử dụng bởi nhà phát triển Florian Beijers. Nguồn: Microsoft / Maurice Jager

Microsoft đã phát triển thành công một thuật toán diễn giải hình ảnh với độ chính xác cao hơn con người trong một số bài kiểm thử nhất định. Hệ thống AI này hiện đã được sử dụng trong ứng dụng hỗ trợ người khiếm thị của Microsoft là Seeing AI, và sẽ sớm được tích hợp trong những sản phẩm khác của công ty như Word, Outlook, và PowerPoint. Tại đó, thuật toán sẽ được sử dụng để viết các đoạn mô tả hình ảnh – một tính năng vô cùng quan trọng với người khiếm thính, giúp mở rộng phạm vi tiếp cận cho các sản phẩm nêu trên.

Ứng dụng Seeing AI được Microsoft phát hành lần đầu vào năm 2017. Seeing AI sử dụng công nghệ thị giác máy tính để mô tả thế giới dưới lăng kính người khiếm thị. Nó có thể phát hiện các đồ dùng trong nhà, đọc và quét văn bản, mô tả cảnh vật, thậm chí là định danh bạn bè của người dùng. Ngoài ra, Seeing AI cũng thường được sử dụng để mô tả các hình ảnh ở những nền tảng khác như email, mạng xã hội, và các ứng dụng nhắn tin (ví dụ như WhatsApp).

Microsoft không tiết lộ số lượng người dùng của Seeing AI, song phó chủ tịch Azure AI – ông Eric Boyd, lại chia sẻ với báo giới rằng đây là một trong những phần mềm “đi đầu cho người mù hoặc kiếm thị.” Trong suốt 3 năm nay, Seeing AI vẫn liên tục được AppleVis – cộng đồng người dùng iOS khiếm thính bình chọn là ứng dụng hỗ trợ tốt nhất.

Thuật toán diễn giải hình ảnh mới của Microsoft sẽ giúp cải thiện hiệu quả cho Seeing AI – bởi lẽ thuật toán này không chỉ có khả năng phát hiện và nhận diện đồ vật, và có thể mô tả các liên hệ giữa chúng. Cụ thể, khi quan sát một bức ảnh, thuật toán này không chỉ thể hiện trong ảnh có gì và những ai, mà còn thể hiện được họ đang tương tác với nhau như thế nào. Theo Microsoft, thuật toán này có hiệu quả gấp đôi so với hệ thống diễn giải cũ của hãng – được phát hành vào năm 2015.

Công trình nói trên đã được Microsoft nêu chi tiết trong một tạp chí đăng tải vào hồi tháng 9, và đã đạt được số điểm cao lịch sử trên thang “nocaps” – thang đo hiệu quả diễn giải hình ảnh uy tín nhất trong lĩnh vực, song vẫn còn tồn tại một số hạn chế nhất định.

Cụ thể, thang nocaps bao gồm hơn 166.000 đoạn mô tả được con người viết về khoảng 15.100 hình ảnh thuộc bộ dữ liệu Open Images Dataset. Những hình ảnh này là về rất nhiều lĩnh vực khác nhau như du lịch, đồ ăn, thể thao… (Cụ thể về các hình ảnh và đoạn mô tả, vui lòng xem bộ dữ liệu nocaps tại đây). Các thuật toán sau đó sẽ được chấm điểm dựa trên khả năng viết mô tả cho các hình ảnh này sao cho giống với con người nhất.

Tuy nhiên, cần lưu ý rằng, nocaps chỉ biểu hiện cho một phần rất nhỏ sự phức tạp của tác vụ diễn giải hình ảnh. Và tuy rằng Microsoft đã tự tán dương khả năng “mô tả y như con người” của công nghệ này, nó chỉ đúng với các hình ảnh thuộc bộ dữ liệu nocaps – so với hàng vô số các hình ảnh bên ngoài.

Cũng như nhiều thang đó khác, nocaps chỉ là một thông số cơ bản giúp đánh giá hiệu quả của các mô hình. Việc vượt qua con người trên thang này hoàn toàn không có nghĩa là AI đã giỏi hơn con người trong việc quan sát và diễn giải hình ảnh,” Argawal khẳng định.

Việc đánh giá qua cao năng lực của AI là một vấn đề rất thường gặp. Trong quá khứ, Microsoft cũng đã từng vấp phải sự chỉ trích của các nhà nghiên cứu khi hãng công nghệ này nói quá về khả năng đọc hiểu văn bản của thuật toán do mình phát hành.

Nhưng dù sao đi nữa, những năm qua cũng đã đem lại rất nhiều tiến bộ cho việc diễn giải hình ảnh nhờ có AI, dẫn đầu là các thuật toán của Microsoft. Song song với việc được tích hợp trong Word, Outlook, và PowerPoint, AI này sẽ còn xuất hiện trên nền tảng Cloud và AI Microsoft Azure, với tư cách là một mô hình độc lập.

Theo The Verge

Tin liên quan: