Các nhà nghiên cứu tại Đại học California (Los Angeles), Đại học Nam California, Intuit và Chan Zuckerberg Initiative đã phát triển một tập dữ liệu tên là Phân loại Phương pháp Thí nghiệm Y sinh Đa phương thức (viết tắt là “Melinda”), chứa 5.371 dữ liệu được dán nhãn, bao gồm 2.833 số liệu từ các bài báo y sinh với chú thích tương ứng.

Xử lý các nghiên cứu sinh học là một quá trình quan trọng cần nhiều công sức của các nhà nghiên cứu khoa học đời sống. Người phụ trách phải xác định được các phương pháp thí nghiệm, các quy tắc để tính toán và thu thập được những số liệu công bố trong các nghiên cứu. Nói cách khác, “người quản lý nghiên cứu” cần xem xét các số liệu, chú thích và nhiều thông tin khác để xác định phương pháp nghiên cứu. Việc gán nhãn cẩn thận rất quan trọng trong công việc này, và khó có thể làm tốt điều đó khi có đến hàng trăm hoặc hàng nghìn thí nghiệm cần xử lý.

Để tìm kiếm một giải pháp, các nhà nghiên cứu tại Đại học California (Los Angeles), Đại học Nam California, Intuit và Chan Zuckerberg Initiative đã phát triển một tập dữ liệu tên là Phân loại Phương pháp Thí nghiệm Y sinh Đa phương thức (viết tắt là “Melinda”), chứa 5.371 bản ghi dữ liệu được dán nhãn, bao gồm 2.833 số liệu từ các bài báo y sinh với chú thích tương ứng. Ý tưởng này nhằm tìm hiểu xem các mô hình học máy hiện đại có thể quản lý các nghiên cứu tốt như con người hay không bằng cách sử dụng dữ liệu của Melinda như tiêu chuẩn để so sánh hiệu quả của chúng với con người.

Các hệ thống AI gặp những thách thức trong việc tự động xác định phương pháp nghiên cứu. Một trong số đó là nền tảng hình ảnh mô tả cho các khái niệm ngôn ngữ. Hầu hết các thuật toán đa phương thức phát hiện đối tượng dựa trên các khái niệm ngôn ngữ và hình ảnh. Tuy nhiên, việc này đòi hỏi thêm nỗ lực từ các chuyên gia và tốn kém hơn, do đó các hình ảnh khoa học thường thiếu chú thích thực địa.  Điều này làm ảnh hưởng đến hiệu suất của các mô hình vì chúng được đào tạo để học cách phân loại dựa trên các nhãn dán.

MELINDA

Với Melinda, mỗi dữ liệu đầu vào bao gồm một con số, chú thích liên quan và phương pháp thí nghiệm được trích từ cơ sở dữ liệu IntACt.  IntAct lưu trữ các nhãn phương pháp nghiên cứu được chú thích thủ công, cùng với số liệu và ID của nghiên cứu chứa số liệu đó.  Các bài báo – gồm tổng cộng 1.497 bài – đến từ Open Access PubMed Central, một kho lưu trữ các tạp chí khoa học đời sống miễn phí.

Các nhà nghiên cứu đã sử dụng Melinda để so sánh một số mô hình thị giác, ngôn ngữ và đa phương thức.  Cụ thể, họ đã xem xét các mô hình đơn phương thức lấy hình ảnh hoặc chú thích làm đầu vào và mô hình đa phương thức lấy cả hai loại dữ liệu.

Kết quả cho thấy, mặc dù các mô hình đa phương thức đã thể hiện tốt hơn các mô hình khác, chúng vẫn có thể phát triển hơn. Mô hình đa phương thức hoạt động tốt nhất, VL-BERT, đạt độ chính xác từ 66,49% đến 90,83% – khác xa so với độ chính xác 100% của con người.

Các nhà nghiên cứu hy vọng việc phát hành Melinda sẽ thúc đẩy những tiến bộ trong các mô hình đa phương thức, đặc biệt là trong các lĩnh vực mà tài nguyên dữ liệu còn ít và còn phụ thuộc vào các mô hình cần đào tạo bằng dữ liệu. Trong một bài báo, họ cho biết: “Tập dữ liệu Melinda có thể đóng vai trò là một môi trường thử nghiệm tốt để đo hiệu quả của mô hình AI. Việc nhận biết phương pháp nghiên cứu về cơ bản là đa phương thức (và đầy thách thức), đòi hỏi phải xem xét cả số liệu và chú thích.”

Theo VentureBeat

Tin liên quan: