Bộ dữ liệu này được thực hiện nhằm mục tiêu thúc đẩy việc nghiên cứu khoa học để chống lại đại dịch Corona.

Có gì mới? Các nhà nghiên cứu thuộc nhiều tổ chức khác nhau mới đây đã công bố Bộ dữ liệu Nghiên cứu Covid-19 Mở (CORD-19), gồm hơn 24.000 công trình nghiên cứu được tổng hợp từ các tạp chí bình duyệt, cũng như những nguồn như bioRxiv và medRxiv (website đăng tải các nghiên cứu sơ bộ, chưa qua bình duyệt). Các nghiên cứu này bao hàm SARS-CoV-2 (tên khoa học của virus Corona) Covid-19 (tên khoa học của dịch bệnh), cũng như toàn bộ chủng virus Corona. Đây là bộ dữ liệu lớn nhất về nghiên cứu khoa học có liên quan tới đại dịch đang hoành hành hiện nay, và sẽ tiếp tục cập nhật trên thời gian thực với các công trình nghiên cứu mới.

Bộ dữ liệu được hình thành như thế nào? Bộ dữ liệu nói trên được tổng hợp theo yêu cầu của Văn phòng Chính sách Khoa học và Công nghệ trực thuộc Nhà Trắng, Hoa Kỳ, và là sự kết hợp của 3 tổ chức. Trong đó, Thư viện Quốc gia về Dược học (NLM), thuộc Viện Sức khỏe Quốc gia đã cung cấp quyền truy cập các công trình nghiên cứu, Microsoft tận dụng thuật toán để tìm kiếm các bài viết có liên quan, còn tổ chức nghiên cứu phi lợi nhuận Viện Allen về Trí tuệ nhân tạo (AI2) đảm nhận việc chuyển đổi các trang web và tài liệu dưới dạng PDF thành dạng văn bản có cấu trúc, nhằm hỗ trợ thuật toán. Hiện nay, bộ dữ liệu đã được công khai trên trang web Semantic Scholar của AI2.

Đã hoàn thành đến đâu? Bộ dữ liệu hiện là một phần trong dịch vụ Semantic Scholar của AI2, một công cụ cho phép cộng đồng khoa học dễ dàng tìm kiếm các nghiên cứu và luận văn khoa học. Ngoài ra, AI2 cũng đã xử lý bộ dữ liệu này bằng các kỹ thuật trích xuất thông tin và phân tích được Viện sử dụng cho mọi nghiên cứu mới. Qua đó, các thông tin quan trọng như tên tác giả, phương thức thực hiện, dữ liệu, và trích dẫn sẽ được hiển thị rõ ràng, giúp các nhà khoa học có thể dễ dàng đánh giá đóng góp của từng công trình nghiên cứu.

Ngoài ra, các mô hình ngôn ngữ tiên tiến nhất như ELMo và BERT cũng được sử dụng để phát hiện các điểm tương đồng trong những nghiên cứu này. Công nghệ kể trên đã mở ra một công năng mới cho Semantic Scholar, giúp các nhà nghiên cứu có thể tạo một trang nghiên cứu được cá nhân hóa theo những lĩnh vực mà họ quan tâm.

Tại sao điều này lại quan trọng? Tốc độ là một yếu tố quan trọng trong việc nghiên cứu và tìm hiểu về cơ chế của virus Corona, nhằm hạn chế sự lây lan của virus này. Với bộ dữ liệu, các nhà khoa học sẽ có thể tổng hợp các nghiên cứu hiện hành, qua đó dễ dàng tìm kiếm những góc nhìn mới với sự hỗ trợ của thuật toán xử lý ngôn ngữ tự nhiên. Mới đây, OSTP đã kêu gọi các nhà nghiên cứu AI tiếp tục phát triển thêm những kỹ thuật về tìm kiếm và xử lý văn bản và dữ liệu, nhằm giúp cộng đồng y học nhanh chóng phân tích các thông tin và nghiên cứu liên quan.

Theo Technology Review

Tin liên quan: