Wikimedia đã sử dụng học máy để phát hiện ra trích dẫn thiếu như thế nào?

74

Một trong những ứng dụng tuyệt vời của AI đó là tự động hóa các tác vụ quan trọng mà con người không muốn hoặc không thể làm. Với Wikipedia, công ty phải đối mặt với những thách thức về việc trích dẫn và đã sử dụng công nghệ học máy để giải quyết vấn đề này.

Các nhà nghiên cứu tại Wikimedia đang sử dụng công nghệ học máy để dự đoán liệu có cần không, cũng như tại sao bất kỳ câu nào trên Wikipedia lại cần một trích dẫn. Việc làm này sẽ hỗ trợ các biên tập viên xác định phạm vi của nội dung vi phạm chính sách về kiểm chứng.

Wikimedia là gì?

Wikimedia là một tổ chức phi lợi nhuận duy trì một trong các wiki lớn nhất trên Internet, nổi tiếng nhất trong số đó là Wikipedia. Mục tiêu của Wikimedia là cung cấp các thông tin tự do cho mọi người trên thế giới. Có 16 wiki được duy trì bởi Wikimedia, mỗi wiki lại có nhiều phiên bản ngôn ngữ khác nhau.

  Một trong những cơ chế quan trọng cho phép Wikipedia duy trì chất lượng trên trang của mình là sử dụng các trích dẫn. Thông qua các trích dẫn, độc giả và biên tập viên có thể đảm bảo rằng thông tin trong một bài viết phản ánh chính xác nguồn được trích dẫn.

Tuy nhiên, quyết định câu nào cần trích dẫn có thể không phải là một nhiệm vụ đơn giản. Một mặt, các biên tập viên được khuyến khích để tránh thêm trích dẫn cho thông tin vốn rõ ràng hoặc là kiến thức phổ biến (Ví dụ: bầu trời có màu xanh). Mặt khác, đôi khi bầu trời không thực sự có màu xanh, vì vậy có lẽ chúng ta cần một trích dẫn cho điều đó hay không? Khi nhìn rộng ra trên toàn trang từ điển Wikipedia thì đây là một vấn đề thực sự khó khăn.

Với nguồn nội dung được đóng góp từ nguồn cộng đồng, các trích dẫn đóng vai trò quan trọng trong việc tạo ra sự chính xác và tin cậy trong một biển các bài báo trên trang này. Tuy nhiên, theo một tin đăng trên blog của Tổ chức WikiMedia (WikiMedia Foundation), có khoảng 25% các bài báo tiếng Anh trên Wikipedia thiếu trích dẫn. Người viết blog này nhận định: “Điều này cho thấy có khoảng 350.000 bài báo có một hoặc nhiều chi tiết “cần trích dẫn”, chúng ta có thể còn thiếu nhiều hơn.”

Sự cần thiết của việc trích dẫn

Bất kì ai ghé thăm trang Wikipedia đều thấy rằng nếu có nhiều trích dẫn hơn thì ta sẽ thấy trang đó có ích hơn, đặc biệt chính sách kiểm chứng quy định rằng: “Mọi câu trích dẫn và các tài liệu trong đó tính kiểm chứng bị hoài nghi thì phải thêm vào một dòng trích dẫn giải thích cho tài liệu.”

Trong một bài phỏng vấn qua email, Jonathan Morgan, Nhà cứu cứu Thiết kế cấp cao và là đồng tác giả của nghiên cứu “Sự cần thiết của trích dẫn” tại Wikimedia, chia sẻ: “Các trích dẫn không chỉ cho phép độc giả của Wikipedia và biên tập viên kiểm tra thông tin một cách nhanh chóng mà còn chỉ ra xuất phát điểm cho những người muốn tìm hiểu sâu hơn về một chủ đề.”

Mặc dù vậy thách thức của Wikipedia không chỉ đơn thuần là bổ sung thêm nhiều trích dẫn, đó là việc hiểu mình cần các trích dẫn ở đâu ngay từ khi bắt đầu. Đó là một quá trình không hề dễ dàng. Wikimedia đã xây dựng giải pháp hai lớp. Bước một, xây dựng khung để hiểu được nơi trích dẫn cần đặt ở đâu và xây dựng tập dữ liệu. Bước hai, huấn luyện mô hình phân loại học máy để rà soát và đánh dấu những hạng mục đó trên hàng trăm nghìn bài báo của Wikipedia.

Họ đạt được điều đó như thế nào?

Một danh sách 36 biên tập viên người Anh, Ý, Pháp được đưa cho một mẫu văn bản và yêu cầu chỉ ra một tập hợp các lí do tại sao cần một trích dẫn và lí do tại sao không cần. Ví dụ, nếu như nhận định gồm thống kê hoặc dữ liệu, hoặc nhận định gồm các công bố liên quan tới kĩ thuật, khoa học thì bạn sẽ cần một trích dẫn. Nếu nhận định chỉ bao gồm các tri thức chung hoặc nhận định về kịch bản hoặc nhân vật trong sách/phim là chủ đề chính của bài báo thì bạn sẽ không cần làm như vậy.

Với những hướng dẫn này, các nhà nghiên cứu của Wikimedia đã xây dựng một tập hợp dữ liệu để từ đó huấn luyện mạng nơ-ron hồi quy (recurrent neural network). Trên blog, các nhà nghiên cứu chia sẻ: “Chúng tôi đã tạo ra một tập hợp dữ liệu của Wikipedia tiếng Anh, các bài viết nổi bật của Wikipedia bản tiếng Anh (tên gọi của bách khoa toàn thư này dành cho các bài viết có chất lượng cao nhất và cũng có nguồn gốc trích dẫn tốt nhất). Việc thiết lập huấn luyện này khá đơn giản: Khi một dòng trong một bài viết nổi bật có một trích dẫn, nó được đánh dấu là “dương”, và một dòng không có trích dẫn là “âm”. Sau đó, dựa trên một chuỗi từ trong một câu nhất định, RNN đã có thể phân loại nhu cầu trích dẫn với độ chính xác 90%, theo Wikimedia.

Giải thích việc dự đoán thuật toán

Tại sao mô hình này lại có độ chính xác là 90%? Thuật toán này sẽ xử lý như thế nào khi quyết định liệu một câu có cần trích dẫn hay không?

Các nhà nghiên cứu đã lấy một mẫu các câu cần trích dẫn với các lí do khác nhau, nhấn vào các từ mà mô hình chú ý nhất khi phân loại câu. Trong trường hợp các nhận định với ý kiến chủ quan, mô hình sẽ gán trọng số cao đối với những từ như là “khiếu nại”. Đối với những lí do trích dẫn mang tính “thống kê”, từ quan trọng nhất trong mô hình là các động từ thường được sử dụng trong báo cáo số liệu (Ví dụ như là “ước tính” với lí do trích dẫn khoa học thì mô hình lại chú ý tới các từ theo ngành hẹp, ví dụ như “lượng tử”.

Các từ bị đánh dấu tại Wikimedia 

Tiến xa hơn một bước, các nhà nghiên cứu tại Wikimedia đã tạo ra một mô hình thứ hai có thể bổ sung lý do vào các phân loại trích dẫn. Bằng cách sử dụng Mechanical Turk của Amazon, họ đã thu hút được nhân lực cho công việc này và đưa cho các tình nguyện viên khoảng 4.000 câu có trích dẫn. Những người tham gia được yêu cầu áp dụng một trong tám nhãn, như “lịch sử” hoặc “ý kiến” để từ đó chỉ ra lý do tại sao cần phải trích dẫn. Các nhà nghiên cứu phát hiện ra rằng các câu có xu hướng cần nhiều trích dẫn hơn khi chúng có liên quan tới ngạch khoa học, lịch sử hoặc khi chúng có các trích dẫn trực tiếp/gián tiếp.

Với dữ liệu đó trong tay, các nhà nghiên cứu đã sửa đổi mạng nơ-ron hồi quy (RNN) của họ để nó gán một câu không có nguồn trích dẫn thành một trong tám loại được dán nhãn đó. Nói một cách khác, các nhà nghiên cứu đã huấn luyện lại RNN sử dụng các dữ liệu được dán nhãn thu thập được. Họ thu được độ chính xác đáng kể (mức chính xác 62%) trong việc dự đoán lí do trích dẫn, đặc biệt đối với việc phân lớp lượng dữ liệu được huấn luyện lớn.

Còn gì đang chờ đợi phía trước?

Cho đến nay, mô hình này chỉ được huấn luyện cho nội dung Wikipedia tiếng Anh nhưng Wikimedia đang nỗ lực mở rộng nó sang nhiều ngôn ngữ khác trong giai đoạn sau của dự án. Tuy nhiên vẫn còn nhiều thách thức tiềm tàng bởi các ngôn ngữ có cấu trúc khác biệt so với tiếng Anh. Miriam Redi, nhà khoa học nghiên cứu tại Wikimedia Foundation và là tác giả chính của bài báo cho biết: “Chúng tôi không phải làm lại từ đầu nhưng số lượng đầu việc có thể thay đổi theo ngôn ngữ. Để huấn luyện các mô hình, chúng tôi sử dụng các ‘vectơ từ’, cụ thể là đặc điểm ngôn ngữ của văn bản và cấu trúc bài viết. Những vectơ từ này có thể dễ dàng được trích xuất từ văn bản của bất kỳ ngôn ngữ nào có trong Wikipedia.”

Bà nói thêm rằng trong một số trường hợp, họ sẽ cần phải thu thập các mẫu mới từ các “bài báo nổi bật” và phải dựa vào các biên tập viên Wikipedia, những người làm việc với các ngôn ngữ đó. Morgan nói thêm rằng họ có các quy trình để dịch các từ tiếng Anh mà họ cho rằng có liên hệ đến các câu có khả năng cần trích dẫn sang các ngôn ngữ khác.

Ngay cả khi có sự hỗ trợ của AI, phần lớn công việc sẽ dồn lên vai một nhóm các biên tập viên Wikipedia. Và khi đánh dấu (flag) ra các câu nào nghi ngờ thì cũng khó làm cùng một lúc với số lượng nhiều. Nhưng ít nhất, bây giờ họ biết phải bắt đầu từ đâu.

Các nhà nghiên cứu tin rằng AI có thể giúp các biên tập viên Wikipedia hiểu ở đâu và tại sao thông tin cần được xác minh, giúp người đọc thấy nội dung nào đặc biệt đáng tin cậy. Khi mã lập trình được mở ra ngoài, họ hi vọng nó sẽ khuyến khích các nhà phát triển phần mềm tạo ra nhiều công cụ có thể tăng chất lượng bài viết Wikipedia.

Nhưng việc này có ý nghĩa còn lớn hơn như vậy, Morgan nói: “Ngoài các dự án trên Wikimedia, chúng tôi hy vọng rằng các nhà nghiên cứu khác (như thành viên của Liên minh Tín dụng) sẽ sử dụng mã lập trình và dữ liệu của chúng tôi để phát triển các công cụ phát hiện khiếu nại tại các báo trực tuyến và nguồn tin khác cần phải phải có bằng chứng bảo đảm”.

Source: (Wikimedia Blog, Venturebeats, Wikipedia)

Tin liên quan:
  • 20
    Shares