Tuần qua, hội thảo công nghệ trực tuyến Solution Forum #66 do Ban Giải pháp & Công nghệ FPT Software tổ chức đã có những thảo luận sôi nổi từ cộng đồng xoay quanh phương pháp tiếp cận, nghiên cứu, ứng dụng giải pháp phát hiện vi phạm bản quyền cho hệ thống báo điện tử VnExpress.   

Diễn giả của sự kiện là anh Lưu Xuân Việt – Quản lý các dự án DX tại FPT Online. Theo anh, Hệ thống phát hiện vi phạm bản quyền (License Checking System) là một trong những dự án Chuyển đổi số (DX) tiêu biểu đã mang lại hiệu quả đặc biệt cho FPT Online trong suốt quý I/2020, cùng với đó là những tiềm năng về việc phát triển mô hình kinh doanh mới.

Phần trình bày của diễn giả tại Hội thảo.

Tại hội thảo, anh Việt chia sẻ những thách thức đối với bộ phận kiểm tra vi phạm bản quyền – vấn đề nhức nhối của VnExpress cũng như nhiều tờ báo điện tử khác.

Trước đây, nhân sự phụ trách kiểm tra vi phạm bản quyền phải thức hiện bằng cách thủ công, đó là copy nội dung bài báo lên Google Search, tìm kiếm những nội dung tương tự, chụp ảnh màn hình lưu vào file excel. Cách làm này ngày càng bộc lộ nhiều hạn chế:

  • Số lượng các site Google cung cấp là vô cùng lớn, trung bình mỗi ngày tờ báo chỉ kiểm tra được 200-300 site/bài.
  • Không có khả năng kiểm tra toàn diện tất cả các bài báo mà chỉ có thể kiểm tra bài mới nhất.
  • Tốn nhiều thời gian và nhân lực nhưng độ chính xác vẫn thấp. Lưu trữ trên file excel khiến việc thống kê số liệu gặp khó khăn.

Từ những “pain points” này, đội ngũ R&D thuộc FPT Online đã dày công nghiên cứu, xây dựng hệ thống tự động phát hiện việc sử dụng bất hợp pháp nội dung của VnExpress trên các đơn vị báo chí, truyền thông khác, ứng dụng Trí tuệ nhân tạo vào kiểm tra nội dung text và hình ảnh.

Để so sánh độ tương đồng của hình ảnh, các chuyên gia sử dụng thuật toán: CNN, HASH, Faiss. Đối với việc phát hiện độ tương đồng của nội dung bài báo, thuật toán Cosine, Jaccard,… sẽ phát huy tác dụng một cách tối đa. Anh Lưu Xuân Việt cho biết, các thuật toán được lựa chọn có ưu điểm là tốc độ kiểm tra nhanh, lưu trữ dữ liệu tốt và có thể xử lý được cả trường hợp đặc trưng ảnh bị thay đổi.

Mô hình thuật toán so sánh hình ảnh.
Mô hình của thuật toán so sánh text.

Cụ thể, nội dung text đầu vào sẽ được phân tích thành từng đoạn và loại bỏ những kí tự đặc biệt, sau đó hệ thống sẽ tự động mã hóa và “nhúng” các dữ liệu này để so sánh số câu vi phạm với tổng số câu trong bài. Phụ thuộc vào số điểm trên bộ tiêu chí lọc để đánh giá mức độ vi phạm và đưa ra cách thức xử lý.

Ngay khi nhận diện được vi phạm, cơ chế hoạt động của hệ thống sẽ tự động phát đi cảnh báo thông qua Telegram đến các bên liên quan để tiếp tục theo dõi và xử lý.

Khởi động từ tháng 2/2020, sau 6 tháng triển khai, giải pháp đã hoàn thiện và được đưa vào vận hành. Kết quả thu được bước đầu đem lại những tín hiệu khả quan khi hệ thống có thể quét tự động 104 site thường sao chép nội dung của tờ báo. Bên cạnh đó, License Checking System còn sở hữu hệ thống monitor real-time với đầy đủ chức năng, hoàn thiện bộ tiêu chí lọc các mức độ vi phạm và có thể xuất báo cáo theo yêu cầu. Đặc biệt, 100% cảnh báo vi phạm đều thực hiện tự động thông qua Telegram, hiển thị một cách chi tiết và cụ thể.

License Checking System được đánh giá là một dự án đầy tiềm năng bởi những lợi ích mà nó đem đến không chỉ dừng lại ở việc phát hiện lỗi vi phạm bản quyền. Với khả năng vận hành xuất sắc, hệ thống có thể đáp ứng được tất cả các yêu cầu truy xuất nguồn gốc một cách đầy đủ và tự động. Bên cạnh đó, đội dự án kỳ vọng xây dựng một mô hình kinh doanh mới bằng việc hợp tác, kinh doanh dịch vụ kiểm tra bản quyền cho các cơ quan báo chí, truyền thông khác, mục tiêu đạt doanh thu kỳ vọng là 2 tỷ/năm.

Hiện tại, giao diện License Checking System sở hữu các chức năng chính gồm:

  • Realtime Staristics: Thống kê và cho phép trích xuất các thông tin vi phạm theo thời gian thực
  • Historical: Phân loại các trang vi phạm theo ngày, tháng, có thể điều chỉnh theo nhu cầu của người dùng.
  • Process: Phân tích thời gian phát hiện và xử lý vi phạm của từng bài báo
  • Infringed Articles: Tổng hợp tất cả thông tin vi phạm trên các sites
  • Setting: Chọn/bỏ các site cần theo dõi hoặc cảnh báo các site đang tạm dừng hoạt động do vấn đề về kỹ thuật
  • Debug: Kiểm tra mức độ vi phạm của từng bài, từng đoạn text trong bài
Tại sự kiện, diễn giả trực tiếp demo giao diện của hệ thống.

Trả lời câu hỏi của khán giả về việc “giải pháp có phát hiện được trường hợp xóa watermark không?”, anh Lưu Xuân Việt khẳng định AI hoàn toàn có thể làm được. Thậm chí còn có thể phát hiện những hình ảnh đã được cắt xóa, chỉnh màu, chèn watermark khác dựa trên so sánh số điểm chung và tỉ lệ điểm ảnh. Đối với trường hợp sao chép nội dung, sau đó sắp xếp, thay đổi thứ tự câu/đoạn văn trong bài, hệ thống vẫn có thể nhận diện và phát đi cảnh báo đến đội ngũ xử lý.

Hội thảo diễn ra sôi nổi với rất nhiều câu hỏi chuyên sâu về công nghệ, kỹ thuật, nổi bật trong số đó là các test case cụ thể, data flow, các thuật toán, cơ sở hạ tầng và cách vận hành hệ thống. Phần Q&A còn mở ra thảo luận về việc vi phạm video/audio, vi phạm bản quyền trên mạng xã hội. Anh Việt chia sẻ, đây cũng là những “nhức nhối” mà đội ngũ R&D FPT Online sẽ tiếp tục nghiên cứu và cải tiến cho hệ thống.

Lần thứ 66 tổ chức, Solution Forum ngày càng cho thấy sự đầu tư kỹ lưỡng từ nội dung đến hậu cần của Ban tổ chức, các diễn giả đều có kinh nghiệm và chuyên môn cao, người tham gia có thể nắm bắt những vấn đề thực tiễn và khám phá các công nghệ mới.

Thảo My

Tin liên quan: