Báo chí điện tử trong kỉ nguyên số

131

Trong mảng báo chí điện tử, Dữ liệu lớn (Big Data) được vận dụng để phân tích dữ liệu người đọc và nội dung xuất bản, từ đó tạo ra các tính năng mới giúp kết nối tốt nhất hai thành phần này. VnExpress – Báo điện tử số 1 Việt Nam hiện đang đi đầu trong việc ứng dụng công nghệ Big Data nâng cao trải nghiệm của khách hàng và hiệu suất của toà soạn.

Big Data – Công nghệ mang lại đột phá

Khoảng đầu năm 2014, Big Data là một xu hướng công nghệ được quan tâm và tin tưởng sẽ tạo ra nhiều cơ hội mới cho các công ty trong lĩnh vực truyền thông số. Công nghệ này được kì vọng mang đến các tính năng đột phá trong ngành báo chí điện tử, có thể kể đến như: cá nhân hóa cho người đọc, tự động hóa sản xuất nội dung, tự động sắp xếp nội dung, tối đa hóa hiệu quả quảng cáo, hiểu sâu về người dùng và nhiều tiện ích khác. Trong đó, Big Data được định nghĩa đơn giản bằng 4 yếu tố, gồm:

  • Volume – độ lớn của dữ liệu;
  • Velocity – tốc độ xử lý dữ liệu;
  • Variety – sự đa dạng của dữ liệu;
  • Value – giá trị mang lại của dữ liệu.

Dữ liệu – yếu tố quan trọng nhất của Big Data, được thu thập từ nhiều nguồn khác nhau: nội bộ trong cơ sở dữ liệu của doanh nghiệp, các kênh thông tin, mạng xã hội hoặc dữ liệu khách hàng cung cấp… Theo thời gian, lượng lưu trữ của Big Data tăng trưởng nhanh chóng lên đến các số terabyte, petabytes, zettabytes hoặc nhiều hơn nữa tùy theo quy mô của doanh nghiệp. Do đó việc tổ chức hoặc lựa chọn giải pháp lưu trữ ở mỗi doanh nghiệp là một chiến lược khá quan trọng khi bắt đầu vận dụng Big Data.

Hình 1: Định nghĩa Big Data bằng 4 yếu tố: Volum, Velocity, Variety, Value

Thông thường, các dữ liệu thu thập được phân thành hai dạng cơ bản: dữ liệu có cấu trúc và dữ liệu không có cấu trúc. Dữ liệu có cấu trúc gồm các dạng dữ liệu được định nghĩa sẵn theo mô hình doanh nghiệp, loại giao dịch, log data… Dữ liệu không có cấu trúc – chiếm 80% dữ liệu của Big Data, gồm: video, audio, email, phản hồi từ mạng xã hội và các dạng khác. Khối lượng khổng lồ dạng dữ liệu này là một thách thức lớn cho đội ngũ xử lý dữ liệu trong việc phân tách các dữ liệu hữu ích.

Cơ hội lớn cho VnExpress

Mỗi giây, VnExpress thu thập trên 1 MB dữ liệu từ tất cả các hoạt động trực tuyến trên các dịch vụ bao gồm nội dung, quảng cáo, các giao dịch phát sinh. Để có thể sử dụng tốt lượng dữ liệu này, Trung tâm kỹ thuật VnExpress đã áp dụng Big Data vào hoạt động nghiên cứu và đưa ra bốn giải pháp tối ưu mang đến những trải nghiệm tốt nhất cho người dùng và đội ngũ biên tập:

  • Hệ thống khuyến nghị;
  • Cá nhân hoá;
  • Tự động hoá sản xuất nội dung;
  • Hệ thống giám sát hiệu năng.

Hệ thống khuyến nghị

Khi độc giả theo dõi một nội dung bất kì trên hệ thống VnExpress, hệ thống sẽ phân tích và đưa ra xu hướng mà độc giả đó có thể đang quan tâm, dựa vào các yếu tố như: nội dung bài viết, hashtag, chủ đề, tiêu đề bài viết, thời gian xuất bản. Trong năm 2017, Trung tâm kỹ thuật của VnExpress đã nghiên cứu và áp dụng thành công hệ thống khuyến nghị trong hoạt động xuất bản báo chí, bước đầu ghi nhận tỷ lệ nhấp chuột vào đường dẫn của độc giả đạt từ 15-20%.

Hình 2: Hình thức recommendation được áp dụng trong cả hình thức bài viết chữ và video

Trong tương lai, mục tiêu của cả đội là chỉ cần dựa vào nội dung trong bài viết mà không cần các yếu tố phụ trợ như Graph Database (Neo4j), Caching (Redis), Python, hệ thống vẫn đưa ra được các gợi ý cho chính biên tập viên trong quá trình soạn thảo nội dung qua hệ thống quản trị nội dung (Content Management System – CMS), giúp cho việc đưa ra các nội dung được chính xác theo đúng nhu cầu của tòa soạn.

Cá nhân hóa người dùng

Với dữ liệu của hơn 16 năm thu thập, trung tâm kỹ thuật đã tiến hành nghiên cứu, phân tích để có được hình ảnh của từng đối tượng độc giả: giới tính, sở thích, hoạt động, chuyên mục ưa thích… Dựa trên dữ liệu phân tích đó, nội dung trang chủ, trang chuyên mục cũng như các thành phần nội dung khác bên cạnh bài viết chi tiết sẽ được hiển thị khác nhau ứng với từng độc giả. Việc triển khai này sẽ được ứng dụng với cả phiên bản duyệt web trên máy tính cũng như bản ứng dụng dành cho điện thoại (Android và iOS).

Tự động hóa sản xuất nội dung

Tự động hóa trong hoạt động sản xuất nội dung là mục tiêu trong ba năm tới của hệ thống CMS VnExpress. Tự động gợi ý hastag, chủ đề liên quan, tin liên quan sau khi biên tập viên hoàn thành bài viết hay cao hơn là tự động tổng hợp thành một bài viết hoàn chỉnh dựa trên nguồn dữ liệu thu thập được là những tính năng mà CMS VnExpress đang hướng tới.

Vấn đề khó khăn trong việc triển khai các tính năng này đó là: Xử lý ngôn ngữ tự nhiên (Tiếng Việt) và sự tương thích đối với các quy chuẩn báo chí mà VnExpress đang tuân thủ.

Hệ thống giám sát hiệu năng

Hệ thống báo VnExpress với số lượng người dùng truy cập rất lớn và đồng thời cũng chịu nhiều cuộc tấn công liên tục. Để hỗ trợ và theo dõi phát hiện thông tin các cuộc tấn công thì đòi hỏi phải xây dựng một hệ thống tìm kiếm và phân tích theo thời gian thực cho dữ liệu ở tầm cỡ lớn với tốc độ cực kỳ nhanh chóng để giúp đội ngũ kỹ thuật vận hành và đảm bảo hệ thống VnExpress ổn định.

Hệ thống giám sát hiệu năng (Application Performance Monitoring – APM) là hệ thống tổ hợp nhiều chức năng giám sát, với những tính năng nổi trội như:

  • Hệ thống cảnh báo lỗi;
  • Theo dõi lượng người dùng trên toàn hệ thống;
  • Theo dõi lượng kết vào các server và tự động ngăn chặn nếu có hiện tượng DDOS;
  • Hệ thống giám sát thời gian truy cập VnExpress từ các địa điểm, ISP giúp việc phát hiện và xử lý lỗi được nhanh chóng.
Hình 3: Các tính năng của hệ thống APM

Trong hệ thống, Big Data đảm nhiệm nhiệm vụ thu thập toàn bộ các dữ liệu log, các chỉ số hệ thống, hành vi trải nghiệm của người dùng theo thời gian thực. Từ đó, vận dụng các thuật toán để rút trích các dữ liệu cần thiết phục vụ cho việc giám sát hệ thống. Việc nhìn thấy rõ bức tranh của toàn hệ thống hỗ trợ người quản trị trong việc nâng cấp, mở rộng, xử lý các sự cố phát sinh.

Hình 4: Mô hình hoạt động của hệ thống APM – VnExpress

Hiện nay, mỗi ngày hệ thống APM của VnExpress xử lý lượng dữ liệu log trên 100 triệu row, lượng CCU hệ thống sinh ra log lên tới khoảng tầm 100.000-200.000/giây. Định hướng của trung tâm kỹ thuật VnExpress trong thời gian tới sẽ xây dựng hệ thống tự động xử lý sự cố dựa trên data được rút trích và phân tích này.

                Thông tin về tác giả:

Trung tâm kĩ thuật FPT Online

 

Trung tâm kỹ thuật VnExpress hiện có hơn 80 thành viên và bốn đơn vị chức năng. Trung tâm kỹ thuật đóng vai trò quản lý, vận hành và phát triển hệ thống báo chí trực tuyến, hệ thống quảng cáo cũng như tất cả các hệ thống kỹ thuật của FPT Online. Bộ phận R&D tập trung vào nghiên cứu và phát triển công nghệ mới, đưa ứng dụng sản phẩm tới nhóm phát triển, nhóm Giải pháp kỹ thuật sẽ kiến trúc thiết kế phù hợp với Nền tảng cốt lõi.

(Bài viết được đăng trên Đặc san công nghệ FPT TechInsight No.2)