Giới thiệu

Trong digital advertising, các mô hình machine learning với tác dụng dự đoán tương tác người dùng trên quảng cáo sẽ liên tục được huấn luyện bằng dữ liệu trên thời gian thực. Điều này là cần thiết, bởi lẽ các yếu tố như đặc điểm khán giả, các ads (quảng cáo) và người dùng mới, đều thay đổi liên tục theo thời gian, từ đó làm giảm độ mới của mô hình. Tuy nhiên, thông thường sẽ xuất hiện một khoảng trễ giữa thời gian lên ads và thời gian người dùng bắt đầu tương tác với ads, và do vậy việc xây dựng một bộ dữ liệu đặc trưng về tương tác với ads là khá khó khăn.

Ở trường hợp của Twitter, khi người dùng tải lại dòng thời gian, họ sẽ được tiếp cận với cả nội dung gốc và nội dung được quảng cáo. Trong đó, những quảng cáo này sẽ được cho vào bộ dữ liệu huấn luyện mô hình tại thời điểm lên, mặc dù lúc này chưa hề có tương tác với chúng. Và chỉ sau 1 thời gian, thì người dùng mới thực sự tiếp cận được ads.

Bảng phân bố thời gian trễ giữa thời gian khi lên ads và khi ads được tương tác (chỉ tính trường hợp lâu hơn 5 phút). Tương quan với phân bố sau khi đã chỉnh lại CDF của phân bố kiểm duyệt.

Tại thời điểm lên ads, các quảng cáo này có thể bị đánh nhãn âm (không tương tác), hoặc không được đánh nhãn cho tới khi có tương tác từ người dùng, từ đó chuyển thành nhãn dương. Trong đó, trường hợp lên nhãn âm sẽ làm loãng bộ dữ liệu huấn luyện bằng những ví dụ sai về không tương tác, do những quảng cáo này sẽ vẫn có thể thu hút người dùng sau khi bị đánh nhãn. Trong khi đó, nếu nhãn được đánh trễ, thì ta sẽ cần thường xuyên cập nhật chúng, khiến tăng chi phí về cơ sở hạ tầng khi áp dụng trên quy mô lớn, cũng như tăng khả năng làm cũ mô hình.

Vì vậy, nhằm tạo ra một mô hình có thể thành công học từ các luồng dữ liệu đánh nhãn trễ, thì một đội ngũ các nhà nghiên cứu và kỹ sư tại Twitter đã khám phá ra nhiều cách tiếp cận khác nhau, trong môi trường sản xuất quy mô lớn, đồng thời quan sát các cải thiện đáng kể về mặt thống kê trong mô hình cũng như trong hiệu quả doanh thu khi so với chiến thuật cơ sở về hàm log loss đơn giản.

“Đội ngũ ads liên tục huấn luyện mô hình bằng những dữ liệu mới nhất để tích hợp các yếu tố về mùa vụ, thay đổi trong chiến dịch quảng cáo, cũng như nhiều vấn đề khác. Tuy nhiên, phản hồi của người dùng (tức lượt nhấn vào ads) thường bị trễ, dẫn tới nhãn không được hoàn thiện vào thời điểm chuyển tới mô hình. Khi gặp vấn đề này, cách giải quyết đơn giản nhất là coi mọi dữ liệu trễ thành âm, song nó lại giảm tỷ lệ tương tác so với thực tế. Điều này sẽ khiến người dùng phải tiêu thụ nhiều quảng cáo hơn, trong khi các nhà quảng cáo lại phải trả chi phí cao hơn,” Sofia Ira Ktena, Trưởng tác giả của nghiên cứu Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction (Giải quyết vấn đề phản hồi trễ cho huấn luyện mạng nơ-ron liên tục trong dự đoán CTR) chia sẻ. Nghiên cứu này đã được công bố vào hồi tháng 9, tại RecSys 2019.

Quy trình

Đội ngũ đã nghiên cứu 2 kiến trúc mô hình khác nhau, cùng 5 hàm loss, để từ đó xác định xem đâu là sự kết hợp hiệu quả nhất. Cụ thể, họ đã thử nghiệm một mô hình hồi quy logistic cơ bản, trước đó đã có tiền lệ thành công cao trên quảng cáo trực tuyến, cũng như trên một kiến trúc rộng và sâu, với khả năng tăng độ phức tạp của mô hình theo tỷ lệ thuận với độ trễ. Tuy nhiên trong use case về ads này, thì việc hạn chế tối đa độ trễ là một yêu cầu bắt buộc trong huấn luyện trực tuyến liên tục.

Hai kiến trúc mô hình nói trên đã được ghép với 5 hàm loss, mỗi hàm lại sử dụng các phương thức khác nhau để ước tính chi phí cơ hội khi xảy ra dự đoán sai. Trong trường hợp ads display, thì chi phí cơ hội biểu thị cho doanh thu được kỳ vọng ở một ads khác, mà có thể được tương tác thay cho ads hiện tại. Ngoài ra, các hàm loss sẽ dựa trên phương pháp lấy mẫu quan trọng – tức mô phỏng lại các ví dụ từ một bộ dữ liệu có độ lệch được biết trước, cũng như khả năng học trên các dữ liệu dương chưa có nhãn, còn một hàm loss cơ sở sẽ sử dụng mô hình tương quan về thời gian để thay đổi các dự đoán. Các hàm loss được sử dụng bao gồm:

  • Loss Log;
  • Loss phản hồi trễ;
  • Loss dương không đánh nhãn;
  • Loss âm giả có trọng số;
  • Loss âm giả có hiệu chuẩn.

Đây cũng là nghiên cứu đầu tiên sử dụng tới hàm loss âm giả có trọng số và loss âm giả có hiệu chuẩn. Trong đó, hàm có trọng số sẽ sử dụng mô hình để ước tính các trọng số quan trọng, còn hàm có hiệu chuẩn sẽ không làm thay đổi trọng số huấn luyện, mà thay vào đó hiệu chuẩn đầu ra của mô hình, nhằm chỉnh lại độ chệch của các nhãn âm.

Nhằm giảm nguy cơ, đồng thời tăng lợi ích mang lại bởi mỗi biện pháp, đội ngũ nghiên cứu đã thực hiện phân tích ngoại tuyến trên các dữ liệu Twitter có từ trước, cũng như một bộ dữ liệu công khai tới từ Criteo Labs. Kết hợp cho hiệu quả tốt nhất sau đó sẽ được thử nghiệm trực tuyến trên nền tảng thị trường ads của Twitter ở thời gian thực.

Kết quả

Trong phân tích ngoại tuyến, mức độ hiệu quả được đo lường bằng 3 thông số chính sau:

  • Loss Log: Một thang đo tổng lỗi sai trong các bài toán phân lại. Loss Log sẽ tăng khi các xác suất được dự đoán bị lệch so với nhãn thực tế.
  • Relative Cross Entropy (RCE): Một thang đo biểu thị hiệu quả của dự đoán lượt click so với bù nhìn trong dự đoán đơn giản (trường hợp không sử dụng ad hay đặc điểm người dùng nào trong mô hình).
  • Area Under Precision Recall Curve (PR-AUC): Thang đo biểu thị đánh đổi hiệu quả giữa tỷ lệ dương thực và giá trị dự đoán dương trên các ngưỡng thành công khác nhau. Độ chính xác được tính theo công thức TP/(TP + FP) còn Gọi lại thì tính theo công thức TP/(TP + FN).

Bảng dưới đây sẽ biểu thị kết quả trực tuyến của mô hình rộng và sâu, cũng như các hàm loss hiệu quả nhất dựa trên dữ liệu từ Twitter. Trong đó, các giá trị in đậm biểu thị hiệu quả cao nhất, còn chênh lệch giữa các hiệu quả cao nhất và cao thứ hai là không quan trọng về mặt thống kê.

Rộng và sâu – Dữ liệu từ Twitter

Hàm loss Mất mát RCE PR-AUC
Loss Log 0.5953 7.81 0.5872
Loss phản hồi trễ 0.5781 12.11 0.5781
Loss dương không đánh nhãn 0.5567 13.57 0.5927
Loss âm giả có trọng số 0.5568 13.54 0.5925
Losst âm giả có hiệu chỉnh 0.5566 13.58 0.5923

Còn trong thử nghiệm trực tuyến sử dụng traffic trên thời gian thực, thì độ thành công của kết hợp lại được đo bằng 3 thang đó khác, đó là:

  • RCE chung: RCE được tổng hợp từ traffic
  • Doanh thu (RPMq*): Doanh thu trung bình trên khối lượng ads
  • Tỷ lệ Click được thương mại (CTR thương mại): Tỷ lệ tương tác, giúp đo độ phù hợp của ads

*RPMq = Doanh thu trên mỗi 1000 yêu cầu

Bảng dưới đây sẽ biểu thị kết quả trực tuyến của mô hình rộng và sâu, cũng như các hàm mất mát hiệu quả nhất dựa trên dữ liệu từ Twitter.

Rộng và sâu – Thử nghiệm trực tuyến

Hàm loss RCE chung RPMq CTR thương mại
Loss Log 7.68 100.00 100.00
Loss phản hồi trễ 12.27 137.00 118.59
Loss âm giả có trọng số 13.39 155.10 123.01
Loss âm giả có hiệu chỉnh 13.37 154.37 123.19

Thông qua các thang đo độ hiệu quả này, đội ngũ nghiên cứu đã phát hiện rằng, hai hàm loss âm giả có trọng số và loss âm giả có hiệu chỉnh cho hiệu quả cao nhất khi học liên tục, vượt xa hàm loss cơ sở log. Để biết kết quả chi tiết, độc giả có thể xem tại nghiên cứu gốc.

Kết luận

Đội ngũ nghiên cứu đã thành công triển khai kỹ thuật loss âm giả có trọng số trên hệ thống sản xuất ad của Twitter – một nền tảng sử dụng deep learning liên tục. Họ cũng đồng thời mong muốn được tiếp tục thử cải thiện các hàm loss này, nhằm đạt hiệu quả mô hình cao hơn nữa.

Đội ngũ Revenue Science là độ ngũ ML chính phía sau cơ chế doanh thu của Twitter. Nhiệm vụ của đội ngũ này là gây dựng giá trị cho nhà quảng cáo cũng như người dùng thông qua trung gian là digital advertising trực tuyến. Họ kết hợp các thông tin về người dùng cũng như về ad, qua đó kết nối người dùng tới các ads phù hợp nhất, cũng như xác định chi phí cho các nhà quảng cáo.

Còn đội ngũ Cortex của Twitter lại mong muốn thúc đẩy ML một cách hiệu quả, thông qua việc cung cấp chuyên môn về nền tảng và mô hình, cũng như kết nối, giáo dục và thúc đẩy các phát triển tiên tiến về công nghệ ML trong mạng xã hội này.

Lời cảm ơn

Nghiên cứu này được viết bởi Sofia Ira Ktena, Aly Tejani, Lucas Theis, Pranay Kumar Myana, Deepak Dilipkumar, Ferenc Huszar, Steven Yoo, và Wenzhe Shi.

Theo Justina Chen

Tin liên quan: