Đây cũng là chủ để mà chị Võ Thị Hồng Phương – Data Scientist (nhà khoa học dữ liệu), Trưởng nhóm phân tích dữ liệu FPT Telecom, đã chia sẻ tại diễn đàn công nghệ Solution Forum – FPT Software Hồ Chí Minh. Bài viết dưới đây sẽ cung cấp cho một cái nhìn thực tế về ứng dụng AI, Machine Learning trong việc giải quyết một bài toán cụ thể phục vụ kinh doanh.

FPT Telecom cung cấp nhiều dịch vụ, trong đó dịch vụ chính là Internet và Truyền hình FPT. Hiện tỷ lệ rời mạng của FPT Telecom chiếm 1%. Liệu tỷ lệ thấp này có đáng để dùng dữ liệu phân tích?

Theo chị Phương, việc chú trọng đến tập khách hàng (có khả năng) rời mạng được Ban lãnh đạo FPT Telecom quan tâm vì nhiều lý do. Bởi giữ chân khách hàng sẽ giúp tăng uy tín thương hiệu, tăng doanh thu. Do lợi nhuận chỉ bắt đầu có sau 12 – 18 tháng. Cạnh đó, chi phí đầu tư mỗi khách hàng mới nhiều gấp 5 – 10 lần khách hàng cũ. Việc bán cho khách hàng mới cũng sẽ bị ảnh hưởng bởi việc khách cũ rời mạng. Nhận thức được những điều đó, FPT Telecom luôn cố gắng níu kéo từng khách hàng một, tìm biện pháp để kịp thời giữ chân khách hàng có nguy cơ rời mạng.

Đề bài chỉ có một câu hỏi: “Ai là khách hàng có thể rời mạng?”, ngoài ra không có thêm thông số đi kèm hay gợi ý nào. Nhóm phân tích dữ liệu phải trải qua nhiều bước khác nhau như cắt nghĩa vấn đề (define problem), tập hợp dữ liệu, làm sạch – chuẩn hóa dữ liệu, huấn luyện mô hình, kiểm thử, hoàn thiện và triển khai vào hệ thống.

“Define problem là cực kỳ quan trọng”, chị Phương nhấn mạnh. Đây chính là tiền đề của cả quá trình về sau. Sau đó, cần chú ý các khâu lấy thông tin, tập hợp thông tin (chẳng hạn như số liệu các chi nhánh, các thông số liên quan chính sách bán hàng, thông tin khách hàng và hành vi sử dụng dịch vụ, độ hài lòng…).

Phần lớn thời gian công sức ở bước preprocessing (tiền xử lý) dữ liệu, xoay sở sao cho dữ liệu được sắp xếp logic nhất, đẹp nhất. “Không tin ai hết” là điều đội ngũ luôn tâm niệm bởi vì chỉ cần một ngày máy không lưu dữ liệu hay người nhập liệu vô tình gõ sai thì dữ liệu vẫn sai. Nhiều tình huống tưởng chừng như không thể vẫn có thể xảy ra. Bởi thế, luôn luôn chú ý làm sạch và chuẩn hóa dữ liệu và đây là một trong những mục tiêu hàng đầu của nhóm trong suốt 3-4 năm qua.

Khâu chuyển đổi dữ liệu (transforming data) lại là một quá trình mất thời gian không kém. Từ dữ liệu thu thập được, nhóm cần tìm ra những dữ liệu có ý nghĩa cho việc phân tích, dự đoán, từ đó chọn feature (đặc tính) sáng cho model (mô hình) học. Trước tiên, nhóm phải nghĩ ra khá nhiều yếu tố, giả định tác động để tách 2 nhóm khách hàng (có khả năng rời mạng hoặc không) như tần suất liên lạc đội kỹ thuật, đặc điểm hợp đồng, độ tuổi người ký, hạ tầng xung quanh, thời hạn hợp đồng… Sau đó, theo dõi và phân tích xem đâu là những logic thật sự, cho model học điểm rời mạng và kiểm thử.

“Suy nghĩ chủ quan chưa chắc đúng” và “cần cố gắng suy nghĩ nhiều khía cạnh nhất” là lời khuyên mà diễn giả nhà Viễn thông đúc kết qua những kinh nghiệm thực tế của mình. Chạy một thuật toán mất rất nhiều thời gian và theo chị, cần khéo léo tính toán để không phải thử quá nhiều lần, từ đó rút ngắn thời gian xây dựng model. Chính vì thế, nếu cùng bài toán tương tự nhưng nếu ở công ty khác, trường hợp kinh doanh khác, đội ngũ vẫn phải tìm hiểu lại việc kinh doanh, chính sách, cách phân bố dữ liệu…

Sau khi xây dựng, kiểm thử và cho chạy mô hình, nhóm phân tích dữ liệu FPT Telecom cũng gặp khá nhiều khó khăn khi triển khai trên thực tế. Làm sao thuyết phục các đơn vị tin vào hệ thống của mình, thuyết phục họ thay đổi từ phương pháp cũ truyền thống sang phương pháp mới là điều không đơn giản. “Tại sao biết những khách hàng này sẽ rời mạng? Điều kiện, dấu hiệu là gì?”; “Tôi không tin”… là những phản hồi chị Phương thường xuyên nhận được khi giới thiệu cho các đơn vị hệ thống xây dựng nên.

Biết rằng để những người khác đọc và hiểu mô hình của mình là điều khó, chị Phương phải thuyết phục bằng chính hiệu quả chạy thử của hệ thống được đo đếm kỹ qua thời gian dài để chứng minh mô hình của mình không phải không có cơ sở. Hiện tỷ lệ bắt đúng khách hàng rời mạng Internet FPT lên đến 43,1% trong 215.760 khách hàng được chăm sóc, trong khi với rời mạng Truyền hình FPT là 32,5% trong tổng số 64.758 khách hàng được chăm sóc.

Tổng kết lại, chị Phương nhấn mạnh dữ liệu thực tế rất phức tạp và nhiễu, càng nhiều người tạo nên, dữ liệu càng nhiễu. Yêu cầu của bài toán phân tích dữ liệu cũng rất cao. Việc giải quyết một bài toán thực tế rất vất vả và mất thời gian, đòi hỏi từng chút kiên nhẫn.

Quá trình từ lúc xây dựng mô hình đến triển khai hệ thống, kiến trúc giải pháp, những thử thách mà chị và cộng sự đã gặp phải đã được chị Phương chia sẻ tường tận. Trong đó, có nhiều thông tin xoay quanh kỹ thuật phân tích dữ liệu, từ quá trình thu thập, khám phá, và mô hình hóa trên số lượng lớn dữ liệu để tìm kiếm thông tin, giá trị ẩn chứa trong các mẫu dữ liệu phục vụ cho hoạt động kinh doanh nhà Viễn thông.

Độc giả có thể theo dõi lại video livestream sự kiện dưới đây:

Tin liên quan: