Dữ liệu lớn – Kỳ vọng lớn và thách thức lớn

112

Thuật ngữ Big Data được sử dụng để chỉ những bộ dữ liệu khổng lồ được thu thập từ nhiều nguồn khác nhau. Nếu được trích xuất thành công, nó sẽ trợ giúp đắc lực cho việc kinh doanh cũng như nghiên cứu khoa học. Cho tới thời điểm hiện tại, công nghệ Big Data đã đạt đến đỉnh cao trong việc thực hiện các chức năng của nó.

Áp dụng Big Data vào hoạt động nghiên cứu, phát triển sản phẩm, dịch vụ không còn là hoạt động quá xa lạ đối với các doanh nghiệp trên thế giới. Roll-Royces, ông lớn trong ngành sản xuất động cơ máy bay trên thế giới sử dụng công nghệ này trong cả ba khâu: Thiết kế, sản xuất và hỗ trợ bán hàng. Netflix cũng là một ví dụ điển hình trong việc áp dụng thành công Big Data khi đưa ra khuyến nghị cho từng người dùng theo thời gian thực, mang về 75% lượng truy cập cho hãng.

Hình 1: Chu kỳ Hype cho các công nghệ mới nổi năm 2014. Nguồn: Gartner

Tuy nhiên, trên thực tế Big Data không thực sự mang lại hiệu quả như giới công nghệ kì vọng. Theo báo cáo Hype Cycle Report năm 2014 của Gartner, Big Data đã qua thời đỉnh cao và đang trải qua giai đoạn vỡ mộng có thể kéo dài từ 5 đến 10 năm với những ứng dụng được triển khai và thất bại. Thậm chí năm 2015, Gartner dự đoán đến 2017 sẽ có tới 60% các dự án Big Data sẽ không vượt qua nổi phòng nghiên cứu để đến với khách hàng. Kết quả còn tệ hơn vậy, chỉ có 17% các dự án Big Data sử dụng Hadoop là được dùng thật, tức là có tới 83% dự án khác thất bại.

Theo Gartner report.          

Có ba nguyên nhân chính để giải thích cho hiện trạng này:

  • Sự phản đối của tầng lớp quản lý: Theo khảo sát có tới 62% lãnh đạo doanh nghiệp nói rằng họ tin vào trực giác của mình hơn là các kết quả phân tích khi đưa ra quyết định;
  • Đòi hỏi đội ngũ phát triển sản phẩm có trình độ: Triển khai dự án Big Data đòi hỏi sự tham gia của nhà khoa học thông thạo toán học, thống kê cũng như kiến thức về lĩnh vực nghiên cứu; đội ngũ lập trình viên nắm bắt những thay đổi nhanh chóng trong việc quản trị dữ liệu;
  • Rào cản giữa các đơn vị trong doanh nghiệp: Mọi người đều nghĩ rằng dữ liệu là “vàng” và cần phải cất giữ cho riêng mình thay vì chia sẻ để tạo ra giá trị lớn hơn. Đặc biệt với doanh nghiệp càng lớn, các đơn vị con càng độc lập thì rào cản càng cao khiến cho việc tập trung dữ liệu càng khó khăn hơn.

Đây là những thách thức chung mà hầu hết các dự án Big Data đang triển khai đều gặp phải. Đối với FPT, tập đoàn đã giải quyết được bài toán nhân sự và vấn đề rào cản thông tin. Với lượng dữ liệu phong phú, lĩnh vực phát triển đa dạng, hệ thống khuyến nghị do Ban công nghệ FPT nghiên cứu và ra đời với mục đích dùng sản phẩm để nhanh chóng đưa các ứng dụng của Bigdata vào thực tế hoạt động.

Dựa trên hệ thống nền tảng, đội kĩ thuật đã đưa ra giải pháp khuyến nghị cá nhân hóa trong thời gian thực trong các lĩnh vực truyền thông, thương mại điện tử và bán lẻ tại cửa hàng. Về cơ bản, hệ thống sẽ đưa ra gợi ý cho các sản phẩm tiếp theo mà khách hàng nên mua hoặc xem dựa trên lịch sử duyệt trang của họ. Giải pháp đồng bộ của hệ thống cho phép cân bằng mục tiêu kinh doanh của doanh nghiệp và thị hiếu của khách hàng một cách tối ưu. Theo đó, mỗi trang sản phẩm sẽ được áp dụng những logic tương ứng khác nhau, giúp doanh nghiệp có thể chủ động tùy chỉnh theo từng chiến dịch cụ thể.

  • Popular logic: Xác định danh sách các sản phẩm phổ biến dựa vào sản phẩm bán được nhiều và được khách hàng quan tâm trong khoảng thời gian một đến hai tháng;
  • Trending logic: Xác định danh sách các sản phẩm phổ biến dựa vào sản phẩm bán được nhiều và được khách hàng quan tâm trong khoảng thời gian một tuần;
  • Top Bought logic: Xác định danh sách các sản phẩm phổ biến dựa trên lịch sử mua;
  • Viewed/Buy Together: Những sản phẩm hay được xem/mua cùng nhau;
  • Content base:
    • Visual Similarity Dựa vào ảnh của sản phẩm A để tìm sản phẩm B có hình giống A nhất ;
    • Content Similarity: Khuyến nghị sản phẩm B có tên gọi và các đặc tính trong dữ liệu sản phẩm giống A nhất.

Theo đó, doanh nghiệp có thể gây ấn tượng với khách hàng mới bằng các sản phẩm hiện đang là xu thế, chào đón khách hàng cũ quay lại bằng các sản phẩm dành riêng cho họ tại trang chủ. Đồng thời xếp hạng các sản phẩm theo cách tối ưu với từng khách hàng trên trang danh mục sản phẩm và kết quả tìm kiếm. Không chỉ vậy, hệ thống khuyến nghị còn tận dụng tiềm năng bán gia tăng (up-sale) và bán chéo (cross-sale) của trang sản phẩm bằng cách chào các mặt hàng phù hợp. Cuối cùng chính là bán chéo trên giỏ hàng và khi khách hàng check- out bằng chính những thông tin hệ thống vừa khám phá được.

Về mặt kỹ thuật, hệ thống khuyến nghị được thiết kế theo kiến trúc Kappa. Dữ liệu về người dùng từ trang web được đẩy vào hệ thống thông qua Streaming broker là Apache Kafka, dữ liệu sau đó được lưu vào Hadoop HDFS và MemSQL rồi từ đó Apache Spark MLLib đọc dữ liệu từ hai nguồn này để xây dựng lên mô hình khuyến nghị. Một số kết quả sẽ được lưu trên hệ thống lưu trữ Redis, mô hình sẽ được nạp vào RAM để tăng hiệu năng.

Để tích hợp các trang thương mại điện tử với hệ thống khuyến nghị, người dùng cần gắn đoạn Javascript giống với công cụ phân tích Website Google Analytics để đẩy thông tin duyệt web về hệ thống, sau đó gọi API để lấy kết quả khuyến nghị. Với hệ thống này, doanh nghiệp có thể toàn tâm chăm lo cho hoạt động kinh doanh để cho các thuật toán của hệ thống chọn lọc các sản phẩm tối ưu cho từng khách hàng trong thời gian thực, dựa trên dữ liệu kinh doanh thực.

Có thể nói, Big Data vẫn là thách thức cho các tổ chức, doanh nghiệp trong thời đại số. Một khi làm chủ được dữ liệu lớn, doanh nghiệp sẽ có cơ hội thành công hơn trong bối cảnh cạnh tranh, thế giới sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những nghi ngại xoay quanh Big Data, tuy nhiên hãy cùng chờ đợi những bước thay đổi của công nghệ này trong giai đoạn tới.

Thông tin về tác giả:

Nguyễn Việt Cường

Technical lead dự án Knowlead.io 

 

Anh được vinh danh là chuyên gia công nghệ cấp tập đoàn từ năm 2016, là người có nhiều năm kinh nghiệm nghiên cứu và phát triển Big Data, và chinh chiến ở nhiều dự án lớn như: DMP (Recommendation engine, phân tích hành vi người dùng, Personalization, Analytic…), Knowlead… Anh còn là giảng viên được đánh giá cao ở các khóa học SA, Big Data…, tham gia nhiều hội thảo với vai trò diễn giả như hội thảo “Cuộc cách mạng công nghệ dữ liệu lớn Big Data” được tổ chức bởi công ty DCV…

(Bài viết được đăng trên Đặc san công nghệ FPT TechInsight No.2)

BÌNH LUẬN

Please enter your comment!
Please enter your name here