Tech In Focus #2: ‘Đừng để data biến thành bùn’

379

Chiều ngày 30/05 vừa qua, Tech In Focus #2 với chủ đề “Hiện trạng Big Data và một số lưu ý khi xây dựng Data lake” đã diễn ra tại Hà Nội và TP HCM (qua hệ thống telepresence) thu hút đông đảo người tham dự đến từ trong và ngoài FPT.

Seminar được chia sẻ bởi diễn giả là anh Nguyễn Việt Cường, chuyên gia công nghệ FPT, người có nhiều năm nghiên cứu và phát triển các dự án lớn của tập đoàn. Buổi hội thảo tập trung vào 3 mảng nội dung chính: những khái niệm cơ bản, hiện trạng của các dự án Big Data, và những khuyến cáo khi làm data lake.

Mở đầu buổi chia sẻ là những khái niệm cơ bản và phổ biến nhất về Big Data. Anh cho biết Big Data là một khái niệm, không phải một công nghệ. Thực tế các nhà phát triển sẽ ứng dụng công nghệ như AI, Machine Learning… để quản lí và khai thác lượng dữ liệu khổng lồ. Nói về Big Data anh định nghĩa nó bằng khái niệm cơ bản nhất: Big Data với 4 Vs đặc trưng – Volume (độ lớn), Velocity (tốc độ), Variety (đa dạng), Veracity (tính xác thực).

Anh Nguyễn Việt Cường – Diễn giả Tech In Focus #2

Big Data là một nguồn tài nguyên khổng lồ, nhưng để sử dụng nó trong các dự án thực tế lại là một vấn đề lớn đối với các nhà phát triển. Dữ liệu có mặt ở khắp mọi nơi và được anh ví von như nguồn nước, nếu biết khai thác đúng cách, đây sẽ trở thành nguồn tài nguyên quý giá cho đơn vị sở hữu. Tuy nhiên, nếu chỉ biết giữ khư khư, không chia sẻ, khai thác không hợp lý, điều đáng tiếc nhất có thể xảy ra là nguồn nước của bạn sẽ biến thành bùn.

Hội thảo thu hút 50 người tham dự từ cả hai đầu Hà Nội và Thành phố Hồ Chí Minh cùng hơn 50 lượt xem trực tiếp trên Internet

Công nghệ hadoop ra đời, cung cấp framework mã nguồn mở, cho phép xử lý phân tán các tập dữ liệu lớn trên các cụm máy tính thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục bộ. Hadoop bao gồm:

  • Hadoop Common: Các tiện ích phổ biến hỗ trợ các phần Hadoop khác;
  • Hadoop Distributed File System: Cung cấp khả năng truy cập dữ liệu ứng dụng cao;
  • Hadoop YARN: Framework cho kế hoạch làm việc và quản lý tài nguyên;
  • Hadoop MapReduce: Hệ thống dựa trên YARN để xử lý song song bộ dữ liệu lớn.

Năm 2015 Gartner dự đoán đến năm 2017, 60% các dự án Big Data sẽ thất bại. Thực tế, báo cáo của Gartner năm 2017 chỉ ra chỉ có 17% các dự án sử dụng Hadoop thành công. Theo đó, ba nguyên nhân cơ bản được xác định: sự phản đối của cấp quản lí (management resistance), hỏi sai câu hỏi và thiếu kĩ năng (asking the wrong questions and lacking right skill), hầm dữ liệu (data silos).

Rất đông các thành viên đến từ các công ty bên ngoài đã đến tham dự buổi chia sẻ này.

Data lake hay còn gọi là hồ dữ liệu, nơi lưu trữ dữ liệu chưa qua xử lí (raw data), người dùng có thể trích xuất những dữ liệu cần thiết khi cần. Chính vì bản chất của data lake là nơi tập trung dữ liệu thô, nên việc quản trị dữ liệu (data governance) là vô cùng cần thiết. Data governance bao gồm:

  • Data discovery and curation: hiểu được những dữ liệu bên trong, nặc danh hóa những dữ liệu nhạy cảm
  • Data management: sắp xếp, quản lí dữ liệu
  • Data security and privacy: bảo vệ dữ liệu, đảm bảo người dùng có thể truy cập được vào data lake của mình.

Một số vendors cho data lake hiện có mặt trên thị trường có thể kể đến như: Hortonworks, Cloudera, AWS, Zaloni…

Nam Phong

Tin liên quan: