Tổng quan về Big Data và những vấn đề liên quan

947

1. Big Data là gì?

Big data thường được định nghĩa như là một tập hợp dữ liệu lớn, bao gồm các dữ liệu có cấu trúc, không có cấu trúc hoặc được cấu trúc không đầy đủ, mà mỗi dữ liệu trong đó đều có thể được sử dụng để khai thác thành các thông tin chi tiết. Những tập dữ liệu này thường lớn và phức tạp đến nỗi mà các phần mềm xử lý dữ liệu bình thường khó có thể thu thập, lưu trữ và xử lý nó trong một khoảng thời gian phù hợp, bởi khối lượng của nó có thể lên đến petabyte (hàng triệu gigabyte) hoặc thậm chí là Exabyte (bằng 1e+9 gigabyte)

Thông thường, Big Data được đặc trưng bởi ba V, bao gồm:

  • Volume: độ lớn của dữ liệu;
  • Variety: độ da dạng của dữ liệu;
  • Velocity: tốc độ mà dữ liệu cần được xử lý và phân tích.

Big data được tạo thành từ các nguồn bao gồm các trang web, phương tiện truyền thông xã hội, máy tính để bàn và ứng dụng di động, thí nghiệm khoa học, các cảm biến và các thiết bị khác trên internet (IoT).

2. Những vấn đề liên quan

Phân tích dữ liệu Big Data

Khi đã có dữ liệu, điều quan trọng nhất là phải phân tích những dữ liệu đó để chúng thực sự mang lại lợi ích như tăng doanh thu, cải thiện dịch vụ khách hàng, nâng cao hiệu suất và tăng sức cạnh tranh tổng thể.

Việc phân tích dữ liệu bao gồm việc kiểm tra các tập dữ liệu, từ đó đưa thông tin chi tiết hoặc rút ra kết luận về xu hướng và dự đoán về hoạt động trong tương lai. Nhờ đó, dữ liệu có thể áp dụng vào công việc như lựa chọn thời gian, địa điểm để quảng cáo cho sản phẩm và dịch vụ, điều rất có ích cho các công ty cần những chiến dịch quảng bá sản phẩm theo thời điểm.

Phân tích dữ liệu bao gồm:

  • Phân tích dữ liệu thăm dò (để xác định các mẫu và mối quan hệ trong dữ liệu);
  • Phân tích dữ liệu xác nhận (áp dụng các kỹ thuật thống kê để tìm hiểu xem giả định về một tập dữ liệu cụ thể có đúng không);
  • Phân tích dữ liệu định lượng (so sánh thống kê);
  • Phân tích dữ liệu định tính (tập trung vào dữ liệu phi số như video, hình ảnh và văn bản).

Xây dựng cơ sở hạ tầng hỗ trợ Big Data

Muốn sử dụng và khai thác Big Data một cách hiệu quả, điều cần thiết là phải xây dựng cơ sở hạ tầng đủ để thu thập và lưu trữ dữ liệu, cung cấp quyền truy cập và bảo mật thông tin trong khi lưu trữ và chuyển tiếp, bao gồm các hệ thống lưu trữ và máy chủ, phần mềm quản lý, tích hợp dữ liệu, phần mềm phân tích dữ liệu và một số thành phần khác. Điều này có thể được hiện thực hóa bởi các data center lớn, các dịch vụ điện toán đám mây cũng góp phần giải quyết bài toán này.

Dữ liệu có thể đến từ nhiều nguồn khác nhau như các ứng dụng web, kênh truyền thông xã hội, ứng dụng dành cho thiết bị di động và lưu trữ email, ngoài ra khi IoT trở nên bùng nổ, các cảm biến trong sản phẩm cũng góp phần tạo dựng và chuyển hóa dữ liệu. Để lưu trữ tất cả dữ liệu đến, có một số lựa chọn phổ biến là kho dữ liệu truyền thống, xây dựng hồ dữ liệu hoặc tận dụng lưu trữ trên đám mây.

Ngoài ra, còn cần xây dựng cơ sở hạ tầng bảo mật, bao gồm việc mã hóa dữ liệu, xác thực người dùng và các quyền truy cập, giám sát hệ thống, xây dựng tường lửa, quản lý doanh nghiệp và các sản phẩm khác để bảo vệ hệ thống và dữ liệu.

Sử dụng phần mềm và công cụ hỗ trợ

Để có thể khai thác hiệu quả Big Data, cần có những công nghệ và công cụ hỗ trợ cần thiết, bao gồm:

  • Hệ sinh thái Hadoop

Hadoop được coi là xương sống trong các dự án Big Data. Thư viện phần mềm Hadoop là một nền tảng cho phép các tập dữ liệu lớn được xử lý phân tán thông qua các cụm máy tính sử dụng mô hình lập trình đơn giản. Nó được thiết kế để mở rộng từ một máy chủ lên hàng nghìn máy, mỗi máy chủ có khả năng cung cấp năng lực tính toán và lưu trữ cục bộ.

Dự án bao gồm một số mô-đun:

  • Hadoop Common, các tiện ích phổ biến hỗ trợ các mô-đun Hadoop khác
  • Hadoop Distributed File System, cung cấp quyền truy cập thông lượng cao vào dữ liệu ứng dụng
  • Hadoop YARN, một nền tảng cho việc lập kế hoạch công việc và quản lý tài nguyên cụm
  • Hadoop MapReduce, một hệ thống dựa trên YARN để xử lý song song các tập dữ liệu lớn.
  • Apache Spark

Apache Spark là một nền tảng hệ thống tính toán mã nguồn mở phục vụ như một công cụ để xử lý Big Data trong Hadoop. Spark đã trở thành một trong những nền tảng xử lý phân tán dữ liệu quan trọng và có thể được triển khai theo nhiều cách khác nhau. Nó cung cấp các ràng buộc nguyên gốc cho Java, Scala, Python (đặc biệt là Python Anaconda) và ngôn ngữ lập trình R (R đặc biệt phù hợp với dữ liệu lớn), đồng thời cũng hỗ trợ SQL, dữ liệu luồng, machine learning và xử lý đồ thị.

  • Cơ sở dữ liệu

Cơ sở dữ liệu NoSQL lưu trữ và quản lý dữ liệu theo cách linh hoạt và xử lý tốc độ cao. Không giống như cơ sở dữ liệu SQL, nhiều cơ sở dữ liệu NoSQL có thể được thu nhỏ theo chiều ngang trên hàng trăm hoặc hàng nghìn máy chủ.

  • Cơ sở dữ liệu bộ nhớ trong

Cơ sở dữ liệu bộ nhớ trong (IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính, thay vì đĩa, để lưu trữ dữ liệu. Cơ sở dữ liệu bộ nhớ trong nhanh hơn so với cơ sở dữ liệu trên đĩa được tối ưu hóa, một lựa chọn quan trọng cho việc sử dụng phân tích Big Data tạo kho dữ liệu..

Các trường hợp cần sử dụng Big Data

Big Data có thể được áp dụng cho nhiều trường hợp khác nhau, dưới đây là vài ví dụ:

  • Phân tích khách hàng: Phân tích dữ liệu khách hàng để nâng cao trải nghiệm của khách hàng, cải thiện tỷ lệ mua hàng và tăng tỷ lệ gắn bó của khách hàng.
  • Phân tích hoạt động: Big Data có thể giúp nâng cao năng suất cũng như hiệu suất công việc của tổ chức
  • Phòng chống gian lận: Phân tích dữ liệu có thể giúp các tổ chức xác định các hành động đáng ngờ gây nguy hại và giúp giảm thiểu rủi ro.
  • Tối ưu hóa giá cả: Các công ty có thể sử dụng Big Data để tối ưu hóa giá cả cho sản phẩm và dịch vụ, giúp tăng doanh thu.

Dữ liệu là nền tảng cho việc đưa ra quyết định dựa vào việc phân tích của các phần mềm chuyên dụng. Nếu dữ liệu bị sai lệch, nó có thể dẫn đến việc đưa ra những quyết định và sách lược sai lầm. Xây dựng cơ sở hạ tầng phần cứng và phần mềm để hỗ trợ một tập hợp dữ liệu khổng lồ có thể phức tạp và tốn kém, nhưng nó chỉ là một phần nhỏ khi so với việc thu thập và quản lý dữ liệu một cách đáng tin cậy và hiệu quả.

3. Làm thế nào để sử dụng dữ liệu hiệu quả

Xác định nhu cầu

Điều đầu tiên là phải xác định được nhu cầu sử dụng Big Data một cách rõ ràng. Điều này sẽ giúp ích rất nhiều trong việc tìm ra những dữ liệu mà chúng ta sẽ sử dụng để hỗ trợ trong việc đưa ra các quyết định, cách dữ liệu sẽ được thao tác, và cuối cùng là quá trình phân tích sẽ xác định việc tạo cái nhìn tổng quát sau cùng.

Xác định nguồn dữ liệu sẽ đến từ đâu

Có thể chúng ta sẽ không xác định được mọi nguồn dữ liệu có thể cần thiết đối với nhu cầu chúng ta đặt ra, nhưng chúng ta có thể xác định các nguồn dữ liệu chính cần được sử dụng. Điều này giúp chúng ta dễ dàng xác định được loại dữ liệu mà chúng ta cần, cũng như sẽ dễ dàng hơn trong việc phân lọc dữ liệu sau này.

Xác định đối tác phân tích dữ liệu chuyên nghiệp

Các đối tác của doanh nghiệp sẽ cần những công nghệ mà vừa cung cấp được các giải pháp phù hợp với các loại dữ liệu được xác định ban đầu, vừa phải cung cấp nền tảng phù hợp với các công cụ phân tích hiện có của bản thân doanh nghiệp.

Đánh giá và bổ sung các dữ liệu cần thiết

Như đã nói ở trên, không thể xác định trước mọi tập dữ liệu có thể cần thiết để cung cấp cho việc xử lý dữ liệu, cho nên việc đánh giá và bổ sung các dữ liệu cần thiết là việc không thể thiếu để có thể ứng dụng Big Data hiệu quả.

Xác định các công cụ hỗ trợ phù hợp

Thị trường hiện nay cung cấp rất nhiều công cụ hỗ trợ, từ các công cụ thống kê đơn giản cho tới các ứng dụng tiên tiến dựa trên nền tảng machine learning. Mỗi loại công cụ yêu cầu mức độ hiểu biết khác nhau cũng như những yêu cầu về độ chi tiết của dữ liệu. Ví dụ, phần mềm dựa trên nền tảng machine learning có thể xử lý dữ liệu từ dạng phức tạp nhất; trong khi công cụ thống kê thì cần những dữ liệu đã được tách lọc kĩ càng. Do đó, lựa chọn công cụ hỗ trợ phù hợp sẽ giúp ích trong việc giảm tải cũng như đẩy nhanh tiến độ của việc phân tích dữ liệu.

Mở rộng việc chuẩn bị dữ liệu để kết hợp dữ liệu mới và cũ

Hiện tại, nhiều tập dữ liệu ở trong trạng thái luôn chuyển động và có sự kết nối lẫn nhau. Do đó, khi có dữ liệu mới được phát hiện hoặc đã sẵn sàng để tích hợp vào tập hiện có, việc chuẩn bị dữ liệu phải được tiến hành để đảm bảo tính khả dụng của nó.

Tống Minh Đức – FPT Telecom

Tin liên quan:
  • 8
    Shares