Hai xu hướng lớn nhất của trung tâm dữ liệu hiện nay là điện toán đám mây (cloud) và dữ liệu lớn (big data), và bài viết này sẽ đi sâu vào việc kiểm chứng sự giao nhau giữa chúng. Đối với người dùng, big data sử dụng các bộ dữ liệu lớn từ những nguồn mới và đa dạng để cung cấp những thông tin hữu ích và thiết thực về cách mọi thứ trên thế giới vận hành. Ví dụ, Netflix có thể sử dụng dữ liệu của khách hàng để sản xuất các chương trình đặc trưng thích ứng với từng đối tượng người xem. Đối với nhà sản xuất, mặc dù vậy, big data là công nghệ không thể thiếu để xử lý những tập hợp dữ liệu lớn, đa dạng. Nhà sản xuất mô tả đặc điểm của big data dưới góc độ cường độ, các hình thức khác nhau sự đa dạng và tốc độ. Có bao nhiêu lượng dữ liệu ở đó, dữ liệu thuộc dạng nào và mất bao lâu để chúng ta có thể khai thác được từ đó?
Các xu hướng vĩ mô của dữ liệu lớn
Tương tự như đám mây (cloud) có xu hướng macro đằng sau nó là việc tiếp cận theo định hướng dịch vụ, big data cũng có một số xu hướng macro.
  • Xu hướng đầu tiên là Tiêu thụ (Consumption) – Chúng ta tiêu thụ dữ liệu như một phần của các hoạt động cá nhân cũng như làm việc thường ngày. Từ việc đặt chuyến bay, tìm một người cộng sự, chẩn đoán bệnh tật, dữ liệu đang chi phối ngày càng nhiều quyết định hơn trước kia. Chúng ta sống trong một bối cảnh xã hội đang không ngừng thay đổi, nơi con người luôn muốn đưa ra quyết định dựa trên dữ liệu.
  • Xu hướng thứ hai là Trang bị (Instrumentation). Chúng ta luôn thu thập dữ liệu trong từng hoạt động của mình, và phần việc này được thực hiện một phần lớn là bởi máy móc, thay vì con người. Từ những dây chuyền cung ứng đến Fitbits, chúng ta thu thập thông tin về hoạt động của chính mình với mục đích đo lường và phân tích chúng.
  • Xu hướng thứ ba là Khám phá (Exploration).  Việc truy cập khá đơn giản vào kho dữ liệu khổng lồ này đồng nghĩa với thực tế chúng ta có thể sử dụng chúng để xây dựng, thử nghiệm, và tiến hành những thí nghiệm mà trước đây tưởng chừng như không khả thi.
Sau cùng, big data đem đến điểm mới trong mối quan hệ giữa chúng ta và dữ liệu, và theo ý tưởng cụ thể trong bài viết này, điểm mới đó được nhìn nhận so với công nghệ đám mây.
Mối quan hệ giữa Dữ liệu lớn và điện toán đám mây
Vậy mối quan hệ giữa big data và đám mây là gì? Big data lấy xuất phát điểm từ đám mây. Apache Hadoop, một trong những công nghệ big data phổ biến nhất hiện nay, được xây dựng trên cơ sở nghiên cứu từ phía Google và triển khai lần đầu tại Yahoo. Ban đầu, Google sáng tạo ra công nghệ này bởi việc biên soạn lập chỉ mục các trang Web là bất khả thi với hệ thống sẵn có lúc bấy giờ. Giờ đây các công ty sử dụng Hadoop đang đưa kiến trúc đám mây vào các trung tâm dữ liệu của họ.
Sự trỗi dậy đồng thời của cả đám mây và big data không hẳn là trùng hợp. Trên thực tế, chúng yểm trợ và hoàn thiện lẫn nhau. Sự mở rộng của đám mây không ngừng thúc đẩy khởi tạo và vận hành những công nghệ big data mới thông qua việc tiết kiệm và đơn giản hóa truy cập hệ thống lưu trữ và tài nguyên máy tính. Các kiến trúc big data cũng đóng một vai trò quan trọng trong xu thế này. Một ví dụ cụ thể có thể kể đến những cải tiến gần đây của hệ sinh thái Apache Hadoop đã cho phép một lượng lớn công việc được chia sẻ và thực thi trên cùng một cluster. Người dùng sẽ có thể chạy nhiều dạng thức kiến trúc trên cùng một Hadoop cluster, còn cluster này sẽ được khởi chạy trên một kiến trúc đám mây. Trong hoàn cảnh các kiến trúc big data đang dần trở nên tương đồng hơn, kiến trúc đám mây sẽ bổ sung được nhiều dịch vụ chuyên dụng cho lưu trữ, xử lý và phân tích dữ liệu.
Việc kết hợp giữa big data, điện toán đám mây và các thuật toán, kỹ thuật mới trong biểu thị thông tin làm cho hoạt động phân tích hội tụ – tiến hành phân tích trên dữ liệu từ nhiều nguồn khác nhau trở nên khả thi. Những kỹ thuật mới hỗ trợ vận chuyển và quản lý dữ liệu này cũng cho phép phát triển Analytics as a service (AaaS) dựa trên nền tảng đám mây.
Từ mô hình bảo mật và riêng tư tới mô hình định giá, sự kết hợp giữa big data và điện toán đám mây còn tác động không nhỏ tới những khía cạnh ngoài công nghệ của cuộc sống. Tồn tại một sự mâu thuẫn giữa mong muốn phân tích hội tụ và điện toán đám mây, bởi cloud thiên nhiều hơn về chia sẻ nhiều dữ liệu và tài nguyên máy tính đa dạng hơn về người truy cập, và nhu cầu kiểm soát bảo mật cá nhân và bảo mật dữ liệu dữ liệu chặt chẽ hơn. Mô hình định giá dựa trên thói quen sử dụng đang hướng chúng ta đến suy nghĩ khác về cách sản xuất và sử dụng công nghệ. Các nghiên cứu trong tương lai sẽ xem xét những ứng dụng trên các lĩnh vực kinh tế và chính trị được phát triển từ những bước tiến hiện đại trong công nghệ này.
Không chỉ thế, nghiên cứu tới đây sẽ kiểm nghiệm cách thức con người vận dụng kết hợp những xu thế này với nhau, sự phát triển của big data trên nền tảng đám mây, và cách mà chúng ta đang dùng data để cải tiến tối ưu đám mây.

 

Tin liên quan: