Mã nguồn mở là thuật ngữ chỉ các sản phẩm phần mềm công khai mã nguồn (source code). Người dùng không phải trả một khoản chi phí nào, hơn thế nữa họ có quyền xem, sửa đổi, cải tiến, nâng cấp theo một số nguyên tắc chung quy định trong giấy phép phần mềm nguồn mở General Public Licence – GPL.

Theo Ovum, mã nguồn mở đã là tùy chọn mặc định trên một số nhóm dữ liệu lớn, từ lưu trữ, phân tích và ứng dụng cho đến học máy. Trong nghiên cứu mới nhất của Black Duck Software và North Bridge, 90% số người được hỏi cho biết họ dựa vào nguồn mở “để cải thiện hiệu quả, đổi mới và tăng cường tính tương hợp”, chủ yếu bởi ‘không phụ thuộc vào chỉ một nhà cung cấp; những đặc tính cạnh tranh và năng lực kỹ thuật; khả năng tùy chỉnh; và chất lượng tổng thể.’ Hiện có hàng ngàn dự án mã nguồn mở thành công mà các công ty phần mềm phải có những lựa chọn mang tính chiến lược để duy trì khả năng cạnh tranh và thúc đẩy kết quả kinh doanh.

Mã nguồn mở đã tạo ra những xu hướng quan trọng nhất trong việc phát triển phần mềm

7 dự án mã nguồn mở dữ liệu lớn dưới đây được xem là có tiềm năng lớn cho phép các công ty phần mềm có thể phản ứng cực nhanh trước nhu cầu của khách hàng, doanh nghiệp và những thách thức của thị trường

1. Apache Beam

Apache Beam là một mô hình dự án với tên gọi là sự kết hợp của các thuật ngữ dùng cho việc xử lý dữ liệu hàng loạt và xử lý dữ liệu theo luồng. Bởi lẽ, Apache Beam là một mô hình đơn lẻ cho cả hai trường hợp. Theo mô hình Beam, bạn chỉ cần thiết kế nên một pipeline dữ liệu duy nhất một lần và sau đó lựa chọn từ nhiều nền tảng xử lý khác. Pipeline dữ liệu của doanh nghiệp là di động và linh hoạt để doanh nghiệp có thể chọn tạo xử lý theo luồng hay xử lý hàng loạt. Bằng cách này, công ty có thể hưởng lợi từ sự linh hoạt trong việc tái sử dụng pineline dữ liệu và lựa chọn công cụ xử lý phù hợp cho nhiều trường hợp cụ thể.

2. Apache Airflow

Apache Airflow là một nền tảng lý tưởng cho việc lập kế hoạch tự động và thông minh của Beam pipeline để tối ưu hóa quy trình và việc tổ chức các dự án.

Trong số các khả năng và đặc trưng có ích, các pipeline được định hình thông qua render code động và các hàm hình học có đồ họa trực quan cho các đồ thị trực tiếp không tuần hoàn (DAG – Directed Acyclic Graphs) và các Task. Trong trường hợp gặp sự cố, Airflow có khả năng chạy lại mẫu DAG.

3. Apache Cassandra

Apache Cassandra là một cơ sở dữ liệu đa chủ và linh hoạt cho phép thay thế các nút bị lỗi mà công cần ngưng hoạt động bất cứ bộ phận nào. Đây là một cơ sở dữ liệu NoSQL giảm thiểu tối đa sự gián đoạn của hệ thống và có khả năng mở rộng. Khác với RDBMS truyền thống và một số cơ sở dữ liệu NoSQL khác, Apache Cassandra được thiết kế không có cấu trúc Master-slave, tất cả các nút đều có vai trò tương đương và không gây ra sự gián đoạn cho hệ thống. Điều đó khiến cơ sở dữ liệu này dễ dàng mở rộng để tăng cường sức mạnh tính toán mà không có bất kì thời gian chết nào của ứng dụng.

4. Dữ liệu Apache Carbon

Dữ liệu Carbon Apache là một định dạng dữ liệu cột được chia thành từng mục cho các phân tích cực nhanh về các nền tảng dữ liệu lớn như Hadoop và Spark. Loại tệp mới này giải quyết vấn đề phân tích truy vấn cho các trường hợp sử dụng khác nhau. Với Apache Carbon, định dạng dữ liệu được thống nhất để bạn có thể truy cập thông qua một bản sao dữ liệu và chỉ sử dụng sức mạnh tính toán cần thiết, từ đó, khiến tốc độ truy vấn dữ liệu gia tăng nhanh chóng.

5. Apache Spark

Apache Spark là một trong những dự án Apache được sử dụng rộng rãi nhất và là lựa chọn phổ biến cho việc xử lý dữ liệu cực nhanh (tính toán cụm) với các khả năng tích hợp cho việc truyền dữ liệu theo thời gian thực, SQL, học máy và xử lý đồ thị. Spark được tối ưu hóa để chạy trong bộ nhớ và cho phép phân tích dữ liệu lịch sử với dữ liệu trực tiếp để đưa ra quyết định theo thời gian thực, chẳng hạn như phát hiện gian lận, phân tích dự đoán, phân tích cảm xúc và những ưu đãi tiếp theo.

6. TensorFlow

Tensor Flow là một thư viện mã nguồn mở cực kỳ phổ biến cho máy tính thông minh, cho phép phân tích nâng cao hơn trên quy mô lớn. TensorFlow được thiết kế cho đào tạo và suy luận phân tán quy mô lớn, nhưng nó cũng đủ linh hoạt để hỗ trợ thử nghiệm với các mô hình học máy mới và tối ưu hóa theo mức độ hệ thống.

TensorFlow nguyên thủy được phát triển bởi đội Google Brain cho mục đích nghiên cứu và sản xuất của Google và sau đó được phát hành theo giấy phép mã nguồn mở Apache 2.0 vào ngày 9/11/2015

7. DockerKubernetes

Docker và Kubernetes là các công nghệ quản lý container và container tự động giúp tăng tốc độ triển khai các ứng dụng. Sử dụng các công nghệ như container khiến cho kiến trúc của bạn cực kỳ linh hoạt và dễ di chuyển hơn. Quá trình DevOps cũng sẽ được hưởng lợi từ việc gia tăng hiệu quả trong triển khai liên tục.

Điều ấn tượng là mỗi dự án mã nguồn mở trên đều riêng biệt, đó là những tiến bộ tập thể minh họa tốt nhất tác động to lớn của cộng đồng nguồn mở đối với doanh nghiệp và sự thay đổi to lớn từ hệ thống phần mềm cũ và độc quyền sang các hệ thống dựa trên mã nguồn mở, cho phép các doanh nghiệp ở mọi quy mô, hoạt động trong tất cả các ngành công nghiệp có thể gia tăng tốc độ, sự linh hoạt và những hiểu biết được định hướng theo dữ liệu ở mọi cấp độ tổ chức.

Tác giả: Jason Bissell, Tổng Giám đốc khu vực Châu Á Thái Bình Dương và Nhật Bản
Calvin Hoon, Phó chủ tịch khu vực bán hàng, Châu Á Thái Bình Dương,  Talent Inc.

Như Mai (biên dịch)

Tin liên quan:
  • 11
    Shares