Các doanh nghiệp đang gặp khó khăn khi cố gắng sử dụng tốt dữ liệu. Điều này  đã cản trở khả năng ứng dụng các công nghệ mang tính chuyển đổi như AI của các doanh nghiệp.

Sự tiến hoá của DataOps có thể giải quyết vấn đề đó. Thuật ngữ DataOps xuất hiện từ bảy năm trước để chỉ phương pháp tốt nhất cho việc phân tích dữ liệu, còn công ty nghiên cứu Gartner gọi nó là một xu hướng lớn diễn ra xung quanh nhiều giai đoạn của vòng đời dữ liệu.

Giống như xu hướng DevOps đã dẫn đến một quy trình hợp tác tốt hơn giữa các nhà phát triển và đội ngũ vận hành, DataOps liên quan đến sự hợp tác chặt chẽ hơn giữa các đội ngũ xử lý dữ liệu và đội ngũ triển khai dữ liệu trong các ứng dụng.

Gartner: DataOps là một xu hướng lớn trong năm 2021

Ứng dụng DataOps đúng cách là một thách thức đáng chú ý bởi có nhiều bên liên quan và nhiều quy trình tham gia vào vòng đời dữ liệu. Trong thế giới DevOps, các doanh nghiệp có thể phát triển, thử nghiệm và triển khai cập nhật ứng dụng trong một khoảng thời gian tính bằng giờ. Thế giới dữ liệu khó đạt được tốc độ đó hơn bởi nó có thể cần tám tháng để tích hợp một mô hình ML vào quy trình làm việc của doanh nghiệp và tạo ra giá trị hữu hình.

Giám đốc nghiên cứu của Gartner, Soyeb Barot, cho biết: “Việc tạo ra một mẫu kiến trúc phổ biến sẽ giúp đưa khoa học dữ liệu và các pipeline ML vào vận hành, và nó đã được xác định là một trong số những xu hướng lớn trong năm 2021.”

Gartner dự đoán các doanh nghiệp sẽ bắt đầu nhìn thấy những thành quả thực sự của các nỗ lực này thông qua sự tiến hoá và mở rộng của DataOps để hỗ trợ AI. Công ty nghiên cứu này dự đoán số lượng doanh nghiệp đưa AI vào vận hành sẽ tăng từ 8% trong năm 2020 lên 70% trong năm 2025 nhờ sự phát triển chín muồi của các nền tảng AI orchestration.

Dù vậy, các doanh nghiệp sẽ gặp khó khăn để đưa các dự án AI vượt qua giai đoạn khái niệm bởi các quy trình hợp tác trong vòng đời AI đã không được giải quyết đầy đủ. Một khảo sát của Gartner năm 2019 đã tìm ra rằng 4 thách thức lớn nhất mà các công ty gặp phải là những lo ngại về bảo mật và quyền riêng tư (30%), sự phức tạp của việc tích hợp AI với cơ sở hạ tầng hiện có (30%), khối lượng và sự phức tạp của dữ liệu (22%) và các rủi ro tiềm năng hay nợ phải trả (22%).

Gartner cho rằng một cách nghĩ khác về các kiểu hợp tác khác nhau có thể cải thiện sự chuyển tiếp này, bao gồm mở rộng ý tưởng cũ về DataOps (data engineering) để khái niệm này bao gồm cả MLOps (phát triển học máy), ModelOps (quản trị AI) và Platform Ops (bao quát quản lý nền tảng AI). Toàn bộ bộ sưu tập các khả năng này đã được biểu thị bằng XOps.

“Các framework này có thể giúp triển khai một quy trình có cấu trúc cho những người tham gia đưa AI vào sản xuất. Hãy nghĩ về nó như là một đường dây lắp ráp của một nhà máy sản xuất ô tô, nhưng là cho dữ liệu”, Barot nói.

Ứng dụng DataOps

Trước đây, sự phát triển phần mềm là một quá trình chậm chạp, trong đó các nhà phát triển đã dành hàng tháng hoặc thậm chí hàng năm để làm ra các cập nhật mới cho đội ngũ thử nghiệm và vận hành. Năm 2008, Andrew Clay và Patrick Debois bắt đầu thảo luận về cách làm cho quy trình này thông suốt nhờ sự hợp tác tốt hơn giữa các nhà phát triển, tester và đội ngũ vận hành. Điều này được biết đến như là DevOps vì nó cải thiện sự phân phối giữa các nhóm phát triển và vận hành.

Khi phong trào này diễn ra, nó đã dẫn đến việc tạo ra nhiều nền tảng, công cụ và quy trình cho phép các đội ngũ liên tục tích hợp và triển khai các ứng dụng theo từng phần nhỏ, có thể khôi phục được nếu sự cố xảy ra. Nhưng những sáng kiến kiểu như vậy đã bỏ qua nỗ lực tạo ra giá trị từ khối lượng, sự đa dạng và tốc độ đang tăng lên của dữ liệu lớn. Nhiều chuyên gia dự đoán rằng dữ liệu lớn là một loại dầu mới, còn các công ty cũng gặp rất nhiều thách thức để đưa dữ liệu lớn vào vận hành giống như cách mà DevOps đã cải thiện việc triển khai lập trình.

Dữ liệu tạo ra giá trị thông qua các sản phẩm nhân tạo như mô hình phân tích, học máy, các ứng dụng định hướng dữ liệu. Nhưng những điều này đã tạo ra nhiều thách thức và điểm tắc nghẽn mới bên ngoài phạm vi của các phương pháp DevOps. Trong một bài blog cho IBM vào năm 2014, Lenny Liebmann, khi đó là một cộng tác viên biên tập tại InformationWeek, đã giới thiệu khái niệm DataOps để mô tả những thách thức này và gợi ý một con đường phía trước.

Trong một cuộc phỏng vấn với VentureBeat, Liebmann, hiện là đối tác sáng lập của công ty tư vấn ứng dụng công nghệ Morgan Armstrong, cho biết vào thời điểm đó, rất nhiều doanh nghiệp đang gặp khó khăn để giải quyết các vấn đề dữ liệu lớn bằng cách sử dụng công nghệ cải tiến mà không giải quyết được mặt tổ chức và quy trình. Ông nói: “Mọi người nghĩ rằng bạn có thể ném dữ liệu lớn vào một cái thùng ma thuật và nó sẽ hoạt động.” Nhưng họ đã gặp phải nhiều vấn đề liên quan đến việc kết nối các nguồn và loại dữ liệu khác nhau với các ứng dụng mới và phân tích.

Một trong những vấn đề chính mà ông thấy là các doanh nghiệp sẽ tập trung vào các khía cạnh chức năng, như dịch chuyển dữ liệu thực tế thông qua các công cụ kỹ thuật dữ liệu tốt hơn, mà không giải quyết các vấn đề phi chức năng, như hiệu suất, tính khả dụng, chất lượng, khả năng mở rộng, bảo mật và quản trị.

Rất nhiều thách thức về kỹ thuật dữ liệu cơ bản đã được giải quyết khi các doanh nghiệp bắt đầu di chuyển cơ sở hạ tầng của họ sang đám mây. Liebmann nói: “Ngày nay, điều này không còn là vấn đề phổ biến như lần đầu tiên tôi nói về nó”. Bước tiếp theo là vạch ra một chiến lược để giải quyết vấn đề bảo mật, quản trị và chất lượng khi các công ty mở rộng quy mô hoạt động dữ liệu.

Bình minh của XOps

Barot đã có nhiều cuộc trò chuyện với các doanh nghiệp, những người yêu cầu các công cụ DataOps chỉ để khám phá ra rằng họ vốn đã có một framework DataOps mạnh mẽ. Họ thực sự cần nhiều sự trợ giúp hơn trong việc đưa các quy trình AI của mình vào vận hành. Đây là nơi mà mô hình XOps của Gartner xuất hiện để cung cấp nền tảng cho ra những điểm khác biệt toàn diện hơn.

Barot nói: “Chúng tôi đã xem xét tất cả các thuật ngữ ‘ops’ trên thị trường và thấy sự mơ hồ về mục đích của chúng và mối quan hệ giữa chúng. Chúng tôi muốn nêu lên sự thật về những gì mà chúng đại diện, cách mà chúng liên quan đến nhau và là một phần của các sáng kiến chiến lược lớn hơn trong doanh nghiệp.”

Gartner's model for Platform Ops
Mô hình của Gartner cho AI bao gồm MLOps, SecOps, DevOps và DataOps.

Trong sự phân loại mở rộng này, Gartner gắn DataOps với những thách thức liên quan đến việc xây dựng, quản lý và mở rộng các pipeline dữ liệu theo một cách thúc đẩy khả năng tái sử dụng, tái tạo và thu hồi các thay đổi nếu vấn đề xảy ra. Một vài trong số các khả năng chủ chốt này bao gồm trích xuất dữ liệu, tích hợp, chuyển đổi và phân tích. Việc quản trị được gắn liền dữ liệu.

MLOps tập trung vào việc cải thiện sự hợp tác trong vấn đề phát triển và vận hành vòng đời phát triển mô hình học máy. Các hoạt động này thường được thực hiện bên ngoài phạm vi của các hoạt động kỹ thuật dữ liệu truyền thống. Các nhà khoa học dữ liệu thường được giao nhiệm vụ với một quy trình gọi là kỹ thuật điều chỉnh mô hình ML cải thiện việc ra quyết định, khám phá insight hoặc cho phép tính năng ứng dụng mới. MLOps giúp dễ dàng gắn kết những nỗ lực này với các nhóm vận hành chịu trách nhiệm triển khai các mô hình vào sản xuất.

ModelOps là một phần mở rộng của MLOps để giúp các công ty làm việc với các mô hình AI của bên thứ ba mà có thể được đưa vào các ứng dụng doanh nghiệp hoặc cải thiện việc ra quyết định nhờ các công cụ như biểu đồ tri thức, rules engine hay các thuật toán tối ưu hoá mới. Sự khác biệt lớn nhất ở đây là MLOps giúp các chuyên gia kinh doanh quản lý các mô hình AI dễ dàng hơn với ít sự phụ thuộc vào kỹ thuật dữ liệu, đồng thời giúp đội ngũ khoa học dữ liệu triển khai các thay đổi dễ dàng hơn.

Platform Ops cung cấp một khung bao quát để giúp các tổ chức quản lý các hoạt động bao gồm tất cả các loại hoạt động khác nhau này, cũng như DevOps. Đây cũng là thị trường mới nhất và non trẻ nhất.

AIOps có lẽ sẽ là một thuật ngữ tốt hơn để mô tả cách suy nghĩ tổng thể này về quản lý AI, Barot nói. Tuy nhiên, thuật ngữ này đã được sử dụng rộng rãi để mô tả việc sử dụng AI để cải thiện quản lý vận hành IT.

Trong khi có hàng tá sản phẩm thương mại cho các domain khác, Barot cho biết hiện nay chỉ có bốn công cụ Platform Ops thương mại: Amazon SageMaker, Cloudera SDC, ForePaas và One Logic. Ngoài ra còn có một loạt các công cụ Platform Ops mã nguồn mở được các nhà cung cấp thương mại ủng hộ như một phần của danh mục công cụ AI lớn hơn. Barot kỳ vọng sẽ chứng kiến sự cạnh tranh gay gắt giữa các nhà cung cấp đang gấp rút trở thành nền tảng AI orchestration mà những thứ khác được tích hợp vào.

Barot cảnh báo rằng sẽ không có sản phẩm nào có thể làm viên đạn bạc. Mỗi doanh nghiệp sẽ cần áp dụng những khả năng tốt nhất phù hợp với thực tiễn phát triển hiện tại và thị trường ngách của họ.

Theo VentureBeat

Tin liên quan: