Có lẽ tóm tắt ngắn gọn nhất về mối quan hệ giữa trí tuệ nhân tạo (AI) và dữ liệu chính là: một mô hình AI chỉ có thể tốt khi được đào tạo với dữ liệu tốt. Dữ liệu đóng vai trò nền tảng cho các giải pháp AI ở mọi nơi, là yếu tố có thể khiến AI thành công hoặc thất bại.

Quản lý dữ liệu là điều mấu chốt đối với các công ty xây dựng mô hình học máy (ML) và sẽ ngày càng trở nên quan trọng trong năm 2021 cũng như trong tương lai xa hơn nữa. Trong những năm tới, cái giá của việc đánh giá sai vai trò của dữ liệu trong AI sẽ trở nên rõ ràng hơn bao giờ hết. Trong phần bốn của loạt bài năm phần về các dự đoán trong năm 2021, chúng tôi tập trung vào việc đa dạng hóa để tránh sự thiên vị.

Chuẩn bị dữ liệu đào tạo vốn là một quá trình tốn nhiều thời gian – hầu hết các nhóm xây dựng AI dành khoảng 80% thời gian chỉ cho nhiệm vụ này. Việc phân loại dữ liệu đòi hỏi sự đầu tư đáng kể tiền bạc và con người. Các tổ chức có thể lựa chọn xem họ sẽ sử dụng đội ngũ của mình hay chuyển sang nhà cung cấp bên thứ ba cho các khối dữ liệu lớn.

Mỗi lựa chọn lại có ưu nhược điểm riêng. Ví dụ, sử dụng nhân sự nội bộ để phân loại tập dữ liệu thường dẫn đến các quan điểm ít đa dạng hơn, do đó dữ liệu sẽ thiếu khách quan hơn. Việc sử dụng nhà cung cấp bên thứ ba cho phép công ty có được một số lượng lớn nhân sự để xử lý dữ liệu, nhưng trong một số trường hợp, công ty lại có ít khả năng giám sát trực tiếp hơn.

Các công ty đang bắt đầu xem xét một vấn đề quan trọng: Ai sẽ phân loại dữ liệu? Chúng ta đang xây dựng một bộ sưu tập quan điểm đa dạng hay đang vô tình tạo ra sự thiên vị? Cho dù lựa chọn phương pháp xử lý dữ liệu nào, việc nhận thức được sức ảnh hưởng của đội ngũ phân loại dữ liệu tới mức độ thiên vị của mô hình sẽ là điều tối quan trọng để thành công.

Vai trò của phân loại dữ liệu trong AI

Mặc dù các công ty có truyền thống tập trung vào khía cạnh tiền bạc khi nhắc tới dữ liệu đào tạo, nhưng chính những người đứng sau nó lại ngày càng được chú ý – sự chú ý mà họ nên nhận được. Những người này, người phân loại dữ liệu, sẽ cung cấp sự thật chính xác và góc nhìn toàn cầu cho AI.

Những người phân loại dữ liệu đảm nhận phần quan trọng nhất trong việc phát triển AI, vì độ chính xác của các nhãn dán ảnh hưởng trực tiếp đến độ chính xác của các dự đoán mà máy đưa ra trong tương lai. Một cỗ máy được đào tạo dựa trên dữ liệu được dán nhãn kém sẽ mắc lỗi, đưa ra các dự đoán có độ tin cậy thấp và hoạt động không hiệu quả. Hậu quả của việc phân loại dữ liệu không tốt có thể rất lớn. Ví dụ, ngành tài chính, bán lẻ và các ngành chính khác sử dụng AI cho các giao dịch khác nhau, việc AI không đưa ra dự đoán chính xác sẽ dẫn đến trải nghiệm khách hàng không tốt và ảnh hưởng đến doanh thu của doanh nghiệp.

Những vấn đề này hầu như luôn bắt nguồn trong giai đoạn thu thập và phân loại dữ liệu. Ví dụ: dữ liệu được sử dụng không bao gồm tất cả các trường hợp có thể xảy ra, hoặc những người phân loại dữ liệu chỉ phản ánh một phần nhỏ nhân khẩu học của người dùng cuối. Ngay cả những công ty lớn nhất với nhiều nguồn lực nhất cũng không luôn luôn làm đúng, làm tổn hại đến thương hiệu và trải nghiệm khách hàng cuối cùng. Mặc dù các công ty đang tiếp tục cố gắng để loại bỏ những thành kiến ​​ngoài ý muốn khỏi mô hình của họ, chúng tôi cho rằng những ví dụ về sự thất bại như thế này vẫn sẽ tăng lên. Nếu có, những ví dụ này sẽ là một lời nhắc nhở rõ ràng về sự tốn kém của việc không có một kế hoạch giảm thiểu thiên vị ngay từ đầu.

Các công ty đang giảm sự thiên vị thông qua ngành AI toàn cầu như thế nào

Làm thế nào một số công ty thành công giảm được sự thiếu khách quan trong các mô hình của họ? Một phần là bằng cách tập trung vào nhân sự phân loại dữ liệu. Người phân loại đóng một vai trò thiết yếu trong việc giảm thiểu sự thiên vị trong AI, điều đặc biệt quan trọng đối với các sản phẩm và dịch vụ hoạt động trên các thị trường đa dạng. Việc xây dựng AI có trách nhiệm, giảm thiểu sự thiên vị, là nhiệm vụ tối quan trọng: xét cho cùng, một AI mà không dành cho tất cả mọi người thì về cơ bản là không có tác dụng.

Khi cuộc đối thoại xung quanh AI có trách nhiệm trở nên nóng hổi hơn trong vài năm tới, hy vọng các tổ chức sẽ hoàn toàn tập trung vào việc giảm sự thiên vị mô hình hơn nữa. Hãy nhớ rằng dữ liệu đào tạo AI do con người chuẩn bị có thể phản ánh thành kiến ​​của họ và là một điều không tốt cho tính khách quan của thuật toán. Việc giải quyết sự thiên lệch này đòi hỏi phải tập hợp các quan điểm đa dạng ngay từ đầu.

May mắn thay, các công ty đang bắt đầu tận dụng sức mạnh của ngành AI bằng cách sử dụng một số lượng lớn các nhà phân loại dữ liệu và tìm kiếm những nhân sự này trên quy mô toàn cầu. Tiếp cận với một cộng đồng trên toàn thế giới mang đến các ý tưởng, quan điểm và hệ giá trị khác nhau. Những quan điểm đa dạng này được phản ánh trong dữ liệu đào tạo và chính giải pháp AI, dẫn đến sản phẩm cuối cùng ít thiên vị hơn và có ích hơn hơn cho mọi người. Cộng đồng trên toàn cầu cũng cung cấp những chuyên môn và kỹ năng độc đáo mà nhân sự công ty có thể không có, cho phép mở rộng phạm vi dự án hơn. Sự toàn cầu hóa của ngành AI cung cấp nền tảng hoàn hảo cho các nhà phân tích dữ liệu để đóng góp tầm ảnh hưởng cần thiết.

Khi toàn cầu hóa tiếp tục, các công ty ngày càng nhận thức rõ về những người mà họ thuê để làm công việc phân loại và sự đa dạng mà những cá nhân này mang lại. Những yếu tố này được đề cập một cách lý tưởng trong một kế hoạch quản lý dữ liệu toàn diện, cùng với một quy định về quyền riêng tư và bảo mật dữ liệu.

Khi dữ liệu ngày càng dễ tiếp cận ngày càng có nhiều tổ chức tham gia vào lĩnh vực AI, cơ hội để thành công – cũng như thất bại – sẽ tăng lên. Nhưng với mỗi câu chuyện mới, kiến thức sẽ dày thêm. Việc xây dựng mảng dữ liệu đúng đắn sẽ tiếp tục được coi là công cụ tạo ra lợi nhuận, và các nỗ lực quản lý dữ liệu phối hợp với đó sẽ mang lại các mô hình hiệu quả hơn, ít thiên lệch hơn vào năm 2021 và trong những năm tới.

Theo VentureBeat

Tin liên quan: