Bất chấp những ngăn cản rò rỉ nội dung của bộ dữ liệu ImageNet từ các nhà phát hành, nội dung của bộ dữ liệu này đã bị lan truyền, và hiện đang trong quá trình “làm sạch”.

ImageNet – bộ dữ liệu được sử dụng để huấn huyện các hệ thống AI trên toàn thế giới, bị phát hiện chứa các hình ảnh trẻ em khỏa thân, gia đình, tiệc đại học, ảnh ngôi sao khiêu dâm – Được lấy từ trên mạng mà hoàn toàn không có sự cho phép của các cá nhân xuất hiện trên ảnh.

Thư viện này bao gồm 14 triệu hình ảnh, được chia thành nhóm theo các đối tượng trên ảnh. Sau đó, các ảnh này cùng với nhãn đánh dấu sẽ được sử dụng để huấn luyện các ứng dụng trí tuệ nhân tạo cho việc nhận diện sự vật và con người xuất hiện trên ảnh.

Bộ dữ liệu này đã được tải bởi rất nhiều người, sử dụng để huấn luyện hàng nghìn mạng nơ-ron trong việc nhận diện ảnh, cũng như phân biệt vô số các sự vật khác nhau.

Vào năm 2012, bộ dữ liệu này đã được sử dụng để xây dựng AlexNet – Một bước tiến lớn trong Deep Learning, cũng là mạng nơ-ron đầu tiên đánh bại máy tính trong độ chính xác khi nhận diện sự vật. AlexNet sau đó đã tiếp tục chiến thắng thử thách nhận diện thị giác quy mô lớn của ImageNet.

Tuy nhiên, mọi người thường tán dương những thành công được đem lại bởi ImageNet, mà lãng quên đi những mặt trái của nó.

Vinay Prabhu, một nhà khoa học về Machine Learning, làm việc tại một startup AI trong lòng Thung Lũng Silicon, đã tình cờ tìm ra vài hình ảnh đáng lưu tâm trong bộ dữ liệu này.

Chia sẻ với báo giới, anh nói: “Tôi chỉ đang tổng hợp ra vài hình ảnh xe đạp bằng BigGAN.” BigGAN là một hệ đối kháng tổng hợp, đồng thời là một hệ thống Machine Learning có thể được đào tạo để tạo ra các đầu ra mới hoàn toàn sau khi học từ một vài hình ảnh đầu vào. Điều này có nghĩa là, Prabhu đang muốn lấy hình ảnh xe đạp từ ImageNet để tổng hợp ra những hình ảnh xe mới hoàn toàn.

Tuy nhiên, thứ code của Prabhu tổng hợp ra không phải xe đạp, mà là những khối màu da giống như những cơ thể phụ nữ dị dạng và được làm mờ. Vì vậy, anh quay lại để kiểm tra dữ liệu huấn luyện, và phát hiện ra rằng, dữ liệu này bao gồm hình ảnh bikini thay vì xe đạp.

Các hình ảnh trên ImageNet được phân loại theo bảng chữ cái, rồi xếp vào các nhóm đánh số theo chiều tăng. Vì vậy, Prabhu đã sử dụng nhầm bộ dữ liệu 445 là bikini thay vì bộ dữ liệu số 444 là xe đạp.

Anh chia sẻ: “Đầu tiên thì tôi thấy nó khá buồn cười, nên đã quyết định xem thử bộ dữ liệu này.” Đáng tiếc nay, sự hài hước này không kéo dài lâu.

Những hình ảnh này rõ ràng là vô đạo đức,” Prabhu nói. Cụ thể, trong bộ dữ liệu, anh nhìn thấy ảnh khỏa thân từ phía sau của trẻ em, các ngôi sao khiêu dâm, và cả những ảnh riêng tư của đàn ông đang mặc đồ lót phụ nữ. Một vài hình ảnh thậm chí còn nguyên watermark với đường link dẫn tới các trang khiêu dâm đăng tải những hình ảnh này.

Khó mà có thể định đoạt được nội dung nào thì được coi là khiêu dâm, nhưng trong trường hợp này, ta có thể các đường link ngay trên ảnh,” anh chia sẻ.

Prabhu quyết định tìm hiểu sâu hơn, và vì vậy đã xem qua vài bộ dữ liệu khác trên thư viện ImageNet. Những thứ anh tìm thấy còn kỳ dị hơn rất nhiều, và có vẻ như, những người trên ảnh không hề cho phép việc sử dụng ảnh của họ trong các bộ dữ liệu này, cũng như dùng chúng trong phân tích và đào tạo vô số các mạng nơ-ron.

Họ không hề biết là bản thân có trên ImageNet,” Prabhu nói. Anh cũng chia sẻ, mình đã liên lạc với ImageNet để bày tỏ về các nội dung trên, song không hề nhận được phản hồi.

Đội ngũ ImageNet từ chối cho phép báo chí truy cập các bộ dữ liệu trên, và khẳng định thư viện hiện đang không truy cập được vì lý do bảo trì. Ngoài ra, các dữ liệu này đã bị cấm tải kể từ tháng 1 năm nay, và các liên lạc để hỏi trước và sau tháng này đều đã bị ImageNet từ chối.

Tuy nhiên, một nguồn tin trong ngành đã đồng ý để báo chí truy cập toàn bộ 1.31 TB tài nguyên thư viện này. Và quả nhiên, nội dung của nó có rất nhiều vấn đề.

Quần bơi và mũ tắm

Hình ảnh trẻ em khỏa thân tràn đầu các mục “quần bơi” và “mũ tắm”. Trong một hình ảnh, ta có thế thấy một đứa trẻ đang nhăn nhó, đeo một chiếc mũ tắm trong suốt, đang đứng trước một người đàn ông khỏa thân, và bức ảnh được cắt ngay gần hạ vị của đứa bé. Còn ở bộ ảnh cho “kimino”, có thể thấy ảnh một người phụ nữ nào đó trên giường, kimono được cởi, để lộ toàn bộ phần thân dưới. Ngoài ra, cũng có rất nhiều ảnh người trần truồng hoặc ăn mặc thiếu vải trên bãi biển.

Như vậy, trong hàng triệu bước ảnh trên ImageNet, có những bức ảnh hoàn toàn vô hại, song lại có những bức ảnh với nội dung đáng lo ngại.

Vấn đề mấu chốt lại nằm ở cách những hình ảnh này được thu thập. Để đào sâu hơn, các nhà nghiên cứu tại Đại học Stanford và Đại học Princeton đã viết một phần mềm để loại bỏ phần lớn các ảnh tới từ Google, Bing, và nền tảng chia sẻ ảnh Flickr.

Kết quả là, tuy rằng hầu hết các ảnh đều được cấp quyền sử dụng (như Creative Commons), cho phép đội ngũ của ImageNet và các nhà khoa học có thể tự do sử dụng và phát tán chúng, thì những người trong ảnh không hề đồng ý việc hình ảnh của họ được sử dụng cho AI vào nhiều năm sau. Và đây cũng là một bài học cho chúng ta bây giờ: Những dữ liệu của chúng ta ngày hôm nay có thể được sử dụng một cách hoàn toàn tự do, cho những mục đích không thể tưởng tượng được trong tương lai.

Chỉ là nhầm lẫn

Những hình ảnh được thu thập sẽ được xử lý bởi các nhân viên thuộc chương trình Amazon Mechanical Turk (MTurk), thường được trả một mức lương thấp cho các công việc đơn giản. Thông thường, những người này sẽ phân loại ảnh một cách thủ công, hoặc tạo khung bao quanh các sự vật trong ảnh.

Và mặc dù đã qua bước này, rất nhiều hình ảnh đang lo ngại vẫn tồn tại. Do đó, đội ngũ ImageNet đã quy trách nhiệm cho những hình ảnh này về lỗi của các nhân viên này. Theo họ, hiển nhiên là sẽ xuất hiện lỗi sai khi bạn chỉ có vài chục ngàn người làm việc tự do, phải xử lý tới hơn 160 triệu bức ảnh.

Các nhân viên MTurk chắc chắn sẽ phạm sai lầm, và sẽ luôn xuất hiện các spammer – những người bỏ ngoài tai các chỉ dẫn và có chất lượng làm việc kém,” phát ngôn viên của dự án bày tỏ.

Chúng tôi cũng có một hệ thống kiểm soát chất lượng tự động để lọc các spammer và các hình ảnh có vấn đề, nhưng hiển nhiên, nó không thể hoàn hảo. Cho dù có phòng tránh tới đâu, thì cũng sẽ luôn xảy ra vấn đề, nhất là với một quy mô lớn như vậy, có tới 160 triệu hình ảnh, và 50.000 nhân viên làm việc cho MTurk.”

Tom White, một họa sỹ kỹ thuật số chuyên về mảng AI, kiêm giảng viên tại Trường Thiết kế Wellington, Đại học Victoria, cũng đã từng sử dụng bộ dữ liệu ImageNet khi làm việc. Nhắc về bộ dữ liệu, anh chia sẻ: “Có vô số các hình ảnh không thích hợp trên mạng, và ta không thể mong đợi một bộ dữ liệu tự động nào có thể hoàn toàn không có chúng. Các nhà phát hành đã rất cố gắng để loại bỏ chúng, nhưng cho dù có cố gắng tới đây, thì các công sức này cũng ít có ích.”

Vì vậy, họ cho phép các hình ảnh này tồn tại, bởi lẽ việc loại bỏ chúng tốn rất nhiều tài nguyên, và ảnh hưởng của những ảnh này lên việc đào tạo các mô hình Machine Learning cũng hoàn toàn không đáng kể.”

Cần phải cập nhật luật bản quyền

Việc sử dụng các nguồn công khai để gây dựng bộ dữ liệu như cách ImageNet làm có thể gây ra rất nhiều tranh cãi. Kể cả khi các hình ảnh này đã được cấp quyền, thì liệu việc sử dụng chúng để xây dựng các mạng nơ-ron nhận diện là có đúng hay không? Liệu chúng ta có cần phải đoán trước tương lai trước khi chia sẻ thông tin lên mạng?

Với Albert Cahn, luật sư, người sáng lập, đồng thời là trưởng Dự án Surveillance Technology Oversight – Một tổ chức phi lợi nhuận có trụ sở tại New York đã bày tỏ quan ngại rằng “ảnh hưởng tới bảo mật của việc thu thập dữ liệu cho các tác vụ thị giác máy tính là vô cùng đáng quan ngại.”

Chia sẻ với báo chí, Cahn khẳng định: “Hàng triệu gương mặt đang được sử dụng và bị thương mại hóa mà không có sự cho phép của chính chủ, điều này là vô cùng đáng báo động. Sự xuất hiện của hình ảnh trẻ em trong các bộ dữ liệu này đã thật sự chứng minh việc những luật lệ cho việc chọn lựa ảnh là vô cùng lỏng lẻo.”

Theo ông, các luật mới cần phải bảo vệ việc thu thập và phân tích dữ liệu của người dùng. “Họ thường xuyên sử dụng các dữ liệu sinh trắc của chúng ta mà không hề xin phép. Trong khi một số là thực hiện đúng luật, thì chúng ta vẫn cần có các phương thức bảo vệ bảo mật sinh trắc tốt hơn, chống lại việc thu thập dữ liệu như thế này.”

Và hiện tại, thông tin của chúng ta có thể được lấy dễ dàng hơn bao giờ hết và sử dụng trong machine learning. Vì vậy, chúng ta cần luật pháp được cập nhật, thay thế các điều luật bản quyền cũ, không hề đủ trong bối cảnh hiện tại.”

Thiên vị và phân biệt chủng tộc

Theo các nhà phát hành ImageNet, họ biết về các nội dung đang lo ngại của bộ dữ liệu này. Ngoài việc hình ảnh, còn xuất hiện các nhãn hiệu mang xu hướng thiên vị và phân biệt chủng tộc.

Cụ thể, dự án ImageNet Roulette được tạo ra bởi Kate Crawford – Đồng sáng lập viện AI Now chuyên về các ảnh hưởng xã hội của AI, và Trevor Paglen – Một nghệ sĩ quan tâm tới vấn đề theo dõi tập thể và thu thập thông tin, đã cho thấy, ImageNet sử dụng các nhãn mang tính xúc phạm và phân biệt chủng tộc khi mô tả các ảnh selfie.

Chúng tôi đồng ý rằng, các hình ảnh sai trái không nên xuất hiện trong bộ dữ liệu”, đội ngũ ImageNet chia sẻ.

Hiện tại, chúng tôi đang phát triển và thực hiện một cách tiếp cận mới để phát hiện và loại bỏ những hình ảnh này. Và bởi lẽ, theo thời gian, những quy tắc cho “không hợp lệ” có thể thay đổi, nên cách tiếp cận mới sẽ cần khách quan, dựa trên tiêu chuẩn công đồng và mục đích sử dụng.”

Về cơ bản, điều này có nghĩa là, họ đang xóa bỏ những hình ảnh sai đạo đức, đồng thời làm mờ các gương mặt xuất hiện trên bộ dữ liệu.

Os Keyes, một nghiên cứu sinh tại Đại học Washington, chuyên ngành Giới tính và Thuật toán, đã chia sẻ rằng “làm mờ mặt là cần thiết, nhưng chưa đủ, bởi lẽ đây không phải cách duy nhất có thể sử dụng để định danh một người”. Quả nhiên, còn có nhiều cách thức khác, dựa vào quần áo, hình xăm, hay ID.

Ta có thể nhận diện người qua gương mặt, nhưng cũng có thể nhận diện qua nhiều yếu tố khác qua ảnh, và việc loại bỏ các yếu tố có thể dùng để nhận diện là rất khó khăn,” Keyes nói. “Đây vẫn là một tình huống và việc chủ động cho quyền sẽ giải quyết được vấn đề.”

Và kể cả khi các hình ảnh bị xóa, thì cũng có rất nhiều vấn đề có thể nảy sinh. Cụ thể, Crawford và Paglen nói: “Xóa bỏ hoàn toàn các hình ảnh này đồng nghĩa với việc xóa bỏ một phần lịch sử AI, đồng thời các nhà nghiên cứu cũng không biết những nhãn hiệu, giả thiết, và danh mục cũ được thay thế như thế nào. Và vì vậy, họ cũng không thể tìm ra những sai lệch và thiên vị mới trong hệ thống.”

Đây là vấn đề nảy sinh từ việc không thể tiếp cận các dữ liệu cũ. Nếu chúng đang được sử dụng trong các hệ thống đóng vai trò quan trọng trong đời sống thường này, thì ta cần phải học và hiểu được về góc nhìn mà chúng đã tạo ra.”

FPT TechInsight
Theo The Register

Tin liên quan: