Nhờ có công nghệ thị giác máy tính, máy móc hiện đã có thể hiểu được nội dung trong các hình ảnh và video. Mục tiêu của công nghệ này là tự động hóa được các tác vụ hình ảnh mà thông thường được thực hiện bởi con người.

Cụ thể, các tác vụ thị giác máy tính (computer vision) bao gồm: thu thập hình ảnh, xử lý hình ảnh, và phân tích hình ảnh. Dữ liệu hình ảnh lại có thể mang nhiều dạng khác nhau, từ chuỗi video, chuỗi video từ nhiều góc quay, cho tới dữ liệu đa chiều được cung cấp bởi các máy scan y tế. Dưới đây là 20 bộ dữ liệu hình ảnh đa dạng, giúp thuật toán thị giác máy tính hoạt động được hiệu quả hơn.

Các bộ dữ liệu hình ảnh giúp huấn luyện mô hình thị giác máy tính

Labelme: Đây là một bộ dữ liệu lớn được tạo lập bởi Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo MIT (CSAIL), bao gồm 187.240 hình ảnh khác nhau, trong đó có 62.197 hình ảnh có chú thích và 658.992 vật thể được đánh nhãn.

Lego Bricks: Gồm khoảng 12.700 hình ảnh về 16 loại Lego khác nhau, được render bằng máy tính và phân loại thành nhiều thư mục.

ImageNet: Một bộ dữ liệu nổi tiếng phù hợp cho các thuật toán mới, và được sắp xếp bằng cơ chế WordNet, trong đó mỗi từ đều được mô tả bằng hàng trăm hoặc nghìn hình ảnh khác nhau.

LSUN: Bộ dữ liệu này giúp mô hình hiểu được bối cảnh thông qua nhiều tác vụ thứ cấp khác nhau (như ước tính bố cục, dự đoán điểm nhô/nổi bật…)

MS COCO: COCO là một bộ dữ liệu quy mô lớn, được sử dụng cho các tác vụ phát hiện vật thể, phân khúc, và chú thích ảnh, bởi hơn 200.000 hình ảnh được đánh nhãn. Bộ dữ liệu này có thể được ứng dụng trong rất nhiều use case khác nhau.

Columbia University Image Library: Còn được gọi là COIL100, bộ dữ liệu này bao gồm các ảnh chụp 360 độ của 100 vật thể khác nhau.

Visual Genome: Visual Genome là một bộ dữ liệu và tri thức được tạo lập với mục tiêu kết nối các khái niệm hình ảnh với ngôn ngữ. Bộ dữ liệu này bao gồm 108.077 hình ảnh có chú thích.

Google’s Open Images: Bao gồm 9 triệu đường link URL dẫn tới các hình ảnh “đã được đánh nhãn về hơn 6.000 phân loại khác nhau”.

Ảnh đã chú thích trong bộ dữ liệu Open Images. Bên trái: Ghost Arches, chụp bởi Kevin Krejci. Bên phải: dụng cụ ăn bằng bạc, chụp bởi J B. Both , giấy phép CC BY 2.0.

Youtube-8M: Một bộ dữ liệu quy mô lớn, đã đánh nhãn, bao gồm hàng triệu ID video trên Youtube, với các nhãn thuộc hơn 3.800 phân loại khác nhau.

Labelled Faces in the Wild: Bộ dữ liệu này bao gồm 13.000 hình ảnh mặt người đã đánh nhãn, hỗ trọ cho việc phát triển các ứng dụng nhận diện gương mặt.

Stanford Dogs Dataset: Gồm 20.580 hình ảnh của 120 giống chó khác nhau, trong đó mỗi giống có khoảng 150 hình.

Places: Bộ dữ liệu này chủ yếu chứa các hình ảnh phong cảnh, được chia thành 205 phân loại và gồm 2,5 triệu hình ảnh được đánh nhãn.

CelebFaces: Đây là một bộ dữ liệu gồm hơn 200.000 hình ảnh người nổi tiếng, trong đó mỗi ảnh lại có 40 nhãn về đặc điểm gương mặt.

Ảnh mẫu từ bộ dữ liệu CelebFaces.

Flowers: Bộ dữ liệu bao gồm các hình ảnh của những loài hoa phổ biến tại Vương Quốc Anh, được chia làm 102 loại khác nhau. Trong đó, mỗi phân loại chứa từ 40 tới 258 hình ảnh, ở nhiều góc chụp và điều kiện ánh sáng khác biệt.

Plant Image Analysis: Bao gồm hơn 1 triệu hình ảnh về thực vật, được chia thành 11 loài chính.

Home Objects: Bộ dữ liệu này chứa các ảnh chụp đồ vật trong nhà, chủ yếu là đồ dùng nhà bếp, phòng tắm, và phòng khách, đồng thời được chia thành hai bộ dữ liệu huấn luyện và kiểm thử riêng biệt.

CIFAR-10: Bao gồm 60.000 hình ảnh màu kích cỡ 32×32, được chia thành 10 phân loại khác nhau. Bộ dữ liệu này được chia thành 5 bộ huấn luyện và 1 bộ kiểm thử, với 10.000 hình ảnh ở mỗi bộ.

CompCars: Bao gồm hình ảnh chụp 1.716 mẫu xe đến từ 163 thương hiệu khác nhau, trong đó mỗi mẫu xe lại được đánh nhãn chỗ 5 đặc điểm, đó là: tốc độ tối đa, số cửa xe, số ghế trên xe, loại xe, và li độ xe.

Indoor Scene Recognition: Một bộ dữ liệu phong cảnh trong nhà vô cùng hữu hiệu, bởi lẽ đa số các mô hình nhận dạng phong cảnh đều cho kết quả tốt hơn với cảnh ngoài trời. Bộ dữ liệu này bao gồm 15.620 hình ảnh, được chia thành 67 loại cảnh khác nhau.

VisualQA: Còn được gọi là VQA, đây là một bộ dữ liệu chưa các câu hỏi mở về khoảng 265.016 hình ảnh. Các câu hỏi này sẽ giúp các mô hình thị giác máy tính có thêm nhận thức về cả hình ảnh lẫn ngôn ngữ. Với mỗi hình ảnh, bộ dữ liệu này cung cấp ít nhất là 3 câu hỏi và 10 câu trả lời cho mỗi câu hỏi mở.

is a dataset containing open-ended questions about 265,016 images.  These questions require an understanding of vision and language. For each image, there are at least 3 questions and 10 answers per question.

Theo Hackernoon

Tin liên quan: