Những năm vừa qua, chúng ta đã được chứng kiến rất nhiều tiến bộ trong công nghệ nhận diện 2D. Giờ đây, ta đã có thể xây dựng những hệ thống nhận diện chính xác, địa phương hóa chúng với các 2D bounding box hoặc mask, từ đó dự đoán các vị trí keypoint 2D trong những hình ảnh thực tế phức tạp. Tuy nhiên, dù có hoạt động hiệu quả tới đâu, thì những hệ thống này vẫn đang bỏ qua một hiện thực tối trọng: thế giới và mọi sự vật đều thực chất là ở dạng 3D, chứ không hề bị hạn chế trong mặt phẳng XY của hình ảnh.

Song song với đó, khả năng hiểu hình dạng 3D thông qua các mạng deep learning cũng đã được cải thiện rất nhiều. Cụ thể, đã có rất nhiều cấu trúc mạng đa dạng được phát triển cho những biểu thị 3D khác nhau, bao gồm voxel, pointcloud), và mesh; với những điểm lợi và hại riêng trong mỗi biểu hiện. Tuy nhiên, hệ thống các kỹ thuật đa dạng này lại chủ yếu được phát triển từ những những kiểm chuẩn (benchmark) tổng hợp như ShapeNet – gồm nhiều sự vật được render riêng biệt, đơn giản hơn rất nhiều so với các kiểm chuẩn được sử dụng trong nhận diện 2D như ImageNet và COCO.

Theo các nhà nghiên cứu, đã tới lúc các hướng nghiên cứu riêng biệt tính tới hiện tại phải được kết hợp cùng nhau. Cụ thể, ta cần hướng mục tiêu tới việc xây dựng các hệ thống (tương tự như các phương thức được sử dụng trong 2D) có thể vận hành trên hình ảnh thực gồm nhiều sự vật và trạng thái sự vật, trong nhiều điều kiện ánh sáng khác nhau, đồng thời không được bỏ qua cấu trúc 3D đa chiều của thế giới (như các phương thức dự đoán hình khối 3D ở hiện tại).

Nghiên cứu này sẽ đặt một bước khởi đầu trên hành trình để đạt được mục tiêu nói trên. Trong bài nghiên cứu dưới đây, các tác giả đã sử dụng các phương thức quan sát 2D tân tiến nhất, cùng công nghệ dự đoán hình khối 3D để xây dựng một hệ thống lấy dữ liệu đầu vào là ảnh RGB của thế giới thực, phát hiện các sự vật trong ảnh, rồi cho kết quả là nhãn phân loại, mask phân khúc, cùng một lưới tam giác mô tả hình dạng 3D hoàn chỉnh của mỗi sự vật được phát hiện.

Phương pháp này được gọi là Lưới R-CNN (Mesh R-CNN), và được xây dựng trên hệ thống nhận diện 2D Mask R-CNN tân tiến. Phương pháp này sẽ tăng cường Mask R-CNN với một nhánh dự đoán lưới, có khả năng cho ra các lưới tam giác với độ phân giải cao.

Tiếp tục đọc tại: ĐÂY

Tin liên quan: