Kiến thức về 3D đóng một vai trò rất quan trọng trong việc nâng cao năng lực của các hệ thống AI, giúp các hệ thống này dễ dàng hiểu được thế giới thực, đồng thời vận hành tốt hơn ở các các tác vụ như định vị vật lý, cải thiện trải nghiệm thực tế ảo, hay thậm chí là nhận diện các đồ vật bị che trong 2D.

Tuy nhiên, việc nghiên cứu về deep learning 3D lại rất hạn chế do sự thiếu hụt về công cụ và tài nguyên để hỗ trợ các vấn đề nan giải trong việc sử dụng dữ liệu 3D trên mạng nơ-ron, cũng như sự thật rằng, khó có thể phân biệt các graphic operator truyền thống.

PyTorch3D – một thư viện mô-đun tối ưu được xây dựng và phát hành bởi Facebook AI, với những khả năng đặc biệt được thiết kế để giúp đơn giản hóa deep learning 3D với PyTorch. Trong đó, PyTorch3D sẽ cung cấp một bộ các operator 3D thường dùng, cũng như các hàm mất loss nhanh chóng và dễ phân biệt cho dữ liệu 3D. Song song với đó là một API render dạng mô-đun có thể phân biệt, giúp các nhà nghiên cứu dễ dàng nhập hàm vào các hệ thống deep learning tân tiến nhất.

PyTorch3D cũng là một chất xúc tác mới, giúp thúc đẩy các công trình xây dựng Mesh R-CNN của Facebook AI, một chương trình có khả năng tái tạo một vật 3D từ hình ảnh của các không gian phức tạp bên trong.

Các nhà nghiên cứu và kỹ sư cũng có thể sử dụng PyTorch3D theo cách tương tự trong rất nhiều nghiên cứu về deep learning 3D – từ tái tạo 3D, dịch chuyển cụm (bundle adjustment), và thậm chí là lý luận 3D – tới cải thiện các tác vụ nhận diện 2D. Hiện tại, Facebook đang chia sẻ thư viện PyTorch3D và mở mã nguồn của Mesh R-CNN.

Giới thiệu

PyTorch3D giúp việc nghiên cứu Thị giác Máy tính 3D bằng PyTorch tăng độ hiệu quả cũng như khả năng tái tạo.

Các đặc điểm chính của thư viện này bao gồm:

  • Cấu trúc dữ liệu dùng cho việc lưu trữ và điều khiển các lưới tam giác (triangle mesh).
  • Vận hành hiệu quả trên lưới tam giác (biến đổi xạ ảnh, tích chập đồ thị, lấy mẫu, hàm loss).
  • Render lưới dễ phân biệt.

Chi tiết tại ĐÂY.

Tin liên quan: