Tại hội thảo CVPR năm nay, Facebook AI đã mang công nghệ thuộc các lĩnh vực trong Thị giác máy tính (Computer vision – CV) lên một tầm cao mới, trong đó bao gồm các tác vụ phân khúc chính, tìm kiếm kiến trúc, học chuyển giao, và học đa mô hình.

Ngoài ra, Facebook cũng đã cũng chia sẻ chi tiết về một số nghiên cứu đáng lưu ý về những phương thức trình bày vật thể 3D trong các ảnh 2D thông thường. Đây là một công trình có khả năng mở ra một cánh cửa mới cho lĩnh vực thực tế ảo và thực tế ảo tăng cường, cũng như rất nhiều các trải nghiệm tương lai khác.

Tổng hợp các góc ảnh mới cho một cảnh phức tạp trong thực tế từ một hình ảnh duy nhất

Facebook đã xây dựng SynSin – một mô hình tiên tiến, với khả năng tổng hợp nhiều góc nhìn khác nhau về cảnh vật trong một hình ảnh duy nhất, mà không cần bất cứ tác động 3D nào. Hệ thống này hoạt động theo cơ chế dự đoán một điểm point cloud 3D, sau đó chiếu điểm này lên các góc ảnh mới, sử dụng một thiết bị render đặc nhiệm mới, thông qua PyTorch3D. Sau khi được render, điểm point cloud sẽ được chuyển tới một mạng sinh mẫu đối kháng (generative adversarial network – GAN), để tổng hợp ra các hình ảnh đầu ra. Trên thức tế, các phương thức hiện hành lại đang sử dụng lưới điểm ảnh ba chiều dày, qua đó tổng hợp được ra nhiều ảnh của một vật thể, song lại chưa thể thực hiện tương tự trên các cảnh thực phức tạp.

Trong khi đó, với tính linh hoạt của point cloud, thì SynSin vừa có thể thực hiện tác vụ trên, vừa có thể tổng hợp ra nhiều độ phân giải khác nhau với hiệu suất cao hơn các phương thức thay thế như lưới điểm ảnh ba chiều. Năng lực của SynSin, vì vậy sẽ giúp ta khám phá nhiều ứng dụng hơn, ví dụ như tổng hợp ra các ảnh 3D và video 360 độ với chất lượng tốt hơn.

Đọc nghiên cứu đầy đủ tại ĐÂY.

Tái tạo chi tiết hình ảnh người 3D với chất lượng chưa từng thấy từ một hình ảnh duy nhất

Facebook đã phát triển ra một phương thức mới để tổng hợp ra các hình ảnh 3D của người từ các ảnh 2D, với mức độ chi tiết và chất lượng chưa từng đạt được trước đó. Cụ thể, phương thức này có thể tái tạo cả những chi tiết nhỏ như ngón tay, biểu cảm gương mặt, và các nếp gấp quần áo, cho ra ảnh đầu ra với độ phân giải cao, mà không phải thông qua bất cứ bước xử lý bổ sung nào.

Để đạt được thành quả nêu trên, Facebook đã xây dựng một kiến trúc mạng nơ-ron đa tầng có hệ cấp, dựa trên phương thức PIFu (Pixel-Aligned Implicit Function), giúp tiết kiệm bộ nhớ, đồng thời xử lý được cả các bối cảnh chung và chi tiết cụ thể, để tạo ra các hình ảnh 3D với độ phân giải cao. Trong đó, cấp đầu của mạng nơ-ron sẽ xử lý các cấu trúc 3D chung của con người, sử dụng các hình ảnh đầu vào với độ phân giải thấp – tương tự như phương thức PIFu. Sau đó, cấp thứ hai là một mạng nơ-ron nhẹ, đảm nhận việc xử lý các hình ảnh đầu vào với độ phân giải cao (1K), qua đó phân tích các chi tiết cụ thể. Thông qua việc cho phép truy cập các thông tin 3D khái quát ở cấp đầu, hệ thống sẽ có thể vận dụng cả thông tin khái quát lẫn chi tiết, để tái tạo ra người 3D với độ phân giải cao. Dưới đây là minh họa so sánh kết quả định tính của phương thức này với phương thức tân tiến nhất ở hiện tại:

Các hình ảnh 3D mịn, với chất lượng cao này, có thể sẽ hỗ trợ tăng cường cho một số ứng dụng quan trọng, ví dụ như tạo ra các trải nghiệm thực tế ảo trung thực hơn.

Đọc nghiên cứu đầy đủ tại ĐÂY.

“Wish you were here”: Duy trì bối cảnh trong tổng hợp hình ảnh người

Facebook đã xây dựng một hệ thống với khả năng lấy hình ảnh của một người từ một ảnh gốc, rồi thêm người đó vào một ảnh khác, trong khi vẫn duy trì chất lượng và bối cảnh của tương tác ảnh. Cụ thể, mô hình này có thể tổng hợp ra hình ảnh một người sao cho phù hợp với người khác trong ảnh, tức chỉnh sửa ảnh gốc của người này, sao cho tư thế của người đó phù hợp với bối cảnh mới. Đây là một lĩnh vực ứng dụng rất khó, bởi lẽ con người rất dễ phát hiện các điểm không thích hợp khi xuất hiện các hình ảnh người nhân tạo bên cạnh các ảnh gốc. Khác với công trình trước đó – với khả năng thêm người vào các ảnh có sẵn, công trình này có thể được ứng dụng với nhiều tư thế, góc ảnh, quy mô, và cả các ảnh bị che.

Phương thức bao gồm ba mạng lưới phụ. Trong đó, mạng đầu tiên sẽ tổng hợp ra cấu trúc của người mới trong ảnh, mạng thứ hai sẽ render ra một người “thật” dựa trên cấu trúc được tổng hợp ở mạng một và ảnh đích, còn mạng thứ ba sẽ hoàn thiện gương mặt của người này. Kết quả tổng hợp và các hình ảnh đầu ra với độ phân giải cao qua nhiều kiểm nghiệm khác nhau. Ngoài ra, Facebook cũng đã thực hiện đánh gia riêng từng mạng, và đạt được kết quả xuất sắc trong việc tổng hợp và truyển tải tư thế, cũng như trong nhiều ứng dụng khác, ví dụ như vẽ người, và đổi kiểu tóc, quần áo.

Thực tiễn đã cho thấy, ngày càng có nhiều người quan tâm hơn tới các sự kiện từ xa, cũng như việc tương tác từ nhiều địa điểm khác nhau, và công trình này có thể sẽ giúp việc hợp tác được tự nhiên hơn khi sử dụng công cụ video, cũng như truyền cảm hứng cho nhiều trải nghiệm AR khác.

Đọc nghiên cứu đầy đủ tại ĐÂY.

Theo Facebook AI

Tin liên quan: