Tạo hoạt họa nhân vật từ giọng nói với AI

36

Các nhà nghiên cứu từ Viện Max Planck về các hệ thống thông minh, một thành viên của chương trình NVAIL của NVIDIA, đã phát triển một thuật toán học sâu end-to-end có thể nhập dữ liệu từ giọng nói và tạo hoạt họa từ nhiều gương mặt khác nhau.

Có rất nhiều nghiên cứu về việc tái tạo hình dạng và biểu cảm, cử động gương mặt dưới dạng 3D thông qua hình ảnh video, trái với số lượng ít ỏi của những nghiên cứu về tái tạo gương mặt thông qua giọng nói,” các nhà nghiên cứu khẳng định trong nghiên cứu mới. “Hiểu biết về mối tương quan giữa giọng nói và cử động gương mặt có thể đem lại những thông tin vô giá trong phân tích con người, đặc biệt là khi các tài liệu ảnh hay video bị thiếu, lỗi hoặc mờ.

Trước hết, nhóm nghiên cứu đã thu thập các gương mặt scan 4D kèm với giọng nói. Bộ dữ liệu bao gồm 12 gương mặt và 480 chuỗi cử động trong 3-4 giây, được sử dụng để huấn luyện một mô hình mạng nơ-ron sâu trên NVIDIA Tesla GPUs, với một hệ thống gọi là VOCA (Voice Operated Character Animation: Tạo hoạt họa nhân vật từ giọng nói), sử dụng khung học sâu TensorFlow và gia tốc bởi cuDNN.

Với VOCA, chúng tôi mong muốn có thể khái quát tốt cả những yếu tố độc lập không được bao hàm trong quá trình đào tạo”, các nhà nghiên cứu chia sẻ. “Khái quát đa yếu tố bao gồm 2 đặc điểm, thứ nhất là khái quát chung cho biến thể giọng nói (gồm tông giọng, tốc độ nói, nguồn âm, nhiễu, môi trường…); và thứ hai là khái quát chung cho biến thể về hình dạng và biểu cảm gương mặt.”

Để có thể tạo hoạt họa, VOCA yêu cầu dữ liệu mẫu cụ thể về đối tượng và tín hiệu ghi âm gốc được xuất tách qua DeepSpeech của Mozilla – một hệ thống speech-to-text với mã nguồn mở dựa trên suy diễn từ CUDA và NVIDIA GPU.

Mục tiêu cuối cùng của mô hình là tạo ra một hoạt họa 3D của đối tượng.

Cấu trúc mạng VOCA.

Trong quá trình thử nghiệm, các nhà nghiên cứu đã tạo ra rất nhiều gương mặt người lớn khác nhau, được đánh dấu để tạo ra các giọng nói khác nhau phù hợp. Thuật toán đã hoạt động khá hiệu quả, khái quát hóa được cả các biển thể giọng nói không xuất hiện trong đào tạo.

Sản phẩm của nghiên cứu đã được giới thiệu tại hội thảo “Computer vision and Pattern Recognition” tại Long Beach, California.

 Theo NVIDIA Developer

Tin liên quan: