Nghiên cứu giới thiệu một phương thức mới, có thể phân tách lên tới 5 giọng nói đồng thời trên một mic duy nhất. Đây là một phương thức vượt qua tất cả các công nghệ tiên tiến trước đây, thông qua nhiều thang đánh giá phân tách giọng khác nhau, trong đó bao gồm cả các thang có xuất hiện các tiếng ồn khó tách và cả tiếng vọng.

Sử dụng các bộ dữ liệu là: WSJ0-2mix và WSJ0-3mix, cùng với đó những sự kết hợp khác giữa 4 và 5 giọng nói đồng thời, mô hình của nghiên cứu này đã cải thiện đáng kể tỷ lệ scale-invariant SI-SNR (tức tỷ lệ tín hiệu trên tiếng ồn – một thang đo thường gặp trong đánh giá chất lượng phân tách âm thanh) so với các mô hình tiên tiến khác.

Mô hình này được xây dựng trên một kiến trúc mạng nơ-ron hồi quy (RNN), hoạt động trực tiếp trên audio gốc dạng sóng. Trong khi đó, các mô hình tốt nhất hiện nay vẫn đang sử dụng mask và một decoder (bộ giải mã) để phân tách giọng từng người. Do đó, hiệu quả của những mô hình sẽ giảm sút mạnh khi xuất hiện nhiều người nói, hoặc số lượng người nói không cụ thể.

Cũng như nhiều hệ thống phân tách giọng khác, mô hình này cần biết trước số lượng người nói trong file audio. Tuy nhiên, để xử lý các trường hợp không biết được số lượng người nói, các nhà nghiên cứu cũng đã xây dựng một hệ thống tiên tiến mới, có khả năng tự động phát hiện số lượng người nói, và lựa chọn mô hình phân tách thích hợp nhất.

Cơ chế hoạt động

Mục tiêu chính của các mô hình phân tách giọng nói là: Ước lượng nguồn gốc giọng dựa trên các tín hiệu giọng hỗn hợp đầu vào, rồi tổng hợp ra các kênh riêng biệt cho từng giọng nói.

Mô hình sử dụng một mạng lưới encoder, qua đó chuyển hóa các tín hiệu đầu vào thành các biểu diễn ngầm. Sau đó áp dụng một mạng phân tách giọng bao gồm nhiều block, mà trong đó, đầu vào là các biểu diễn ngầm nói trên, còn đầu ra là tín hiệu ước lượng cho từng người nói. Ở bước này, các phương thức thường gặp sẽ sử dụng mask để phân tách – dễ gây ra mất một số tín hiệu trong phân tách nếu mask chưa được định rõ.

Các nhà nghiên cứu cũng đã huấn luyện mô hình và trực tiếp tối ưu hóa tỉ lệ SI-SNR, thông qua sử dụng các hàm loss và phương thức hoán vị bất biến (permutation invariant method). Cụ thể, nghiên cứu đã tích hợp một hàm loss vào mỗi block phân tách, nhằm cải thiện quy trình tối ưu hóa. Sau đó, để đảm bảo rằng mỗi giọng nói đều được chuyển về một kênh đầu ra cụ thể, bổ sung một hàm perceptual loss function, thông qua một mô hình nhận diện người nói đã đượcc huấn luyện trước.

Ngoài ra, các nhà nghiên cứu cũng xây dựng một hệ thống mới, với khả năng phân tách được giọng khi không biết trước số lượng người nói, bằng cách huấn luyện nhiều mô hình cho từng số lượng người nói khác nhau (từ 2 tới 5). Sau đó, hỗn hợp giọng sẽ được sử dụng làm đầu vào cho mô hình xử lý được tối đa 5 giọng, và mô hình này sẽ phát hiện tổng số kênh đang hoạt động (tức có âm thanh) trong hỗn hợp. Sau đó, quy trình này sẽ được lặp lại ở đúng mô hình cho số lượng giọng này, rồi kiểm tra xem có phải tất cả các kênh lúc này đều đang hoạt động hay không. Quá trình này sẽ được thực hiện liên tục cho tới khi tất cả các kênh đều được xác định là đang hoạt động, hoặc cho tới khi tìm ra mô hình với số lượng người nói thấp nhất.

Ý nghĩa nghiên cứu

Khả năng phân tách giọng trong một cuộc trò chuyện giữa nhiều người sẽ giúp cải thiện, cũng như nâng cao giao tiếp trong rất nhiều ứng dụng trong đời sống thường ngày, cụ thể như trao đổi tin nhắn giọng, trợ lý ảo, công cụ video, cũng như các sản phẩm AR/VR. Với công nghệ này, chúng ta cũng có thể cải thiện chất lượng âm thanh trong thiết bị trợ thính, giúp người khiếm thính có thể nghe rõ hơn trong các môi trường đám đông và nhiều tiếng ồn, ví dụ như ở các bữa tiệc, nhà hàng, hay cuộc gọi video với nhiều người.

Ngoài ra, hệ thống phân tách giọng này cũng có thể được sử dụng để tách giọng nói ra khỏi các âm thanh khác, ví dụ như tiếng ồn, hay thậm chí là được sử dụng trong các bản thu nhạc, nếu sử dụng trên một công trình phân tách tiếng nhạc cụ trước đó. Trong tương lai, các nhà nghiên cứu sẽ tiếp tục cải thiện các tính năng tổng hợp khác của mô hình này, cho tới khi mô hình đạt hiệu quả cao trong các điều kiện thực tế.

Tin liên quan: