Nếu bạn hay nghe podcast trong thời gian giãn cách xã hội do đại dịch Corona, thì bạn hẳn là đã nhận ra một điểm yếu chí mạng của việc giao tiếp trên không gian số: chất lượng âm thanh không hề phù hợp. Các buổi phỏng vấn qua mạng và các cuộc gọi qua video đều thường bị nhiễm tiếng ồn bên ngoài, bị vang, hoặc tiếng rất khó nghe.

Các nhà nghiên cứu tại Đại học Princeton mới đây đã phát triển thành công một phương thức giúp cải thiện các trải nghiệm âm thanh nói trên. Ứng dụng công nghệ deep learning (học sâu), một nhánh của trí tuệ nhân tạo (AI), kỹ thuật này đã thành công biến những bản thu chất lượng thấp trở nên rõ nét tương đương với các bản thu tại studio chuyên nghiệp.

Trong khi các kỹ thuật AI khác thường chỉ có thể khắc phục một khía cạnh trong chất lượng âm thanh, ví dụ như lọc tiếng ồn hay bỏ âm vang, kỹ thuật mới này lại tích hợp được tất cả mọi khía cạnh. Được biết, các nhà nghiên cứu mong muốn sẽ có thể ứng dụng công nghệ mới để mang lại các tính năng cải thiện chất lượng tự động, trên thời gian thực.

Các phương thức trước đây thường chủ yếu tập trung vào độ rõ của âm thanh, làm cho các bản thu trở nên tẻ nhạt hơn, khiến trải nghiệm nghe không được tốt,” Jiaqi Su, một nghiên cứu sinh thạc sỹ kiêm lead author của nghiên cứu về kỹ thuật mới này, đã chia sẻ.

Kỹ thuật này được đặt tên là HiFi-GAN, trong đó sử dụng các mạng nơ-ron nhân tạo – các công cụ deep learning chủ chốt, mô phỏng kiến trúc của các mạng nơ-ron trong não bộ. Hệ thống này bao gồm hai mạng nơ-ron riêng biệt, cạnh tranh nhay trong việc cải thiện chất lượng âm thanh. Trong đó, một hệ thống sẽ tổng hợp ra các bản thu đã được lọc, còn một hệ thống sẽ phân tích các bản thu nhằm xác định xem đó là bản thu studio chuyên nghiệp hay là bản thu đã qua sàng lọc bởi hệ thống đầu. Sự cạnh tranh giữa hai hệ thống sinh mẫu đối kháng này (GAN) đã giúp kỹ thuật mới cải thiện được đáng kể khả năng tạo các bản thu rõ ràng.

Hai hệ thống này liên tục ganh đua với nhau. “Mục tiêu của hệ thống thứ nhất là đánh lừa được hệ thống thứ hai,” đồng tác giả của nghiên cứu là giáo sư khoa học máy tính Adam Finkelstein, chia sẻ. “Xuyên suốt quá trình, hiệu quả của cả hai sẽ trở nên tốt hơn, và bước hoàn tất sẽ là bỏ đi hệ thống thứ hai để có một hệ thống sàng lọc tốt.”

Để đánh giá các bản thu được tổng hợp bởi HiFi-GAN, các nhà nghiên cứu đã sử dụng rất nhiều phương thức đánh giá khách quan khác nhau. Họ cũng sử dụng tới nền tảng đóng góp cộng đồng Amazon Mechanical Turk để lấy ý kiến chủ quan của người dùng – những người sẽ đánh giá kết quả tổng họp của HiFi-GAN cũng như của các thuật toán cải thiện chất lượng khác. Kết quả thu được cho thấy trên 28.000 đánh giá của người dùng trên Amazon Mechanical Turk, HiFi-GAN cho điểm số cao hơn 5 phương thức cải thiện chất lượng âm thanh khác.

Một vấn đề thường gặp trong việc thử nghiệm là, các tiêu chí đánh giá khách quan thường có những sai biệt nhất định so với quan điểm của con người. Do đó, rất có thể xảy ra khả năng phương thức sử dụng đạt điểm cao song lại mang đến một trải nghiệm nghe chưa chọn vẹn. Chính điều này đã thúc đẩy chúng tôi thực hiện cả các đánh giá chủ quan,” Su nói.

Nhóm của Finkelstein cùng một số nhà nghiên cứu khác cũng đã phát triển một thang đánh giá khách quan giúp phát hiện và lượng hóa các khác biệt trong những bản thu mà chỉ con người mới để ý thấy. Thang đánh giá này được huấn luyện sử dụng khoảng 55.000 đánh giá từ con người được thu thập trên Amazon Mechanical Turk, và rất có thể sẽ giúp cải thiện hiệu quả cho các công cụ tăng chất lượng âm thanh như HiFi-GAN, cũng như hỗ trợ việc đánh giá các kỹ thuật deep learning trong xử lý âm thanh nói chung.

Dưới đây là một bản thu được có chất lượng được cải thiện bởi HiFi-GAN:

Nghiên cứu này đã thành công đưa ra một thang đánh giá mới cho các công cụ machine learning (học máy) giúp đánh giá và so sánh chất lượng âm thanh. Cụ thể, nó sử dụng một số phương thức học đối kháng (adversarial learning) sẵn có, tích hợp song song hai hệ thống liên tục cạnh tranh nhau, qua đó cho hiệu quả cao nhất. Thông qua thang đánh giá, ta sẽ xác định được mức độ giống nhau giữa các bản thu được tổng hợp bởi AI và các bản thu chuyên nghiệp từ studio.

Chúng tôi muốn đưa ra được một thang đánh giá thực sự liên hệ tới con người. Cụ thể, nếu chúng tôi cho chạy thử hai bản thu và rồi hỏi rằng liệu chúng giống hay khác nhau, thì thang đánh giá sẽ đưa ra câu trả lời gần nhất với đánh giá của con người,” Pranay Manocha, một nghiên cứu sinh khoa học máy tính, đồng thời là lead author của nghiên cứu, bày tỏ.

Khác với nhiều thang đánh giá chất lượng âm thanh khác, kỹ thuật mới này đặc biệt ở chỗ, nó có thể phát hiện những điểm khác nhau vô cùng nhỏ, ví dụ như thay đổi nhẹ về âm thanh trong các tần số cao mà không phải là thành phần chính bản thu.

Deep learning vốn đã có ảnh hưởng rất sâu sắc trong lĩnh vực xử lý âm thanh, và với kỹ thuật này, ảnh hưởng này sẽ càng trở nên mạnh mẽ trong thập kỷ tới,” Finkelstein nói. “Tuy nhiên, để máy có thể ‘học’, nó cần tự nhận thức được hiệu quả của chính mình, và đây là một vấn đề lớn… ta cần tới một thứ được gọi là ‘hàm mất mát’.”

Để thiết kế được một hàm mất mát tốt, “chúng ta cần tới một kỹ thuật hoàn toàn tự động, sao cho xác định được liệu rằng con người cho thấy hai bản thu giống nhau hay không. Trong khi đó, việc hỏi trực tiếp giữa quá trình huấn luyện mạng nơ-ron là rất khó khăn, bởi lẽ ta sẽ cần phải hỏi họ vô cùng nhiều câu hỏi, còn máy thì phải giải quyết tất cả các câu hỏi đó. Do vậy, thay vì hỏi trực tiếp, chúng tôi hiện đang phát triển một kỹ thuật dự đoán được những câu trả lời mà con người có thể đưa ra,” Finkelstein bổ sung.

Được biết, nghiên cứu này đã được Su và Manocha chia sẻ tại hội nghị quốc tế INTERSPEECH về xử lý và ứng dụng âm thanh và giọng nói, được tổ chức trực tuyến vào hồi tháng 10 năm nay.

Cả HiFi-GAN và thang đánh giá nói trên đều đem lại các giải pháp tổng quát, áp dụng được cho nhiều tác vụ xử lý âm thanh khác nhau. Hiện các nhà nghiên cứu đang ứng dụng những phương thức này để cải thiện âm thanh trên thời gian thực – một ứng dụng mà sau này có thể được tích hợp trên Zoom hoặc trong các hội thảo trực tuyến.

Ngoài ra, Finkelstein cũng chia sẻ rằng, hiện đội ngũ nghiên cứu cũng đang thêm vào HiFi-GAN một tính năng giúp mang lại “cảm giác hiện hữu” – một yếu tố đang thiếu trong những bản thu âm và cuộc gọi trực tuyến.

Theo TechXplore

Tin liên quan: