Trong thời gian mắc kẹt ở nhà vì dịch bệnh, có lẽ bạn cũng nhận thấy được một điểm không mong muốn của các cuộc hội thoại qua mạng, đó là chất lượng âm thanh kém hơn. Những buổi phỏng vấn được thực hiện qua điện thoại hay cuộc gọi video thường xuất hiện tạp âm, tiếng vang và âm thanh bị biến đổi.

Hiện nay, các nhà nghiên cứu tại trường Đại học Princeton đã phát triển một phương pháp mới có thể cải thiện trải nghiệm âm thanh trong thời kỳ Covid và cả sau này. Ứng dụng trí tuệ nhân tạo (AI), học sâu, kỹ thuật này có thể chuyển đổi bản ghi âm giọng nói chất lượng thấp của con người thành âm thanh có độ sắc nét và rõ ràng gần như trong phòng thu.

Trong khi các phương pháp cải thiện âm thanh dựa trên AI khác thường tập trung vào một khía cạnh của chất lượng âm thanh như lọc tạp âm hay loại bỏ tiếng vang, phương pháp này là một công cụ toàn diện hơn. Các nhà nghiên cứu kỳ vọng rằng họ có thể áp dụng nó để nâng cao chất lượng giọng nói một cách hoàn toàn tự động trong thời gian thực.

“Những cách tiếp cận trước đây hầu như đều tập trung vào cải thiện khả năng dễ nghe của giọng nói, nhưng chúng có thể khiến trải nghiệm âm thanh trở nên nhàm chán, vì vậy âm thanh có chất lượng không hấp dẫn người nghe”, Jiaqi SU, một sinh viên tốt nghiệp ngành khoa học máy tính và là tác giả chính của bài nghiên cứu mô tả phương pháp mới, được gọi là HiFi-GAN, cho biết.

HiFi-GAN sử dụng các mạng lưới thần kinh nhân tạo, những công cụ chính của deep learning, bắt chước cấu trúc kết nối của các nơ ron sinh học. Trong hệ thống này, có hai mạng lưới riêng biệt cạnh tranh với nhau để cải thiện chất lượng âm thanh. Một trong số đó, được gọi là mạng lưới tạo âm, sản xuất ra những bản ghi giọng nói đã được xử lý. Mạng lưới còn lại, gọi là mạng lưới phân biệt âm, phân tích các bản ghi để xác định xem chúng là bản ghi có chất lượng studio thật hay là âm thanh đã được xử lý bởi máy. Cuộc chiến giữa các mạng đối nghịch tạo sinh (GANs) này giúp nâng cao khả năng của phương pháp này để sản xuất ra âm thanh rõ ràng.

Các mạng lưới tạo âm và phân biệt âm tham gia vào một thứ giống như là cuộc chạy đua vũ trang. “Việc của mạng lưới tạo âm là cố gắng đánh lừa mạng lưới phân biệt âm”, đồng tác giả của bài nghiên cứu, Adam Finkelstein, một giáo sư khoa học máy tính, chia sẻ. “Hai mạng lưới này tiến bộ theo cách của chúng, mỗi mạng lưới đều trở nên ngày càng hiệu quả trong quá trình đào tạo. Khi quá trình đó hoàn tất, bạn có thể bỏ đi mạng lưới phân biệt âm và có được một mạng lưới tạo âm tuyệt vời.”

Để đánh giá các bản ghi được tạo ra bởi HiFi-GAN, các nhà nghiên cứu sử dụng nhiều phương pháp đo chất lượng âm thanh khách quan. Họ cũng sử dụng nền tảng cung ứng cộng đồng Amazon Mechanical Turk để thu thập những đánh giá chủ quan từ người nghe, những người chấm điểm cho âm thanh của HiFi-GANs và các thuật toán cải thiện chất lượng âm thanh khác. Trong 28,000 đánh giá của người nghe về bản ghi trên Amazon Mechanical Turk, HiFi-GAN đạt được số điểm cao hơn 5 phương pháp khác.

Su nói: “Vấn đề chúng ta thường thấy trong các thí nghiệm là những chỉ số khách quan không hoàn toàn tương ứng với nhận thức của con người, vì vậy, phương pháp của bạn có thể đạt điểm cao hơn nhưng thật ra lại tạo ra trải nghiệm âm thanh tồi tệ. Đó là lý do tại sao chúng tôi thực hiện cả những đánh giá chủ quan.”

Bên cạnh đó, nhóm của Finkelstein và những người khác đã phát triển một chỉ số khách quan để phát hiện và lượng hoá những khác biệt nhỏ trong các bản ghi mà con người có thể nhận ra nhưng lại là thách thức cho các thuật toán AI. Được đào tạo qua khoảng 55,000 đánh giá của mọi người trên Amazon Mechanical Turk, chỉ số này có thể tăng hiệu quả của những công cụ cải thiện chất lượng âm thanh như HiFi-GAN, cũng như hỗ trợ việc đánh giá các phương pháp học sâu để xử lý các bản ghi.

Bài nghiên cứu đưa ra một chỉ số mới cho các công cụ học sâu để đánh giá chất lượng âm thanh hoặc so sánh các bản ghi âm. Phương pháp này được xây dựng dựa trên các cách tiếp cận học qua đối nghịch, trong đó một mạng lưới tạo và một mạng lưới phân biệt đấu tranh để nâng cao kết quả của một thuật toán. Ví dụ, chỉ số này có thể xác định một bản ghi âm được tạo ra bởi AI giống bản ghi mẫu có chất lượng studio đến mức nào.

Pranay Manocha, một sinh viên tốt nghiệp ngành khoa học máy tính và là tác giả chính của nghiên cứu cho biết: “Chúng tôi muốn tìm ra một chỉ số có sự tương đồng với cảm nhận của con người. Ví dụ, nếu chúng tôi phát hai bản ghi âm và đặt câu hỏi về sự khác biệt giữa chúng, chỉ số của chúng tôi có thể đưa ra câu trả lời tương ứng với đánh giá được đưa ra bởi con người.”

Mặc dù có nhiều chỉ số như vậy trong xử lý âm thanh, phương pháp này cải thiện âm thanh dựa trên những chỉ số phát hiện ra những sự khác biệt nhỏ, được các nhà nghiên cứu gọi là “khác biệt tối thiểu”, như các thay đổi nhỏ trong bồi âm có tần số cao hơn, loại âm không phải thành phần chính của giọng nói.

“Học sâu đã tác động lớn đến xử lý âm thanh, và chúng tôi kỳ vọng rằng tác động này sẽ trở nên sâu rộng hơn nữa” trong thập kỷ tới, Finkelstein chia sẻ, “nhưng có một vấn đề lớn và hơi chuyên sâu một chút, đó là để máy có thể học được, nó cần biết nó đang làm tốt ở mức độ nào, nó cần một thứ gọi là hàm mất mát.”

Khi thiết kế một hàm mất mát tốt, Finkelstein chia sẻ: “Chúng tôi cần một phương pháp hoàn toàn tự động để xác định Liệu con người có nói rằng hai bản ghi âm nghe giống nhau không.” “Việc hỏi mọi người câu hỏi đó là không thực tế” khi đào tạo một mạng lưới thần kinh, “bởi nó sẽ hỏi con người hàng triệu câu hỏi khi thuật toán tìm kiến một giải pháp tốt. Vì vậy, thay vào đó, chúng tôi đang phát triển một phương pháp tự động để dự đoán cách con người sẽ trả lời câu hỏi đó.”

Su và Manocha trình bày các nghiên cứu mô tả những dự án này tại INTERSPEECH, một hội thảo quốc tế tập trung vào xử lý giọng nói và các ứng dụng giọng nói, được tổ chức hoàn toàn trực tuyến vào tháng Mười vừa qua.

HiFi-GAN và chỉ số khác biệt tối thiểu đều đưa ra các cách tiếp cận chung có thể sử dụng cho nhiều tác vụ xử lý âm thanh. Các nhà nghiên cứu hiện đang ứng dụng các phương pháp của họ cho việc nâng cao giọng nói trong thời gian thực, có tiềm năng sử dụng cho hội thoại trên Zoom và webinar.

Finkelstein nói rằng nhóm nghiên cứu cũng đang thêm khả năng mở rộng băng thông cho HiFi-GAN. Việc này sẽ tái tạo lại cảm giác chân thực cho người nghe khi các bản ghi có tần số lấy mẫu cao, điều mà các bản ghi thông thường và các cuộc gọi hội thảo trực tuyến thường không có.

Theo TechXplore

Tin liên quan: