Mới đây, Hội nghị thường niên của Hiệp hội ISCA lần thứ 20 (Interspeech 2019) đã được tổ chức tại Graz, Áo. Đây là một trong những hội nghị có quy mô lớn nhất về nghiên cứu và phát triển các giải pháp xử lý ngôn ngữ nói, thu hút tới hơn 2.000 chuyên gia trong các lĩnh vực có liên quan tới trình bày, phát biểu và hợp tác. Sự kiện cũng đồng thời được phát sóng trên nhiều quốc gia trên toàn cầu.

Với tư cách là nhà tài trợ vàng cho Interspeech 2019, Google đã đem tới 30 nghiên cứu đã được xuất bản, đồng thời chứng minh tầm ảnh hưởng của công nghệ giọng nói lên các sản phẩm công nghệ của hãng này (từ các hệ thống tự tạo phụ đề video cho tới Google Assistant). Bài viết giới thiệu các công trình nghiên cứu của Google được trình bày tại Interspeech 2019.

Các công trình nghiên cứu 

1. Building Large-Vocabulary ASR Systems for Languages Without Any Audio Training Data (Tạo hệ thống ASR với vốn từ rộng cho ngôn ngữ không sử dụng huấn luyện dữ liệu âm thanh)

Manasa Prasad, Daan van Esch, Sandy Ritchie, Jonas Fromseier Mortensen

2. Multi-Microphone Adaptive Noise Cancellation for Robust Hotword Detection (Hệ thống chống nhiễu âm thanh thích ứng tích hợp đa mic trong phát hiện Hotword)

Yiteng Huang, Turaj Shabestary, Alexander Gruenstein, Li Wan

3. Direct Speech-to-Speech Translation with a Sequence-to-Sequence Model (Dịch Speech-to-Speech trực tiếp sử dụng mô hình Sequence-to-Sequence)

Ye Jia, Ron Weiss, Fadi Biadsy, Wolfgang Macherey, Melvin Johnson, Zhifeng Chen, Yonghui Wu

4. Improving Keyword Spotting and Language Identification via Neural Architecture Search at Scale (Cải thiện khả năng phát hiện từ khóa và nhận diện ngôn ngữ thông qua việc Tìm kiếm Kiến trúc Nơ-ron ở quy mô lớn)

Hanna Mazzawi, Javier Gonzalvo, Aleks Kracun, Prashant Sridhar, Niranjan Subrahmanya, Ignacio Lopez Moreno, Hyun Jin Park, Patrick Violette

5. Shallow-Fusion End-to-End Contextual Biasing (Chọn bias theo ngữ cảnh theo chiều hướng Shallow-Fusion End-to-End)

Ding Zhao, Tara Sainath, David Rybach, Pat Rondon, Deepti Bhatia, Bo Li, Ruoming Pang

6. VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking (VoiceFilter: Phân tách giọng có định hướng sử dụng mask phổ âm được chỉnh theo loa)

Quan Wang, Hannah Muckenhirn, Kevin Wilson, Prashant Sridhar, Zelin Wu, John Hershey, Rif Saurous, Ron Weiss, Ye Jia, Ignacio Lopez Moreno

7. SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition (SpecAugment: Phương thức tăng cường dữ liệu cho Nhận diện giọng nói tự động)

Daniel Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin Dogus Cubuk, Quoc Le

8. Two-Pass End-to-End Speech Recognition (Nhận diện giọng nói Two-Pass End-to-End)

Ruoming Pang, Tara Sainath, David Rybach, Yanzhang He, Rohit Prabhavalkar, Mirko Visontai, Qiao Liang, Trevor Strohman, Yonghui Wu, Ian McGraw, Chung-Cheng Chiu

9. On the Choice of Modeling Unit for Sequence-to-Sequence Speech Recognition (Lựa chọn mô hình cho Nhận diện giọng nói Sequence-to-Sequence)

Kazuki Irie, Rohit Prabhavalkar, Anjuli Kannan, Antoine Bruguier, David Rybach, Patrick Nguyen

10. Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition (Phục hồi ngữ cảnh cho các từ định danh ngoại lưới trong Nhận diện giọng nói tự động)

Jack Serrino, Leonid Velikovich, Petar Aleksic, Cyril Allauzen

11. Joint Speech Recognition and Speaker Diarization via Sequence Transduction (Phối hợp tính năng Nhận diện giọng nói và Ghi tốc ký thông qua Tải nạp trình tự)

Laurent El Shafey, Hagen Soltau, Izhak Shafran

12. Personalizing ASR for Dysarthric and Accented Speech with Limited Data (Cá nhân hóa ASR cho Loạn vận ngôn và Giọng có ngữ điệu với lượng dữ liệu hạn chế)

Joel Shor, Dotan Emanuel, Oran Lang, Omry Tuval, Michael Brenner, Julie Cattiau, Fernando Vieira, Maeve McNally, Taylor Charbonneau, Melissa Nollstadt, Avinatan Hassidim, Yossi Matias

13. An Investigation Into On-Device Personalization of End-to-End Automatic Speech Recognition Models (Nghiên cứu về việc cá nhân hóa các mô hình nhận điện giọng nói end-to-end tự động tích hợp trong thiết bị)

Khe Chai Sim, Petr Zadrazil, Francoise Beaufays

14. Salient Speech Representations Based on Cloned Networks (Các biểu thị giọng nói nổi bật dựa trên mạng sao chép)

Bastiaan Kleijn, Felicia Lim, Michael Chinen, Jan Skoglund

15. Cross-Lingual Consistency of Phonological Features: An Empirical Study (Nghiên cứu thực nghiệm về Tính thống nhất của đặc điểm ngữ âm trong nhiều ngôn ngữ)

Cibu Johny, Alexander Gutkin, Martin Jansche

16. LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech (LibriTTS: Bộ dữ liệu tập hợp Text-to-Speech từ LibriSpeech)

Heiga Zen, Viet Dang, Robert Clark, Yu Zhang, Ron Weiss, Ye Jia, Zhifeng Chen, Yonghui Wu

17. Improving Performance of End-to-End ASR on Numeric Sequences (Cải thiện hiệu quả của các ASR End-to-End sử dụng trình tự số học)

Cal Peyser, Hao Zhang, Tara Sainath, Zelin Wu

18. Developing Pronunciation Models in New Languages Faster by Exploiting Common Grapheme-to-Phoneme Correspondences Across Languages (Đẩy nhanh các Mô hình phát âm cho Ngôn ngữ mới sử dụng Các ngôn từ Grapheme-to-Phoneme thường gặp của nhiều ngôn ngữ khác nhau)

Harry Bleyan, Sandy Ritchie, Jonas Fromseier Mortensen, Daan van Esch

19. Phoneme-Based Contextualization for Cross-Lingual Speech Recognition in End-to-End Models (Thêm ngữ cảnh cho Nhận diện giọng nói đa ngôn ngữ sử dụng âm vị trong các mô hình end-to-end)

Ke Hu, Antoine Bruguier, Tara Sainath, Rohit Prabhavalkar, Golan Pundak

20. Fréchet Audio Distance: A Reference-free Metric for Evaluating Music Enhancement Algorithms (Khoảng cách âm Fréchet: Hệ đo không tham chiếu cho việc Đánh giá các thuật toán tăng cường âm nhạc)

Kevin Kilgour, Mauricio Zuluaga, Dominik Roblek, Matthew Sharifi

21. Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning (Học cách nói thành thạo một ngôn ngữ mới: Tổng hợp Giọng nói đa ngôn ngữ và Sao chép chuyển đổi ngôn ngữ  giọng nói)

Yu Zhang, Ron Weiss, Heiga Zen, Yonghui Wu, Zhifeng Chen, RJ Skerry-Ryan, Ye Jia, Andrew Rosenberg, Bhuvana Ramabhadran

22. Sampling from Stochastic Finite Automata with Applications to CTC Decoding (Kiểm thử Stochastic Finite Automata ứng dụng lên CTC Decoding)

Martin Jansche, Alexander Gutkin

23. Large-Scale Multilingual Speech Recognition with a Streaming End-to-End Model (Nhận diện giọng nói đa ngôn ngữ quy mô lớn sử dụng mô hình phát sóng End-to-End)

Anjuli Kannan, Arindrima Datta, Tara Sainath, Eugene Weinstein, Bhuvana Ramabhadran, Yonghui Wu, Ankur Bapna, Zhifeng Chen, SeungJi Lee

24. A Real-Time Wideband Neural Vocoder at 1.6 kb/s Using LPCNet (Mã hóa giọng nói băng thông rộng trên thời gian thực ở ngưỡng 1.6 kb/s sử dụng LPCNet)

Jean-Marc Valin, Jan Skoglund

25. Low-Dimensional Bottleneck Features for On-Device Continuous Speech Recognition (Các hạn chế thấp chiều trên các hệ nhận diện giọng nói liên tục trong thiết bị)

David Ramsay, Kevin Kilgour, Dominik Roblek, Matthew Sharif

26. Unified Verbalization for Speech Recognition & Synthesis Across Languages (Thống nhất diễn đạt cho Nhân diện & Tổng hợp giọng nói Đa ngôn ngữ)

Sandy Ritchie, Richard Sproat, Kyle Gorman, Daan van Esch, Christian Schallhart, Nikos Bampounis, Benoit Brard, Jonas Mortensen, Amelia Holt, Eoin Mahon

27. Better Morphology Prediction for Better Speech Systems (Dự đoán hình thái học tốt hơn với các hệ thống giọng nói tốt hơn)

Dravyansh Sharma, Melissa Wilson, Antoine Bruguier

28. Dual Encoder Classifier Models as Constraints in Neural Text Normalization (Ứng dụng các mô hình phân loại mã hóa kép làm Hạn chế việc Tiêu chuẩn hóa văn bản nơ-ron)

Ajda Gokcen, Hao Zhang, Richard Sproat

29. Large-Scale Visual Speech Recognition (Nhận diện giọng nói thị giác trên quy mô lớn)

Brendan Shillingford, Yannis Assael, Matthew Hoffman, Thomas Paine, Cían Hughes, Utsav Prabhu, Hank Liao, Hasim Sak, Kanishka Rao, Lorrayne Bennett, Marie Mulville, Ben Coppin, Ben Laurie, Andrew Senior, Nando de Freitas

30. Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation (Parrotron: Mô hình chuyển đổi Speech-to-Speech End-to-end và ứng dụng của nó trong lĩnh vực Giọng nói cho người khiếm thính và Phân tích giọng nói)

Fadi Biadsy, Ron Weiss, Pedro Moreno, Dimitri Kanevsky, Ye Jia

Theo Google Research Communications

Tin liên quan: