1. Giới thiệu
Tiếng nói là phương tiện trao đổi thông tin cơ bản và vốn có của con người. Ước mơ của con người về những cỗ máy có thể “nói” được và “nghe” được đã xuất hiện từ rất lâu và là động thực thôi thúc các hoạt động nghiên cứu và xử lý tiếng nói phát triển. Từ những năm 1970 trở lại đây thì ngành khoa học này đặc biệt bùng nổ và phát triển với nhiều thành công được biết đến.
2. Khái niệm cơ bản về tiếng nói
Về cơ bản, tiếng nói con người là vô tận. Cùng một người, cùng một hoàn cảnh phát âm và cùng một từ tại hai thời điểm phát âm khác nhau, sẽ cho ra hai mẫu khác nhau.
Có 2 ngành khoa học nghiên cứu về tiếng nói dưới góc độ âm học, đó là ngữ âm học (tập trung nghiên cứu về âm tố, cơ chế cấu tạo ra âm thanh tiếng nói dưới góc độ vật lý)  và âm vị học ( tập trung nghiên cứu về cách phát âm một loại ngôn ngữ cụ thể, của một tộc người cụ thể, ví dụ giọng Hà Nội của tiếng Việt)
3. Âm vị học và những điều lý thú
a. Âm tiết – Syllable là đơn vị phát âm nhỏ nhất trong lời nói của con người. Con người không thể phát âm ra đơn vị nhỏ hơn âm tiết.
Ví dụ : “tôi đi học” có 3 âm tiết là “tôi”, “đi”, “học”
again có 2 âm tiết là  “a” và “gain”
Có sự khác biệt đáng kể trong việc liên kết âm tiết giữa tiếng Việt và tiếng Anh:
Tiếng Việt là ngôn ngữ đơn âm tiết, sự liên kết giữa các âm tiết chỉ có 2 dạng là rời rạc và liền nhau. Việc đọc liền nhau chỉ là tối giản khoảng nghỉ giữa 2 âm tiết, tạo ra sự liền mạch. Và đọc dạng nào cũng không ảnh hưởng lớn đến việc hiểu của người nghe
Ví dụ : bạn có thể đọc từ “trường học” theo 2 cách mà người nghe vẫn hiểu
+ “trường” (nghỉ 0.5s) “học”
+ “trường” “học”
Tiếng Anh là ngôn ngữ đa âm tiết, có thêm 1 sự liên kết đặc biệt giữa các âm tiết mà ko có trong tiếng việt, đó là nối vần.
Ví dụ : từ any, theo từ điển cambridge có ipa là /ˈen·i/, ta thấy có 2 âm tiết là |en| và |i|. Nhưng thực tế khi nghe, tai của mình sẽ nghe thấy giống en-ni nhiều hơn.
Việc nối vần không phải vấn đề của bài toán nhận dạng, đơn giản vì nếu đọc chuẩn, âm n ở đây sẽ chỉ là 1 đoạn và bị nối với cả 2 âm trước sau.
Từ “any” trong từ điển của cambridge
Nhưng việc nối vần là vấn đề với nhiều người Việt khi đọc tiếng Anh. Nếu bạn đọc dài ra, thì sẽ nhìn rõ 2 âm n liên tiếp , trở thành /ˈen·ni/,  và như thế là không đúng với phiên âm gốc.
b. Âm vị – Phoneme là phân đoạn nhỏ nhất của âm thanh dùng để cấu tạo nên sự phân biệt giữa các cách phát âm. Do đó, âm vị là một nhóm các âm thanh với sự khác biệt tương đối nhỏ cùng đảm nhận một chức năng ý nghĩa tùy theo người nói và phương ngữ.
Ví dụ âm vị ‘i’ trong từ ‘tính’ và từ ‘tình’ không hoàn toàn giống nhau nhưng về cơ bản thì có định hình gần giống nhau
Âm vị không phải là cố định, nó khác nhau với mỗi người đọc khác nhau, thậm chí cùng một người tại những thời điểm khác nhau cũng có thể phát âm khác nhau. Đây cũng là vấn đề khó khăn cơ bản của bài toán nhận dạng tiếng nói.
c. Âm vị gần đúng khi ta học ngôn ngữ thứ 2, ta sẽ hay bị lỗi : phát âm một âm vị mới, gần giống với âm vị mà ta đã sử dụng quen.
Ví dụ : người Việt khi học tiếng anh sẽ hay lầm 2 âm vị sau: âm vị “b” trong tiếng việt thuộc loại Voiced_bilabial_implosive trong khi âm vị “b” trong tiếng anh thuộc lại Voiced_bilabial_stop.
Âm vị gần đúng chính là lý do khiến việc phát âm chính xác ngôn ngữ thứ hai khó hơn. Đã có nhiều đề tài khoa học nghiên cứu nhận dạng đa ngôn ngữ bằng cách sử dụng mô hình âm vị gần đúng.
d. Biểu diễn âm vị
Như ta đã biết, IPA (International Phonetic Alphabet) là chuẩn quốc tế để biểu diễn âm vị cho mọi ngôn ngữ. Thật tuyệt vời nếu bạn đã làm quen với IPA và chỉ cần nhìn IPA là biết ngay cách đọc 1 từ. Tuy nhiên, nếu bạn mới học tiếng anh thì sao? Có một lời khuyên nhỏ cho bạn, hãy tìm hiểu về Arpabet và CMU_Pronouncing_Dictionary, đó sẽ một cách học phát âm lý thú dành cho bạn!
4. Các bài toán về xử lý tiếng nói
Với nhu cầu hiện tại, đặc biệt cho IoT thì xử lý tiếng nói có một số bài toán cơ bản:
+ Bài toán của IoT : Nhận dạng tiếng nói và Tổng hợp tiếng nói để phục vụ giao tiếp giữa người và máy (human machine interface)
+ Bài toán của viễn thông : Mã hóa tiếng nói , là một dạng của nén dữ liệu, có vai trò quan trọng trong lĩnh vực viễn thông. Ví dụ như trong thể thức truyền tiếng nói qua Internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thông đường truyền.
+ Bài toán của y tế : Phân tích giọng nói, được ứng dụng chủ yếu trong y học, nhằm phát hiện ra khuyết tật hay vấn đề của dây thanh âm, thanh quản, v.v…
+ Bài toán của các lĩnh vực khác :
Định vị nguồn âm thanh, xử lý tín hiệu tiếng nói để xác định vị trí của nguồn phát ra âm thanh (có thể là loa, người nói, v.v…). Nó được ứng dụng trong hội nghị hình thoại (videoconference) là hội nghị mà người tham gia ở các nơi khác nhau, hình ảnh và âm thanh ở hai hay nhiều đầu cầu của hội nghị được truyền tải cho nhau qua hệ thống điện thoại số, internet hoặc sóng vệ tinh. Khi vị trí người nói trong hội nghị được xác định, máy ghi hình được lập trình sẽ tự động quay đến vị trí đó và gửi hình ảnh đi. Ngoài ra định vị nguồn âm thanh còn có ứng dụng trong các kỹ thuật tăng chất lượng tiếng nói, trong theo dõi an ninh, v.v…
Nhận diện người nói, dựa vào tiếng nói để xác định ra xem có phải là một người nào đó hay không, thường được sử dụng trong lĩnh vực an toàn bảo mật.
Kì II:  https://techinsight.com.vn/nghien-cuu-va-xu-ly-tieng-noi-ki-ii-cac-phuong-phap-tong-hop-tieng-noi/
Bùi Tấn Quang
Tin liên quan: