Hiệu chỉnh online của mô hình ngôn ngữ cho nhận dạng giọng nói

263

Các mô hình lai của nhận dạng giọng nói thường là sự kết hợp giữa một mô hình thanh điệu sử dụng mạng nơron với một mô hình ngôn ngữ để đánh giá đầu ra của mô hình thanh điệu đó, từ đó tìm ra được bản ghi phù hợp nhất về mặt ngôn ngữ. Do đó, mô hình ngôn ngữ đóng vai trò rất quan trọng trong việc nhận dạng giọng nói nói chung theo từng domain nói riêng. Nhiều công trình nghiên cứu cũng đã được thực hiện về đề tài ứng dụng mô hình ngôn ngữ với giọng nói đầu vào.

Nghiên cứu này trình bày một phương pháp hiệu quả để nhận dạng giọng nói trong đó mô hình ngôn ngữ dành riêng cho từng domain sẽ được sử dụng cho mỗi câu nói đầu vào tương ứng dựa trên kết quả phân loại domain. Các thử nghiệm về bộ dữ liệu nhận dạng giọng nói bằng tiếng Việt đã cho thấy một sự cải thiện về độ chính xác so với mặt bằng chung các mô hình nhận dạng giọng nói cơ bản hiện tại chỉ với thời gian chạy lâu hơn một chút.

Tác giả:

  • Đặng Hoàng Vũ – Viện nghiên cứu công nghệ FPT, Hà Nội, Việt Nam
  • Nguyễn Văn Huy – Viện nghiên cứu công nghệ FPT, Hà Nội, Việt Nam; Đại học Công nghệ Thái Nguyên, Thái Nguyên, Việt Nam
  • Lê Hồng Phương – Viện nghiên cứu công nghệ FPT, Hà Nội, Việt Nam; Đại học Khoa học, Đại học Quốc gia Việt Nam, Hà Nội, Việt Nam.

Xem đầy đủ tài liệu tại ĐÂY.

Tin liên quan: