Bài viết này sẽ chỉ cho bạn cách dịch một video sang tiếng Hindi sử dụng AI Speech-To-Text với khả năng chuyển đổi giọng nói Tiếng Anh Ấn thành văn bản.

Bài viết sẽ sử dụng một video mẫu từ Rajya Sabha TV, vốn được chuyển biên bằng AI và được hoàn thiện bởi con người. Trong quá sử dụng, ta sẽ hoàn thiện video này hơn một chút, sau đó dịch nó sang tiếng Hindi, và cuối cùng là sử dụng AI Text-To-Speech để nói nội dung tiếng Hindi này.

Video được sử dụng trong bài sẽ là video dưới đây:

Trước hết, hãy bắt đầu với một chút lý thuyết.

Lý thuyết về các thuật toán “Look-Ahead and Forward”

Một thử thách lớn trong việc sử dụng AI chính là cách tận dụng thuật toán Look-Ahead and Forward, được sử dụng trong hầu hết các AI dịch thuật.

Theo Wikipedia, Look-Ahead (backtracking) có nghĩa là “trong các thuật toán backtracking, look-ahead là khái niệm khái quát, chỉ một quy trình phụ, trong đó thuật toán sẽ thử dự đoán ảnh hưởng của việc sử dụng một biến nhanh để đánh giá một trong các giá trị của biến này. Quy trình này có 2 mục tiêu, một là chọn tiếp biến để đánh giá, và hai là xác định trình tự giá trị.”

Còn khái niệm Thuật toán Forward thì lại hơi phức tạp hơn, cụ thể là: trong mô hình hidden Markov (HMM), thuật toán forward được sử dụng để tính “belief state” – tức xác suất xảy ra một trạng thái trong một thời điểm nhất định, dựa vào các bằng chứng có trước. Quá trình này còn được gọi là “filtering” (lọc). Và mặc dù có liên hệ mật thiết với thuật toán Viterbi, thuật toán forward lại hoàn toàn khác biệt.

Cần phải biết gì về các thuật toán Look-Ahead and Forward?

Vậy những điều trên có nghĩa là, AI dịch thuật sẽ tìm kiếm các dấu chấm cấu. Và mỗi khi phát hiện dấu chấm câu, AI sẽ bắt đầu dịch câu đó.

Và vì vậy, bạn cần phải sử dụng ngữ pháp với các dấu câu (mà chủ yếu là dấu chấm câu và dấu phẩy), để đảm bảo hiệu quả hoạt động của các AI dịch text-to-text.

Do đó, nội dung dịch cần phải được đảm bảo về mặt ngữ pháp. Điều này có nghĩa là, bạn cần phải:

  • Thêm thật nhiều dấu chấm câu! Con người rất dễ dàng hiểu ý nhau, và vì vậy, ta không cần các dấu câu để có thể tách các câu ra riêng, nhưng AI thì lại không thể làm vậy.
  • Trong video được đính kèm dưới đây, các câu dài đều đã được chuyển thành câu ngắn ở ngôi số 3. AI có khả năng dịch thuật các câu ngắn hiệu quả hơn rất nhiều, tuy nhiên, trong quá trình tách cần đảm bảo ngữ nghĩa.
  • Cần phải có một phiên dịch viên chuyên nghiệp điều chỉnh lại video sau khi AI hoàn thành. Khi video đơn giản hơn, thì bạn cũng có thể dịch sang nhiều ngôn ngữ nhanh, mà không cần tốn thời gian do chỉnh lý quá nhiều.
  • Ngữ pháp sau khi được thay đổi là như video dưới đây. Trong video này, phụ đề không tương đồng với lời nói, song đây chỉ là bước chuẩn bị cho quá trình dịch thuật.
Thêm thật nhiều ngữ pháp.
  • Sau khi hoàn thành, thêm Auto-Overlay để có kết quả cuối cùng. Trong kết quả này, một số từ ngữ đã bị thay đổi, thì được chuyển sang quá khứ, và các câu đều ngắn hơn.

  • Bây giờ thì chúng ta hãy bắt đầu quá trình dịch!

Dịch nội dung sang tiếng Hindi

  • Trước hết, chọn Action -> Translate để dịch video sang tiếng Hindi.
Dịch video.
  • Quá trình này sẽ xảy ra trong vài giây, sau đó bạn sẽ thấy file được dịch trong ô Root, được đánh dấu màu vàng như hình dưới.
Quá trình dịch thuật đã hoàn thành!
  • Sau khi mở file, bạn sẽ thấy bản dịch trong thanh phụ đề. Màu chữ ở ảnh dưới được chỉnh về màu đen để dễ chỉnh sửa hơn.
Phụ đề tiếng Hindi có thể được chỉnh sửa.
  • Luôn luôn chỉnh sửa thủ công lại sau khi dịch để có kết quả tốt nhất.
  • Ảnh dưới đã sử dụng Auto-Overlay để cho thấy kết quả cuối cùng, trong đó văn bản có màu đen, được đánh dấu vàng với độ trong suốt 80%. Vòng tròn cho thấy rằng ứng dụng đang sử dụng Auto-Overlay lên video, qua đó tạo phù đề mở trên video đó.
Vòng tròn cho thấy rằng ứng dụng đang sử dụng Auto-Overlay lên video.
  • Bản dịch trên được dịch hoàn toàn bởi AI, và vì vậy còn sót lại vài lỗi sai và căn sai thời gian. Hãy lưu ý chỉnh sửa thủ công lại sau khi hoàn tất dịch bằng AI.

  • Vậy là video đã được dịch xong, nhưng làm thế nào để nó nói tiếng Hindi?

Lồng tiếng Hindi bằng AI

Bài viết sẽ chỉ nêu phiên bản đơn giản khác, và vì vậy không bao gồm việc đổi tuổi, giới tính, âm lượng, và tốc độ của giọng đọc.

Bạn cũng có thể cắt ghép đoạn phát biển để phù hợp hơn với bài nói gốc bằng Tiếng Anh.

  • Sao chép phụ đề từ Video component sang Audio component.
Sao chép phụ đề từ Video component sang Audio component.
  • Sau đó sử dụng AI Text-To-Speech để “đọc” nội dung bằng tiếng Hindi. Chọn Action -> Transcribe để kích hoạt tính năng này.
Lồng tiếng sử dụng AI Text-To-Speech.

Giọng nhân tạo được lồng tiếng bởi AI.

Ghép file lồng tiếng AI như thế nào?

Có rất nhiều lựa chọn sau khi hoàn tất việc lồng tiếng AI: một vài khách hàng chỉ muốn tải video về và tự chỉnh nó trên nền tảng chỉnh sửa video mà họ quen dùng. Tuy nhiên, ứng dụng lồng tiếng này cũng bao gồm đủ các chứng năng trên, bao gồm:

  • Tắt tiếng video gốc bằng việc nhấn nút “-“ như ở hình dưới.
Tắt tiếng video gốc
  • Thông thường, mọi người sẽ muốn giảm tốc độ lồng tiếng lại. Và vì đây là AI, nên các tông giọng cũng bị hạn chế. Trong khi người thường sẽ thay đổi tông giọng trong giao tiếp, thì AI lại không thể làm vậy, và vì vậy, ta nên chỉnh tốc độ xuống còn 80% để người nghe có thể dễ dàng theo dõi hơn.
  • Khi cho file giọng AI vào video như một Auto-Overlay, sử dụng nút “+” với file *.mp3
Tắt tiếng video gốc.
  • Các đánh dấu trên ảnh trên bao gồm, nút “+” ở cuối để thêm audio overlay, nút “+” và “-“ phía trên cho phép thêm/xóa file âm thanh, nơi điều chỉnh tốc độ xuống 80%, và chỗ chỉnh thời gian bắt đầu và kết thúc hội thoại.
  • Kết quả cuối cùng là như sau. Vẫn còn một số lỗi phải cái thiện như lỗi dừng âm ở 1:57, đây là do ta chỉ sử dụng 1 file mp3 Voice Overlay nhằm giúp phần việc cần làm đơn giản hơn.

Lưu ý

  • Thông thường, bạn nên chia kịch bản thành nhiều hội thoại nhỏ, giúp AI có thể nói tốt hơn.
  • Chọn “giới tính” phù hợp cho AI theo đối tượng trong video.
  • Chọn nhiều kiểu giọng AI khác nhau khi xuất hiện nhiều đối tượng, từ đó giúp người nghe dễ nắm bắt nội dung hơn.
  • Luôn phải nhớ về SEO. Khi sử dụng video trên mạng xã hội, luôn phải dịch cả những dữ liệu liên quan, để đảm bảo rằng, các công cụ tìm kiếm có thể lưu trữ nội dung của bạn, từ đó làm nó dễ được tiếp cận hơn.

Theo Becoming Human

Tin liên quan: