Họp qua video là cần thiết cho tất cả mọi người, bao gồm cả những người dùng sử dụng thủ ngữ. Tuy nhiên, đa số các cửa sổ chuyển đổi trên ứng dụng họp video lại chỉ tập trung vào âm thanh, khiến người sử dụng thủ ngữ khó có thể giao tiếp dễ dàng và hiệu quả.

Để tích hợp được công nghệ phát hiện thủ ngữ trên thời gian thực, các ứng dụng lại cần có khả năng phân loại một lượng lớn video đầu vào – một tác vụ cần tới rất nhiều tài nguyên máy tính, và vì vậy rất khó khăn để thực hiện. Ngoài ra, số lượng nghiên cứu về phát hiện thủ ngữ cũng tương đối hạn chế, một phần là do các khó khăn này.

Nghiên cứu “Real-Time Sign Language Detection using Human Pose Estimation” (tạm dịch: Phát hiện thủ ngữ trên thời gian thật thông qua ước tính cử chỉ con người) của facebook, được công bố tại hội thảo SLRTP2020 và thử nghiệm tại ECCV2020, đã sử dụng một mô hình phát hiện thủ ngữ, đồng thời mô tả cách ứng dụng mô hình này trong các hệ thống họp video, giúp những hệ thống này có thể đánh dấu người dùng khi họ dùng thủ ngữ.

Mô hình 

Để có thể đem lại một giải pháp trên thời gian thực cho thật nhiều ứng dụng họp video, các nhà nghiên cứu cần phải thiết kế một mô hình nhẹ, dễ khởi động và dễ tích hợp. Trước đây đã có nhiều thử nghiệm tích hợp mô hình vào các ứng dụng họp video mà qua đó đã chỉ ra rằng, một mô hình nhẹ, chiếm ít vòng CPU, là rất quan trọng để đảm bảo chất lượng họp. Ngoài ra, để giảm bớt dung lượng đầu vào, các nhà nghiên cứu đã thực hiện tách các thông tin mà mô hình cần ra khỏi video, qua đó đảm bảo việc phân loại được thực hiện trên từng khung hình.

Do thủ ngữ dùng tới cử chỉ tay và ngôn ngữ cơ thể, các nhà nghiên cứu đã khởi đầu với mô hình ước tính cử chỉ PoseNet. Mô hình này đã giúp giảm ảnh HD đầu vào thành nhiều khung cử chỉ khác nhau trên cơ thể người dùng, bao gồm mắt, mũi, vai, tay… Sau đó sử dụng các khung này để tính toán luồng quang học giữa mỗi khung hình, nhằm lượng hóa các hành động người dùng cần phân tích, mà không lưu lại các thông tin cụ thể về người dùng. Mỗi cử chỉ cũng được chuẩn hóa bằng độ rộng vai của người trong hình, để đảm bảo rằng, mô hình phân tích được các cử chỉ ở cả gần và xa camera. Sau đó, luồng quang học sẽ được chuẩn hóa thông qua tốc độ khung hình, rồi đưa vào mô hình để xử lý.

Để thử nghiệm phương thức nêu trên, nghiên cứu đã sử dụng kho dữ liệu Thủ ngữ Tiếng Đức, với nhiều video sử dụng thủ ngữ, và các chú thích thời gian ký hiệu những khung hình có sử dụng thủ ngữ. Lấy phạm vi cơ sở naïve để huấn luyện một mô hình hồi quy tuyến tính, giúp dự đoán thời điểm sử dụng thủ ngữ dựa trên các dữ liệu luồng quang học. Kiểm tra cho thấy, phạm vi cơ sở này đạt độ chính xác ở mức 80%, và với thời gian xử lý mỗi khung hình là khoảng 3μs (0,000003 giây). Ngoài ra, độ chính xác của mô hình còn có thể tăng tới 83,4% khi thêm luồng thị giác ở 50 khung hình trước làm bối cảnh.

Để khái quát hóa việc sử dụng bối cảnh, một kiến trúc mạng bộ nhớ LSTM (long-short-term memory) có chứa bộ nhớ của các các bước thời gian khác đã được sử dụng, song không thực hiện xem lại các bước thời gian này. Kết quả thu được một mô hình ứng dụng LSTM đơn tầng với một tầng hồi quy cho độ chính xác lên đến 91,5%, với thời gian xử lý mỗi khung hình là 3,5ms (0,0035 giây).

Kiến trúc trúc mô hình phân loại. (1) Tách xuất cử chỉ ở mỗi khung hình; (2) tính luồng quang học giữa hai khung hình liên tiếp; (3) xử lý bằng LSTM; và (4) phân loại.
Chứng minh khái niệm

Sau khi thu được mô hình phát hiện thủ ngữ hiệu quả, ta cần phải thiết kế một phương thức để kích hoạt mô hình này trong các ứng dụng họp video. Do đó, các nhà nghiên cứu đã thiết kế thử một tính năng web nhẹ, có khả năng phát hiện thủ ngữ trên thời gian thực, có thể kết nối với nhiều ứng dụng họp video khác nhau, và qua đó kích thích các ứng dụng này đánh dấu người đang dùng thủ ngữ là “đang nói”. Tính năng thử nghiệm này đã sử dụng công nghệ ước tính cử chỉ nhanh PoseNet, còn các mô hình phát hiện thủ ngữ chạy trên trình duyệt thì sử dụng tf.js, đảm bảo hiệu quả hoạt động trên thời gian thực.

Như vậy, khi mô hình phát hiện được người dùng đang sử dụng thủ ngữ, nó sẽ truyền một tín hiệu siêu âm qua cáp âm thanh ảo. Dấu hiệu này sau đó sẽ được nhận định bởi ứng dụng họp video, và người dùng thủ ngữ sẽ được đánh dấu là “đang nói”. Tần số của tín hiệu nói trên là 20kHz – không thể nghe được bằng tai thường – song lại đủ để các ứng dụng họp video nhận diện là âm thanh, khiến cho nó lầm tưởng rằng người dùng đang nói.

Phiên bản thử nghiệm này lấy đầu vào là các video thu được qua webcam, và khi phát hiện thủ ngữ, sẽ truyền tín hiệu siêu âm qua mic ảo.

Hiện tại, mô hình thử nghiệm trên đã được cho phép sử dụng, với tính năng phát hiện thủ ngữ mặc định. Code huấn luyện, các mô hình, và cả code nguồn cho bản thử web có thể được tìm thấy trên GitHub.

Dùng thử

Video dưới đây là trải nghiệm dùng thử mô hình. Trong đó, biểu đồ màu vàng ở góc trên bên trái màn hình là khả năng mà mô hình cho rằng người trong video đang sử dụng thủ ngữ. Có thể thấy, khi người dùng sử dụng thủ ngữ, giá trị biểu đồ đạt gần 100, và hạ xuống còn 0 khi người dùng ngừng sử dụng. Toàn bộ quá trình đều diễn ra trên thời gian thực, với tốc độ khung hình là 30fps (30 khung hình mỗi giây) – tức tốc độ tối đa mà máy ảnh cho phép.

Maayan Gazuli, một phiên dịch thủ ngữ người Israeli, đang sử dụng thử công nghệ phát hiện thủ ngữ.

Phản hồi của người dùng

Để hiểu rõ hơn về hiệu quả thực tiễn của bản thử nghiệm nói trên, các nhà nghiên cứu đã thực hiện một khảo sát trải nghiệm người dùng, trong đó, những người tham gia được yêu cầu sử dụng bản thử này khi họp video, và giao tiếp bằng thủ ngữ như bình thường. Họ được yêu cầu sử dụng thủ ngữ đè lên nhau, và cả khi có người khác đang nói, nhằm mục đích thử trường hợp người họp thay đổi hành vi họp. Kết thúc khảo sát, những người tham gia đã cho các phản hồi tương đối tích cực, đồng thời khẳng định rằng, mô hình có thể phát hiện thủ ngữ, ít có sai biệt so với ngôn ngữ nói, phát hiện được đúng người dùng thủ ngữ, và đánh dấu những người đang dùng thủ ngữ bằng biểu tượng âm thanh để thu hút sự chú ý về họ.

Theo AI Google Blog

Tin liên quan: