Rất nhiều ứng dụng thực tiễn, bao gồm nhiếp ảnh điện toán (computational photography, ví dụ như chế độ chụp chân dung và phản ánh) và các hiệu ứng thực tế ảo tăng cường (ví dụ như avatar ảo) đều dựa vào việc ước tính vị trí của mắt thông qua theo dõi tròng mắt.

Nghiên cứu này đã chứng minh rằng, khi có thể theo dõi tròng mắt một cách chính xác, thì có thể xác định được khoảng cách từ máy ảnh tới người dùng mà không cần tới các thiết bị cảm ứng độ sâu chuyên nghiệp. Ứng dụng này có thể được áp dụng trong rất nhiều use case khác nhau, từ nhiếp ảnh điện toán, khả năng thử kính và mũ qua công nghệ số, cho tới thay đổi độ lớn phông chữ dựa trên khoảng cách người dùng.

Avatar số dựa trên công nghệ theo dõi tròng mắt.
Kích cỡ phông chữ thay đổi dựa trên khoảng cách giữa người dùng và thiết bị.

Theo dõi tròng mắt là một thử thách khá khó nhằn cho các thiết bị di động, do các hạn chế về tài nguyên máy tính, điều kiện ánh sáng thay đổi liên tục, cũng như các vật cản như tóc và hành động nheo mắt. Thông thường, để có thể theo dõi tròng mắt, ta sẽ cần tới các thiết bị phần cứng chuyên dụng, khiến cho công nghệ này khó có thể được áp dụng để giải quyết các bài toán thường gặp.

Công nghệ theo dõi tròng mắt giúp đo khoảng cách giữa người dùng và camera trên thiết bị.

Do đó, các nhà nghiên cứu đã cho ra đời mô hình machine learning MediaPipe Iris, với khả năng ước tính vị trí tròng mắt một cách chính xác. Mô hình này được dựa trên nền tảng MediaPipe Face Mesh – một mô hình có thể xác định những điểm mốc như tròng mắt, đồng tử mắt, và viền mắt, chỉ với một camera RGB duy nhất, theo thời gian thực, mà không cần tới bất cứ phần cứng chuyên dụng nào.

Sau đó, thông qua các điểm mốc tròng mắt, mô hình sẽ có thể tính được khoảng cách giữa người dùng và camera mà không cần tới cảm ứng độ sâu, với sai số ở dưới mức 10%. Ngoài ra, công nghệ theo dõi tròng mắt cũng không thể xác định hướng mắt của người dùng, hay cho phép nhận diện danh tính của họ. Hiện nay, hệ thống này đã được áp dụng trên MediaPipe – một framework đa nền tảng nguồn mở, hỗ trợ các nhà nghiên cứu và nhà phát triển trong công cuộc xây dựng thêm các giải pháp và ứng dụng công nghệ machine learning hàng đầu, và vì vậy có thể chạy trên các thiết bị di động hiện đại, máy tính bàn, laptop, và cả trên nền tảng web.

Đăng tải bởi: Andrey Vakunov, Dmitry Lagun, Research Engineers, Google Research

Xem thêm tại ĐÂY.

Theo Google AI Blog

Tin liên quan: