Một số nghiên cứu về xử lí ảnh của FPT Software

747
Albert Szent-Gyorgyi, cha đẻ của ngành hoá sinh từng nói ”Nghiên cứu là công việc quan sát những hiện tượng mà mọi người đã nhìn thấy, và suy nghĩ đánh giá theo cách mà không ai nghĩ tới”. Đội xử lí ảnh (IPT)– trực thuộc FPT Software Lab có thể coi là đội nghiên cứu tập hợp những chuyên gia lão làng cả về kinh nghiệm lẫn độ tuổi của công ty hiện nay đang thực hiện những công việc như Abert đã nói, quan sát và tìm kiếm các giải pháp mới theo hướng suy nghĩ mà không bộ phận nào đã nghĩ tới.
Những nghiên cứu của đội tập trung ở lĩnh vực Computer vision và Học máy; đội cũng tham gia vào những dự án phát triển các thuật toán ứng dụng cho các lĩnh vực khác nhau như: phần mềm nhúng, các thiết bị di động, nâng cao chất lượng cuộc sống (assistive and quality of life), chẩn đoán y tế bằng hình ảnh. Các thuật toán và những ứng dụng của đội hiện đã được sử dụng trong các ngành khác nhau như: Sinh trắc học, tương tác máy (human machine interaction), nhận dạng mẫu (Pattern recognition) và ADAS.
Trong ngành Sinh trắc học (Biometrics), FPT Software đã khám phá ra những thuật toán trong việc nhận dạng khuôn mặt và giới tính bằng việc đề xuất ra những mô hình toán học, từ đó giúp việc nhận dạng có độ chính xác trên 85%. Ví dụ: để thể hiện hình thái khuôn mặt, đôi mắt một cách dễ dàng hơn, những nghiên cứu này tập trung vào việc tìm kiếm những nét đặc trưng (discriminative features) để từ đó có thể nhóm được các loại đặc điểm cấu thành gương mặt khác nhau. Dựa trên việc phân bố những nét đặc trưng này, đội nghiên cứu có thể tính toán và phân loại giữa ”eyes” và ”non-eyes”. Nhiều lớp phân loại này được kết hợp trong AdaBoost (an ensemble learning method), từ đó đo lường chính xác tần suất nhấp nháy mắt, thay đổi cơ mặt, ngáp (yawning detector). Dựa trên tần số nháy mắt hay đánh giá sự thay đổi của cơ mặt, nghiên cứu có thể nhận diện được trạng thái của khuôn mặt là buồn ngủ hay không.
Trong ngành Tương tác máy (Human machine interaction), FPT Software đã thành công trong việc phân tích các hoạt động của con người, cụ thể là những chuyển động và thay đổi của bàn tay, các khớp ngón tay, bàn chân và sự chuyển động. Hệ thống có khả năng tìm kiếm và nhận biết những cử chỉ bằng tay bằng cách kết hợp việc phân tích hình dạng, hình thái; các thông tin tương quang (local auto-correlation) và SVM (support vector machines). Độ chính xác của hệ thống hiện tại là trên 93% trên thời gian thực. Hiệu quả này khuyến khích những nghiên cứu sâu hơn về tương tác giữa người và máy trong tương lai gần.
Nhận dạng mẫu (Pattern recognition) đang được phát triển dựa trên bộ mẫu Moire trong ảnh kĩ thuật số, tối ưu bảng Quantization trong JPEG, nhận dạng truyện trang (hình ảnh, bóng ảnh và chữ) và đọc hiểu hình ảnh từ X-ray.
ADAS (Advanced Driver Assistance Systems) là một trong những mảng có số lượng nghiên cứu và ứng dụng lớn nhất. ADAS cung cấp các nghiên cứu quan trọng để phát triển các loại cảm biến, xử lí thông tin cảm biến để trích xuất các tính năng liên quan, phát hiện và đếm được các loại phương tiện giao thông lưu động, phân tích hành vi của người điều khiển phương tiện… Trong khoảng 3 năm trở lại đây, FPT Software tập trung giải quyết những bài toán về đếm lưu lượng xe cộ theo thời gian thực, theo dõi đối tượng, đo khoảng cách giữa các xe.
Thuật toán nhận dạng biển số (Number plate recognition – NPR) là một trong những thuật toán quan trọng của ADAS. Hiện tại, hệ thống đã có thể phát hiện xe ô tô và xe máy trong điều kiện giao thông đông đúc với sự chính xác là 85% vào ban đêm và 95% vào ban ngày.
Thuật toán này cũng được ứng dụng trong một vài dự án cụ thể với khách hàng đến từ Nhật Bản, có thể nhận dạng các biển số xe gồm số và chữ Nhật Bản dưới các điều kiện thời tiết khác nhau.
Để có thêm thông tin chi tiết về các nghiên cứu, kính mời quý độc giả tham khảo bài viết gốc của tác giả bằng tiếng Anh.
Trần Nguyên Ngọc – FPT Software Lab 
Tin liên quan: