Công nghệ nhận diện đã đi rất xa kể từ thập niên 60, Woody là tiền nhân đã chỉ ra những vấn đề về lĩnh vực này mà bây giờ vẫn còn tồn tại, bao gồm quy trình chuẩn hóa chênh lệch góc mặt. Để công nghệ nhận diện trở nên chính xác hơn, thì các hệ thống ngày nay thường cố xoay gương mặt về góc thẳng phía trước, bằng cách dùng điểm đánh dấu để xoay các đặc điểm tới một vị trí khác. Và cho dù các hệ thống Deep Learning ngày nay không còn cần con người chỉ đạo nữa, thì phương hướng của Woody vào năm 1965 đã đặt ra nền móng cho lĩnh vực này suốt hàng thập kỷ.

Tới năm 1967, Woody được giao một công việc cuối cùng có liên quan tới việc nhận diện các đặc điểm trên gương mặt. Thí nghiệm này là nhằm giúp các cơ quan hành pháp tìm nghi phạm qua các bộ dữ liệu về chân dung và ảnh tội phạm.

Một lần nữa, chính phủ Mỹ lại tài trợ cho dự án này. Một tài liệu năm 1967 của CIA, được công khai vào năm 2005, đã nhắc tới một “hợp đồng ngoại” về một hệ thống nhận diện giúp giảm thời gian tìm kiếm tới hàng trăm lần. Theo ghi chép, lần này tiền được tài trợ qua một cá nhân trung gian.

Và kết quả của dự án được kết luận là đã vượt qua con người.

Trong dự án này, cộng sự chính của Woody là Peter Hart, một kỹ sư nghiên cứu tại Phòng nghiên cứu Vật lý Ứng dụng tại Viện Nghiên cứu Stanford. (Viện này hiện được biết dưới tên SRI International, sau khi tách khỏi Đại học Stanford vào hồi 1970 do mâu thuận về việc lệ thuộc vào trợ cấp từ quân đội.) Woody và Hart đã bắt đầu với một bộ dữ liệu cồm 800 hình ảnh – gồm 2 ảnh của 400 người nam giới da trắng, ở nhiều độ tuổi và góc đầu khác nhau. (Các công trình của Woody đều không dùng tới hình ảnh phụ nữ hay người da màu.) Sau đó, sử dụng RAND, họ đã ghi lại 46 cặp tọa độ trên mỗi ảnh, gồm 5 điểm trên mỗi tai, 7 điểm ở mũi, và 4 điểm ở mỗi lông mày. Sau đó, dựa trên kinh nghiệm chuẩn hóa chêch lệch hình ảnh, 2 người đã sử dụng một phương trình toán để quay các gương mặt về góc thẳng phía trước. Sau đó, để xử lý chênh lệch về kích thước, Woody và Hart đã chỉnh các ảnh về một kích thước mặc địch, lấy mốc là điểm chính giữa 2 tròng mắt.

Sau đó, máy tính cần phải ghi nhớ 1 ảnh cho một gương mặt, rồi sử dụng ghi nhớ này để tìm ra ảnh còn lại. Trong đó, Woody và Hart đã cho máy tính 2 con đường tắt: Thứ nhất là ghép nhóm, trong đó máy tính sẽ chia một gương mặt ra làm nhiều được điểm – như lông mày trái, tai phải…., rồi so sánh khoảng cách tương đối giữ những đặc điểm này. Thứ hai, họ sử dụng lý thuyết Bayesian – tức sử dụng 22 thang đo để dự đoán toàn bộ gương mặt.

Kết quả là, 2 máy theo 2 con đường đều cho hiệu quả như nhau, và đều vượt xa con người. Cụ thể, Woody và Hart đã nhờ 3 người khác nhau thực hiện công việc tương tự, và kể cả người nhanh nhất cũng mất tới 6 tiếng. Trong khi đó, máy tính CDC 3800 lại tiết kiệm tới 100 lần thời gian, khi có thể làm điều tương tự trong 3 phút. Theo 2 nhà nghiên cứu, con người làm tốt hơn về khoản góc đầu và chất lượng hình ảnh kém, song máy tính vẫn vượt xa họ trong các đặc điểm liên quan tới tuổi tác.

Tính tới thời điểm này, đây là thành công lớn nhất của Woody trong việc nghiên cứu về công nghệ nhận diện, song nó cũng là nghiên cứu cuối cùng của ông về đề tài này. Theo Hart, đáng tiếc là, vì những lí do chính phủ, nghiên cứu sẽ không bao giờ được công khai. Tới năm 1970, 2 năm sau khi kết thúc hợp tác với Hart, Woody lại nghe nhà robot học Michael Kassler nói về một kế hoạch nghiên cứu về nhận diện của Leon Harmon tại Phòng Nghiên cứu Bell. “Tôi khá bực rằng, nghiên cứu hạng hai này lại được công khai, và được mọi người coi như là hệ thống máy-người tốt nhất lúc này,” Woody trả lời. “Leon, nếu làm việc chăm chỉ, thì sẽ vẫn sau chúng tôi tới 10 năm vào năm 1975.” Có lẽ, ông sẽ càng bực bội hơn khi thấy công trình của Harmon được lên trang bìa tờ Scientific American vài năm sau đó, trong khi công trình ông mãi mãi là một bí mật.

Trong những thập kỷ tiếp theo, Woody đã giành được rất nhiều giải thưởng cho những công trình về lý luận tự động của mình, sau đó lại dành 1 năm để làm chủ tịch Hiệp hội vì sự tiến bộ của trí tuệ nhân tạo. Tuy nhiên, công trình của ông về nhận diện gương mặt sẽ mãi không được công nhận và rồi bị lãng quên, trong khi những người khác tiếp tục hành trình này.

Vào năm 1973, nhà khoa học máy tính Takeo Kanade đã phát hiện ra một bước tiến lớn trong công nghệ nhận diện. Với một thứ rất hiếm hoi – bộ dữ liệu ảnh số hóa gồm 850 hình ảnh, được chụp tại Hội nghị Thế giới năm 1970 ở Suita, Nhật Bản – Kanade đã phát triển ra một chương trình có thể tách xuất các đặc điểm gương mặt như mũi, miệng, mắt, mà không cần tới yếu tố con người. Như vậy, Kanada đã biến ước mơ ngày nào của Woody về việc loại bỏ hoàn toàn yếu tố con người thành hiện thực.

Còn Woody cũng đã có vài lần tận dụng lại chuyên môn của ông về công nghệ nhận diện. Cụ thể, vào năm 1982, ông đã được thuê làm nhân chứng chuyên gia cho một vụ án tại California. Trong đó, một người, được cho là thuộc băng đảng ở Mexico đã liên tục gây cướp bóc tại Hạt Contra Costa. Công tố viên lúc này đã có vài bằng chứng, bao gồm video quay lại một người đàn ông với râu, kính râm, mũ đông, và tóc xoăn dài. Tuy nhiên, ảnh chụp nghi phạm lại là một người đàn ông đã cạo râu và tóc ngắn. Vì vậy, Woody đã sử dụng lại công trình ở Panoramic để đo mặt của thủ phạm, rồi so sánh với ảnh của nghi phạm, để rồi ra kết luận là 2 người này khả năng cao là không cùng một người – độ rộng của cánh mũi họ khác nhau. Và dù sau đó nghi can vẫn phải đi tù, xong anh đã thoát các cáo buộc có liên quan tới phát hiện của Woody.

Theo Anil K. Jain, một nhà khoa học máy tính tại Đại học Bang Michigan kiêm đồng chủ biên của quyển Bí kíp về Nhận diện, công nghệ này chỉ bắt đầu có thể thích ứng với những vấn đề của thế giới thực trong vòng 10 năm vừa rồi. Cụ thể, các vấn đề mà Woody từng gặp phải giờ đây đã không còn cản trở lĩnh vực này. Cụ thể, hiện tại ta có vô vàn ảnh được số hóa, có bộ nhớ lớn hơn, khả năng xử lý mạnh hơn, khiến máy tính hiện tại có năng lực tự học cao hơn. “Giờ đây ta có thể lướt mạng và lấy bao nhiêu ảnh gương mặt cũng được,” Jain nói. Máy tính hiện nay đã có thể phân loại lượng dữ liệu vô cùng lớn, phân tích và ghép đặc điểm cho tất cả mọi thứ – từ gương mặt tới gói đồ ăn – mà không cần bảng tính RAND hay việc đo lường.

Công nghệ nhận diện đã đi rất xa kể từ thập niên 60, còn Woody lại là tiền nhân đã chỉ ra những vấn đề về lĩnh vực này mà bây giờ vẫn còn tồn tại, bao gồm quy trình chuẩn hóa chênh lệch góc mặt. Theo Jain, để công nghệ nhận diện trở nên chính xác hơn, thì các hệ thống ngày nay thường cố xoay gương mặt về góc thẳng phía trước, bằng cách dùng điểm đánh dấu để xoay các đặc điểm tới một vị trí khác. Và cho dù các hệ thống Deep Learning ngày nay không còn cần con người chỉ đạo nữa, thì phương thướng của Woody vào năm 1965 đã đặt ra nền móng cho lĩnh vực này suốt hàng thập kỷ. “Phương thức tập trung đặc điểm này đã chiếm ưu thế suốt 40 năm đầu,” Kanade, hiện là một Giáo sư tại Viện robot Carnegie Mellon phát biểu. Còn giờ đây, lĩnh vực này đã quay trở về một trong những phương thức đầu tiên mà Woody từng thử nghiệm – sử dụng sự chênh lệch của phương thức n-tuple để tìm các điểm tương đồng trong vô số điểm dữ liệu. Còn theo Jain, cho dù các hệ thống nhận diện có phát triển phức tạp tới đâu, thì về cơ bản, chúng chỉ đang cho điểm sự giống nhau so sánh giữa 2 hình ảnh.

Và có lẽ, quan trọng nhất là công trình của Woody, đã chỉ ra vấn đề đạo đức về việc nghiên cứu công nghệ nhận diện. Trái với những công nghệ khác, trong đó tác hại của chúng chỉ rõ ràng sau vài năm phổ cập, như mạng xã hội, Youtube, drone – thì việc lạm dụng công nghệ nhận diện gương mặt đã được thể hiện từ khi nó mới ra đời tại Panoramic. Trong đó bao gồm các vấn đề từ thời của Woody như việc chỉ sử dụng các ảnh nam giới da trắng, cho tới các vấn đề còn tồn tại như quyền lực của chính phủ và lạm dụng công nghệ để phân biệt chủng tộc.

Vào năm ngoái, một thí nghiệm thực hiện bởi phần mềm Rekognition của Amazon đã nhận lầm 28 vận động viên NFL thành tội phạm. Chỉ vài ngày sau đó, ACLU đã đâm đơn kiện Bộ Tư pháp Hoa Kỳ, FBI, và DEA, để lấy thông tin về việc sử dụng công nghệ nhận diện sản xuất bởi Amazon, Microsoft, cũng như các doanh nghiệp khác. Trong khi đó, một báo cáo năm 2019 của Viện Tiêu chuẩn và Kỹ thuật quốc gia lại cho thấy rằng, sau khi thử nghiệm code nhận diện từ 50 nhà phát triển khác nhau, thì nam giới da trắng thường ít bị nhận lầm làm tội phạm hơn so với các nhóm người khác. Còn vào năm 2018, thì 2 học giả đã bày tỏ sự phản đối của họ với lĩnh vực nhận diện, cụ thể là: “Chúng tôi tin rằng công nghệ nhận diện gương mặt là cơ chế kiểm soát nguy hiểm nhất từng được phát minh.”

Vào mùa xuân năm 1993, Woody đã dần mất khả năng nói do triệu chứng của ALS. Được biết, ông đã tiếp tục dạy tại Đại học Texas cho tới tận khi không còn nói được, và tiếp tục nghiên cứu cho tới khi ông không thể cầm bút viết. “Luôn là một nhà khoa học, Woody đã ghi âm lại giọng nói của mình để theo dõi tiến trình của căn bệnh,” một người thân cận nói. Ông sau đó đã qua đời vào ngày 4 tháng 10 năm 1995, và công trình nhận diện của ông đã được ghi lại trên cáo phó. Cùng với đó là một bức ảnh của Woody khi tóc đã bạc, nhìn thẳng vào ống kính với một nụ cười tươi.

FPT TechInsight
Theo Wired

Tin liên quan: