Tiếp nối phần 1, trong phần 2 này chúng ta sẽ tiếp tục đồng hành cùng Woody Bledsoe, quay ngược thời gian và khám phá lịch sử của công nghệ nhận diện khuôn mặt.

Vào năm 1960, Woody, Browning, cùng một người đồng nghiệp khác tại Sandia đã cùng nhau mở một công ty riêng mang trên Panoramic Research. Đầu tiên, công ty này tọa lạc tại một văn phòng nhỏ ở Palo Alto, California, nơi mà sau này sẽ trở thành Thung lũng Silicon nổi tiếng. Tại thời điểm này, hầu hết máy tính đều là những cỗ máy đồ sộ, lưu trữ thông tin trên các thẻ bấm lỗ hoặc băng từ, và thường chỉ có ở những văn phòng công ty lớn và viện nghiên cứu của chính phủ. Chính vì vậy, Panoramic đã không có máy tính riêng, mà thay vào đó phải thuê thời gian sử dụng máy tính từ công ty khác vào buổi tối muộn, do phí thuê vào giờ này sẽ rẻ hơn.

Lúc này, mục tiêu của Panoramic là “thử nghiệm các ý tưởng mà họ nghĩ là sẽ làm xoay chuyển thế giới.” Hay như theo lời của Nels Winkless, một tác giả, cũng là một tư vấn viên đã đồng hành cùng Paronamic trong vài dự án, thì công ty này có nhiệm vụ là “làm những gì mà những người khác nghĩ là quá ngu ngốc.”

Công ty đã thu hút nhiều nhà nghiên cứu kỳ quặc và năng động tới làm việc, trong đó có rất nhiều người như Woody – lớn lên tay trắng trong thời kỳ Đại Khủng hoảng, và giờ đây muốn khám phá mọi thứ, họ là những người từ sáng giá, tới điên rồ. Browning, một người con trong gia đình nông dân nghèo đã dành 2 năm tuổi thơ chẳng có gì ăn ngoài bắp cải, là một người luôn cố gắng lắp ráp và thử nghiệm mọi thứ. Đã có lúc, ông cùng một nhà nghiên cứu khác của Panoramic – Larry Bellinger, cùng nhau lên ý tưởng cho một chiếc xe tải chạy bằng động vật, mang tên Dog-Mobile. Thậm chí, họ còn tạo ra một thiết bị mang tên Hear-a-Lite có dạng chiếc bút, giúp chuyển ánh sáng thành âm thanh cho người mù.

Bellinger, thời niên thiếu từng là thợ nhảy dù, (ông đã nói dối mẹ về những vết thương do hạ cánh sai là do đi xe đạp), cũng đã tạo ra những phát minh như Bell X-1 – chiếc máy bay tên lửa nổi tiếng trong phim lịch sử The Right Stuff, hay chiếc Mowbot – một máy cắt có tự động có khả năng “cắt cỏ theo một cách thức hoàn toàn ngẫu nhiên và vô tổ chức.”

Một nhân viên khác của Panoramic là Helen Chan Wolf, một nhà tiên phong về lập trình robot, cũng là người đã giúp tạo ra Robot Shakey, được mệnh danh là “robot đầu tiên trên thế giới có trí tuệ nhân tạo” bởi Viện Kỹ sư Điện tử và Đồ điện. Cùng với đó, đồng nghiệp của Wolf cũng ca ngợi bà là “Ada Lovelace của ngành robot học”. Tới những năm đầu thập niên 60, khi Wolf đã đang chìm trong code, bà đã kinh ngạc trước những ý tưởng tới từ những đồng nghiệp tại Panoramic. Thậm chí, bà còn từng nói rằng, Woody đã quyết định rằng ông muốn “khám phá mọi thứ về ADN, và với các máy tính hiện tại, thì việc này sẽ mất tới 30 hoặc 37 năm. Tôi đã đáp lại rằng, “Vậy thì tôi đoán là chúng ta sẽ không làm thế.”

Không mấy ngạc nhiên, Panoramic đã rất khó khăn trong việc tìm kiếm đủ vốn thương mại. Woody đã cố gắng xây dựng hình ảnh bản thân về công nghệ nhận diện với khách hàng doanh nghiệp, trong đó bao gồm Hiệp hội Đảm bảo Cuộc sống Công bằng, cũng như tạp chí của McCall, xong họ chẳng bao giờ kiếm được hợp đồng. Và tới năm 1963, Woody hầu như đã chắc chắn rằng, công ty sẽ phải đóng cửa.

Tuy nhiên, xuyên suốt thời gian tồn tại của nó, Panoramic lại luôn nhận được tài trợ từ một tổ chức vô cùng đáng tin cậy: CIA (Cơ quan Tình báo Trung ương Mỹ). Tuy rằng các dấu hiệu về mối liên hệ với CIA đã bị Woody đốt tại gara sau này, xong một vài bằng chứng vẫn được lưu lại, cho thấy rằng, Panoramic đã làm việc với các công ty ma, đứng sau bởi CIA. Winkless, một người thân thiết với các nhân viên tại Paronamic, cũng là bạn trúc mã của Browning, đã chia sẻ rằng, công ty này khả năng cao là đã được thành lập với sự hỗ trợ của chính phủ. “Không ai thực sự nói với tôi như vậy cả,” ông nhớ lại, “nhưng chuyện thật sự là như thế.”

Theo nhiều ghi chép được thu thập bởi Black Vault, một trang web chuyên về đáp ứng các nhu cần liên quan tới Đạo luật Tự do Thông tin của Mỹ, Panoramic là một trong số 80 tổ chức từng làm việc cho dự án MK-Ultra – chương trình “tẩy não” đầy tai tiếng của CIA, được biết đến vì các hình thức tra tấn tâm lý qua các thí nghiệm con người không được phép. Dưới vỏ bọc là Tổ chức Khiên cứu Y Khoa, Panoramic đã đảm nhận dự án phụ số 93 và 94, nghiên cứu về chất độc từ vi khuẩn và nấm cũng như “khả năng điều khiển phương hướng của một số loài động vật nhất định.” Theo một nghiên cứu của David H. Price, một nhà nhân chủng học tại Đại học Saint Martin, Woody và các đồng nghiệp cũng đã nhận được tiền từ Tổ chức Nghiên cứu về Sinh thái Con người – một công ty vỏ bọc cho CIA, dưới dạng các khoản hỗ trợ cho các nhà khoa học có thể giúp cả thiện những kỹ thuật thẩm vấn/ngụy trang. (Tất nhiên, CIA sẽ không bao giờ phát biểu gì về khả năng của mối quan hệ này).

Tuy nhiên, công trình đáng lưu tâm nhất của Woody tại Panoramic lại liên quan tới một công ty ma khác mang tên Nhóm Nghiên cứu King-Hurley. Theo như ghi chép về một số vụ kiện ở thập niên 70, King-Hurley là một công ty ma, được CIA sử dụng để mua máy bay và trực thăng cho đơn vị không quân bí mật của tổ chức này, được biết đến với cái tên Air America. Đồng thời, King-Hurley cũng hỗ trợ cho việc nghiên cứu của Đại học Stanford về lĩnh vực psychopharmacological (lĩnh vực về các loại thuốc ảnh hưởng tới tâm lý và thần kinh.) Tuy nhiên, tới năm 1963, thì công ty này lại nhận được một ý tưởng kỳ lạ của Woody Bledsoe: thực hiện “một nghiên cứu để xác định khả năng xây dựng một máy cơ bản có thể nhận diện gương mặt.”  Dựa trên nền tảng phương thức n-tuple của mình và Browning, Woody dự định sẽ giúp máy phân biệt được 10 gương mặt. Trong đó, ông sẽ sử dụng một bộ dữ liệu gồm 10 hình ảnh của nhiều người khác nhau, sau đó xem xét xem liệu máy có nhận diện được những ảnh khác của cùng đối tượng hay không. Woody cũng tin tưởng rằng, số mặt nhận diện được sẽ đi từ 10 tới hàng nghìn. Và chỉ trong 1 tháng, Woody đã nhận được cái gật đầu từ King-Hurley.

Một cách tiếp cận khác của Woody Bledsoe là dạy máy tính cách chia mặt thành nhiều đặc điểm, sau đó so sánh khoảng cách giữa các đặc điểm đó.

Ở hiện tại, thì 10 là một con số rất nhỏ, tuy nhiên, ở thời điểm năm 1963, thì đây đã là một ước mơ khá xa vời. Để đi từ nhận diện ký tự tới nhận diện gương mặt còn một quãng đường rất xa. Chưa kể ở thời đại này vẫn chưa có phương thức chuẩn mực nào để số hóa ảnh, và cũng không có bất cứ một bộ dữ liệu ảnh số nào để sử dụng. Còn ở hiện tại, các nhà nghiên cứu có thể thử nghiệm thuật toán của họ lên hàng triệu ảnh selfie công khai miễn phí, trái với Panoramic – công ty này đã phải xây dựng bộ dữ liệu từ đầu.

Vậy nhưng vẫn còn tồn tại một vấn đề quan trọng hơn: Gương mặt con người là ảnh 3 chiều, và khác với các ký tự 2 chiều trên giấy, nó không ở trạng thái tĩnh. Ảnh của mặt người có thể khác nhau về vị trí đầu, ánh sáng, góc mặt, tuổi tác, kiểu tóc, cũng như biểu cảm. Do vậy, việc tìm một mẫu số chung cho những phân số vô cùng phức tạp này yêu cầu đội ngũ phải chỉnh lý lại toàn bộ các biến kể trên, sau đó chuẩn hóa lại các hình ảnh cần so sánh. Trong khi đó, các máy tính mà Panoramic sử dụng lại khó có thể thực hiện tác vụ trên: một trong những máy chính của họ là CDC 1604 với 192 KB RAM – ít hơn khoảng 21,000 lần so với bộ nhớ của một smartphone thông thường.

Woody đã ý thức được những thử thách này ngay từ đầu, và vì vậy đã tiếp cận bằng phương pháp chia để trị, tức tách nghiên cứu lớn thành nhiều mảng nhỏ, và đưa từng mảng tới các nhà nghiên cứu khác nhau của Panoramic. Một nhà nghiên cứu trẻ đã được phân công cho mảng số hóa: Trong đó, anh đã sử dụng một thiết bị scan được phát triển bởi Browning để chuyển mỗi hình ảnh thành hàng nghìn điểm dữ liệu, trong đó mỗi điểm lại biểu hiện cho một giá trị độ sáng nhất định trên ảnh, trên thang từ 0 (hoàn toàn tối) tới 3 (hoàn toàn sáng). Tuy nhiên, máy tính lúc này lại không thể xử lý đồng thời hết các điểm dữ liệu trên, và vì vậy nhà nghiên cứu này đã viết một chương trình mang tên NUBLOB, với khả năng tách ảnh thành nhiều mảng nhỏ với kích cỡ ngẫu nhiên, sau đó đưa ra đánh giá điểm n-tuple cho mỗi mảng.

Trong khi đó, Woody, Helen Chan Wolf, và một sinh viên lại đảm nhận việc xử lý vị trí đầu. Trước hết, họ đã vẽ các dấu x trên mảng bên trái của mặt đối tượng, kéo dài từ trán tới cằm. Sau đó, họ lấy 2 tấm hình của đối tượng: 1 chụp thẳng phía trước, 1 ở góc quay 45 độ. Tiếp đến, họ sẽ phân tích vị trí của các dấu x nhỏ trên 2 hình, từ đó xác định được gương mặt trong thế nào ở góc 15 hay 30 độ. Cuối cùng, họ sẽ sử dụng một ảnh đen trắng của cùng gương mặt, có đánh dấu, và nhận được kết quả là một bức ảnh chân dung của đối tượng ở một góc khác – trông khá đáng sợ, gồm nhiều điểm màu, và tương đối chính xác.

Tuy rằng các giải pháp nói trên là rất thông minh, song chúng vẫn không đủ để giải quyết vấn đề. Sau 13 tháng nghiên cứu, đội ngũ Panoramic vẫn không thể giúp máy nhận diện được dù chỉ 1 gương mặt, chứ chưa nói tới 10. Theo một báo cáo tiến độ được Woody gửi tới King- Hurley, độ phát triển của tóc, biểu cảm gương mặt, và sự lão hóa, đã tạo ra quá nhiều biến. Ông nói, tác vụ này đã vượt quá khả năng của cả những công nghệ tiên tiến nhất lúc bấy giờ. Tuy nhiên, ông cũng khuyến khích các khoản đầu tư để thúc đẩy thêm nghiên cứu về phương thức tiếp cận hoàn toàn mới này với lĩnh vực nhận diện.

Trải qua thêm 1 năm, Woody giờ lại tin rằng, con đường nhiều hứa hẹn nhất dẫn tới công nghệ nhận diện tự động là một con đường mà trong đó gương mặt được phân tích thành các tương quan của những đặc điểm chính bao gồm: mắt, tai, mũi, lông mày, và môi. Cụ thể, ông đã hình dung một cỗ máy tương tự như một phân tích của Alphonse Bertillon từ 1879. Trong đó, Bertillon đã miêu tả người từ 11 đặc điểm vật lý, bao gồm chiều dài bàn chân trái, cũng như khoảng cách từ đầu gối tới đầu ngón giữa – tiên phong cho lý thuyết rằng, nếu bạn sử dụng đủ cột mốc so sánh, thì mọi người đều riêng biệt. Hệ thống này tốn rất nhiều công sức, song lại hiệu quả: từ năm 1897, khi lấy vân tay còn chưa được phố biến, thì các cảnh vệ Pháp đã sử dụng nó để bắt tên giết người hàng loạt Joseph Vacher.

Xuyên suốt năm 1965, Panoramic lại cố gắng tạo ra một hệ thống Bertillon hoàn toàn tự động, sử dụng cho gương mặt. Cụ thể, đội ngũ đã cố tạo ra một chương trình có thể định vị mũi, môi, và các đặc điểm tương tự dựa vào điểm sáng và tối trên ảnh. Nhưng đáng tiếc thay, những nỗ lực của họ hầu hết đều bất thành.

Do đó, Woody và Wolf đã bắt đầu thử khám phá một phương thức tiếp cận mới “máy-người” – tức mang một ít yếu tố con người vào để giải quyết vấn đề. (Theo một ghi chép mới được công bố của Văn phòng Nghiên cứu và Phát triển CIA, đơn vị đã có một dự án tương tự vào năm 1965, cũng là năm mà Woody gửi thư về công nghệ nhận diện tới John W. Kuipers, Trưởng phòng phân tích của ban liên quan trong tổ chức.) Panoramic đã thuyết phục con trai của Woody – Gregory cùng một người bạn cùng nhau xem qua 122 tấm ảnh chụp 50 con người, sau đó lấy 22 chỉ tiêu trên từng gương mặt, bao gồm chiều dài của tai và độ rộng của miệng. Cuối cùng, Wolf viết một chương trình riêng để xử lý các con số này.

Kết thúc thí nghiệm, máy tính đã có thể chỉ ra đúng ảnh trên mỗi bộ chỉ tiêu: Đây là một kết quả tuy khiêm tốn xong lại không thể chối cãi – Wolf và Woody đã thành công trong việc chứng minh rằng, hệ thống Bertillon là khả thi trên lý thuyết.

Tiếp theo, vào cuối năm 1965, hai người lại muốn mở rộng quy mô của thí nghiệm này, nhưng lần này họ thay hai học sinh thành một phát minh mới, giúp việc đo chỉ tiêu hiệu quả hơn. Bằng khoản tài trợ của King-Hurley, họ đã sử dụng bảng tính RAND – một thiết bị có giá 18.000 USD, trong giống như máy scan, xong lại hoạt động tương tự iPad. Cùng một cây bút stylus, các nhà nghiên cứu có thể dùng RAND để vẽ và tạo ra các hình ảnh phân giải cao mà máy tính có thể đọc được.

Sau đó, Woody và đồng nghiệp lại nhờ tới một số sinh viên để xử lý một bộ hình ảnh khác, bằng cách để từng ảnh lên RAND, rồi chỉ ra những đặc điểm chính của chúng bằng bút stylus. Tuy rằng quá trình vẫn rất thủ công, xong nó đã nhanh hơn rất nhiều trước kia. Trên trung bình, các sinh viên có thể nhập dữ liệu cho 2.000 hình ảnh, với ít nhất là 2 ảnh của cùng một gương mặt, ở tốc độ là 40 ảnh mỗi giờ.

Tuy nhiên, kể cả với số lượng mẫu thử lớn, thì đội ngũ của Woody vẫn gặp rất nhiều khó khăn. Cụ thể như máy tính vẫn chật vật khi người trong ảnh cười, bởi gương mặt sẽ biến dạng và thay đổi rất nhiều. Ngoài ra còn có vấn đề vể tuổi tác, thể hiện rõ qua sự khác biệt của Woody năm 1945 và Woody năm 1965 – chẳng ai nhận ra đó là cùng một người, và máy cũng vậy. Chiếc máy đã không thể tìm ra nhiều điểm tương đồng giữa hai gương mặt, nhất là khi Woody thời trẻ thì đang cười, còn Woody lớn thì trông u ám hơn rất nhiều. Có lẽ, trải qua nhiều thập kỷ, gương mặt Woody đã thay đổi hoàn toàn.

Điều này cũng phần nào là sự thật. Tới lúc này, Woody đã quá mệt mỏi với việc tìm kiếm hợp đồng mới, và luôn ở trong hoàn cảnh “hoặc có quá nhiều việc, hoặc không bao giờ đủ việc”. Ông đã chuyển sang đưa nhiều ý tưởng hơn tới các nhà tài trợ, trong đó có một số hơi có vấn đề về mặt đạo đức. Vào năm 1965 – trước khi Trung Quốc bắt đầu sử dụng công nghệ nhận diện để phát hiện người dân tộc Uighur, thì Woody đã đề xuất rằng DARPA (Cơ quan Chỉ đạo các Dự án Nghiên cứu Quốc phòng Tiên tiến) nên hỗ trợ Panoramic trong việc nghiên cứu về sử dụng các đặc điểm gương mặt để xác định chủng tộc. “Có rất nhiều thang đo nhân chủng học được sử dụng khắp thế giới, trong nhiều chủng tộc và môi trường khác nhau,” ông viết. “Và bộ dữ liệu rộng khắp và vô cùng giá trị này đã được thu thập qua nhiều năm, tốn rất nhiều chi phí và công sức, song lại chưa bao giờ được sử dụng đích đáng.” Song cho tới nay, ta vẫn không biết về quyết định của DARPA.

Một điều rõ ràng là, Woody đã tự bỏ ra hàng nghìn USD để đầu tư vào Panoramic, dù không có gì đảm bảo rằng, ông sẽ lấy lại được số tiền này. Trong khi đó, bạn bè của ông tại Đại học Texas, Austin, lại liên tục thúc giục ông tới làm việc cùng họ để có thu nhập ổn định. Do đó, vào tháng 01/1966, Woody đã rời Panoramic, và công ty này cũng đóng cửa không lâu sau đó.

Vẫn giữ ước mơ tạo dựng một máy tính như con người, Woody đã chuyển tới Austin cùng gia đình, và tại đó tiếp tục nghiên cứu và dạy học về lý luận tự động. Mặc dù vậy, công trình về nhận diện gương mặt của ông vẫn chưa kết thúc, mà thậm chí sắp thành hình.

Còn tiếp

FPT TechInsight
Theo Wired

Tin liên quan: