Cuộc chiến chống lại deepfake

111

Tại hội nghị an ninh mạng Black Hat, được tổ chức vào cuối tuần trước tại Las Vegas, Ủy ban Quốc gia Đảng dân chủ đã cho trình chiếu một video deepfake làm giả chủ tịch DNC, ông Tom Perez, nhằm nâng cao nhận thức về nguy hiểm của những video này. Deepfake là các video đã bị chỉnh sửa sử dụng công cụ học sâu, từ đó có thể ghép khuôn mặt một người lên một video của người khác.

Ảnh: guvendemir/Getty.

Cuộc bầu cử 2020 đang đến gần cũng có nghĩa là những mối nguy về đe dọa giả mạo sử dụng deepfake cũng ngày một tăng cao. Vào hồi tháng 6, Ủy ban Đặc biệt về Tình báo Thượng viện Hoa Kỳ cũng đã tổ chức một buổi bàn luận về những nguy cơ đến từ deepfake cũng như các công cụ truyền thông sử dụng AI khác. Tuy nhiên, nhiều người lại cho rằng, các công ty công nghệ chưa đủ khả năng để đối mặt với nguy cơ này. Đáp lại, ông Adam Schiff, trưởng Ủy ban Tình báo, đã bày tỏ mối lo rằng, sự tràn lan của deepfake gần đây đã vượt quá khả năng phát hiện của những công cụ và nghiên cứu chống lại video giả mạo của Google và Face Mounting. Tuy nhiên, những kỹ thuật này vẫn có thể bị phát hiện nếu ta lưu ý vào một số điểm sau.

Chớp mắt không nhất quán

Deepfake sử dụng các mạng nơ-ron để thay thế gương mặt của người trong video gốc thành gương mặt của đối tượng muốn giả mạo. Và tuy rằng mạng nơ-ron thực hiện tác vụ này rất hiệu quá, nhưng nó lại không thể hiểu được các đặc điểm vật lý và tự nhiên của một gương mặt người.

Chính vì vậy, deepfake có thể bị phát hiện thông qua một số hành vi không tự nhiên – mà trong đó đáng lưu ý nhất là việc không chớp mắt. Sở dĩ điều này xảy ra là do trước khi có thể tạo ra deepfake, mạng nơ-ron cần phải được huấn luyện sử dụng các hình ảnh của đối tượng muốn giả mạo. Tuy nhiên, trong đa số các hình ảnh này, đối tượng đều đang mở mắt, và mạng nơ-ron qua đó sẽ tạo ra những gương mặt không chớp mắt, hoặc chớp mắt rất thiếu tự nhiên.

Vào năm 2018, các nhà nghiên cứu tại Đại học Albany đã cho xuất bản một nghiên cứu về cách thức phát hiện các hành vi chớp mắt thiếu nhất quán này. Và điểm thú vị của phương thức nêu trên nằm ở chỗ nó sử dụng đúng công nghệ phía sau deepfake – công nghệ học sâu. Trong nghiên cứu, các nhà khoa học phát hiện rằng, các mạng nơ-ron được huấn luyện qua những video chớp mắt sẽ có thể phân khúc những video deepfake, từ đó chỉ ra thời điểm hành động chớp mắt trở nên thiếu tự nhiên.

Tuy nhiên, với trình độ phát triển công nghệ hiện tại, sẽ sớm xuất hiện các deepfake tinh vi hơn, với khả năng chớp mắt không sai lệch với người thật.

Theo dõi chuyển động của đầu

Các nhà nghiên cứu tại UC Berkley gần đây đã phát triển ra một thuật toán AI có khả năng phát hiện video giả mạo dựa trên các chuyển động đầu và biểu cảm gương mặt. Cụ thể, mỗi người lại có những chuyển động đầu và biểu cảm gương mặt chuyên biệt với nhau, trong khi deepfake lại sử dụng những đặc điểm này từ người trong video gốc, chứ không phải đối tượng giả mạo.

Như vậy, với một mạng nơ-ron được huấn luyện sử dụng các chuyển động đầu và biểu cảm gương mặt, các video giả mạo sẽ được phát hiện dễ dàng hơn. Trong thử nghiệm với mô hình này, các nhà nghiên cứu đã sử dụng video của những nhà lãnh đạo khác nhau trên toàn cầu, cho kết quả phát hiện deepfake đạt độ chính xác tới 92%.

Như vậy, đây là một phương thức nhận diện deepfake chắc chắn và bảo đảm hơn. Tuy nhiên, trái với mô hình phân tích sử dụng chớp mắt, những mô hình này lại cần được huấn luyện riêng trên từng cá nhân khác nhau, và vì vậy chỉ có thể được sử dụng với người nổi tiếng hay chính trị gia, chứ không thể được sử dụng để phân biệt deepfake trên người bình thường.

Pixel không nhất quán

Hiển nhiên, những kẻ làm ra deepfake sẽ muốn các video này càng giống thật càng tốt. Nhưng một video giả mạo, cho dù tinh vi tới đâu, dù khó có thể được phát hiện chỉ với mắt thường, nhưng lại khó có thể qua mặt các thuật toán học sâu được huấn luyện kỹ càng.

Các nhà nhiên cứu tại Đại học California, Riverside, đã phát triển một mô hình AI có thể phát hiện hình ảnh giả mạo bằng cách tập trung vào rìa các sự vật xuất hiện trong ảnh. Thông thường, phần ranh giới giữa hình gốc và các sự vật được ghép vào sẽ mang một số đặc điểm riêng, như độ mượt kém tự nhiên hoặc bị nhòe.

Mô hình này được huấn luyện sử dụng một bộ dữ liệu lớn có gắn nhãn giữa hình ảnh đã được và chưa được chỉnh sửa. Qua đó, mạng nơ-ron sẽ có thể tìm ra những quy tắc mẫu, từ đó phân biệt được phần rìa của các vật bị chỉnh sửa trong hình, kể cả với những hình ảnh mới không thuộc bộ dữ liệu.

Tuy rằng mô hình này mới chỉ được sử dụng trên ảnh tĩnh, nhưng trong tương lai, nó sẽ sớm khả dụng trên cả video. Về cơ bản, các video deepfake cũng chỉ là một chuỗi hình ảnh chạy liên tục, và vì vậy cũng có thể bị phát hiện sử dụng cơ chế tương đương.

Đây có thể sẽ trở thành một kỹ thuật phát hiện deepfake hiệu quả, nhưng ta cũng không thể loại trừ khả năng rằng deepfake vẫn có thể trở nên tinh vi hơn với trình độ công nghệ hiện tại.

Cơ sở của sự thật

Hiện nay, đa số những cố gắng phát hiện deepfake đều đang tập trung vào việc tìm ra các bằng chứng giả mạo, mà lại bỏ qua một phương thức vô cùng hiệu quả khác: chứng minh cái gì là sự thật. Đây cũng là phương thức được sử dụng trong dự án Archangel, được thực hiện bởi các nhà nghiên cứu tại Đại học Surrey, UK, và hiện đang được thử nghiệm trên nhiều kho lưu trữ của nhiều quốc gia.

Archangel sử dụng phối hợp các mạng nơ-ron và blockchain, nhằm tạo ra một ổ lưu trữ video thông minh để sử dụng trong quá trình chứng thực sau này. Sau khi một video được thêm vào lưu trữ, Archangel sẽ huấn luyện mạng nơ-ron sử dụng nhiều định dạng khác nhau của video này. Từ đó, mạng nơ-ron sẽ có thể phát hiện xem video mới có tương thích mới video gốc đã được lưu trữ hay không, hay đã trải qua chỉnh sửa.

Trong những kỹ thuật so sánh truyền thống, các tệp tin sẽ được chứng thực trên từng byte – một phương thức không phù hợp với video do đặc điểm cấu trúc thay đổi qua định dạng. Tuy nhiên, mạng nơ-ron của Archangel lại so sánh qua điểm ảnh, tức sử dụng giải mã dữ liệu lập trình (codec-agnostic).

Để đảm bảo rằng các nơ-ron không bị thao túng, Archangel chứa chúng trên một blockchain duy trì bởi các hệ lưu trữ của chính phủ tham gia vào thử nghiệm dự án này. Như vậy, việc thêm dữ liệu vào lưu trữ sẽ cần được sự đồng ý của các bên liên quan. Do đó, không có một tổ chức nào có thể tự quyết định video nào là thật, video nào là giả mạo. Dự kiến, sau khi Archangel được công khai, mọi người đều sẽ có thể thử chứng thực các video của họ trên chương trình này.

Song, một điểm yếu rõ rệt của phương thức này là mỗi video lại cần một mạng nơ-ron được huấn luyện khác nhau – vô cùng tốn kém về thời gian cũng như năng lượng máy tính cần thiết. Phương thức này đặc biệt phù hợp với các video có nội dung nhạy cảm như các đoạn ghi của Quốc hội và phát biểu của những chính trị gia.

Một cuộc đuổi bắt

Những nghiên cứu và sản phẩm chống lại deepfake đang được ra đời liên tục, nhưng chúng chưa chắc đã có thể chống lại dòng chảy của công nghệ. Deepfake đang ngày một trở nên tinh vi hơn, và có thể, một ngày nào đó, những phương thức hiện tại và cả trong tương lai sẽ không thể xác minh thật giả của những video tràn lan trên khắp các mạng xã hội.

Theo Venture Beat

Tin liên quan: