Facebook giới thiệu TextStyleBrush, mô hình AI tự giám sát đầu tiên thay thế văn bản trong một bức ảnh có sẵn của cả ảnh chụp quang cảnh và chữ viết tay.

  • Chúng tôi giới thiệu TextStyleBrush, một dự án nghiên cứu AI với khả năng sao chép kiểu chữ trong các bức ảnh, trong đó chụp một từ viết bằng kiểu chữ đó. Với mô hình AI này, bạn có thể chỉnh sửa và thay thế văn bản trong các tấm ảnh chụp.
  • Không giống hầu hết các hệ thống AI thực hiện việc này cho các tác vụ chuyên biệt và được xác định rõ, TextStyleBrush là mô hình AI tự giám sát đầu tiên thay thế văn bản trong ảnh chụp của cả chữ viết tay và quang cảnh – trong một lần chụp – bằng cách sử dụng một từ duy nhất làm mẫu.
  • Mặc dù đây là một dự án nghiên cứu, một ngày nào đó nó có thể mở khoá những tiềm năng mới cho việc thể hiện bản thân một cách sáng tạo như cá nhân hoá tin nhắn và caption, đồng thời đặt nền tảng cho những đổi mới trong tương lai như hình ảnh bản dịch chân thực của các ngôn ngữ trong thực tế tăng cường (AR).
  • Bằng cách công bố các khả năng, phương pháp và kết quả của nghiên cứu này, chúng tôi hy vọng sẽ thúc đẩy đối thoại và nghiên cứu để phát hiện khả năng sử dụng sai công nghệ này, chẳng hạn như các cuộc tấn công bằng văn bản deepfake – một thách thức quan trọng, đang nổi lên trong lĩnh vực AI.

Những hình ảnh do AI tạo ra đã tiến bộ với tốc độ chóng mặt, với khả năng tái tạo các cảnh lịch sử hay thay đổi một bức ảnh thành tấm hình mang phong cách của Van Gogh hoặc Renoir. Giờ đây, chúng tôi đã xây dựng một hệ thống có thể thay thế văn bản cả trong ảnh chụp quang cảnh và chữ viết tay, bằng cách sử dụng một từ duy nhất làm mẫu đầu vào.

Trong khi hầu hết các hệ thống AI thực hiện điều này cho các tác vụ chuyên biệt và được xác định rõ ràng, việc xây dựng một hệ thống AI đủ linh hoạt để hiểu được các sắc thái của cả văn bản trong ảnh chụp quang cảnh và chữ viết tay là một thách thức khó khăn hơn rất nhiều của AI. Điều này có nghĩa là AI phải hiểu không giới hạn các kiểu văn bản, không chỉ với các cách sắp xếp và vẽ thư pháp khác nhau mà còn với các biến thể khác nhau, như văn bản xoay, văn bản uốn cong, các biến dạng xảy ra giữa giấy và bút khi viết; nền lộn xộn; hình ảnh nhiễu. Bởi sự phức tạp này, việc phân tách gọn gàng văn bản khỏi nền của nó là điều không thể, hay việc tạo ra các mẫu cho mọi kiểu chữ có thể có của cả bảng chữ cái và chữ số là điều không hợp lý.

<iframe src=”https://www.facebook.com/plugins/video.php?href=https%3A%2F%2Fwww.facebook.com%2FFacebookAI%2Fvideos%2F325545429087285%2F&show_text=0&width=560″ width=”560″ height=”315″ style=”border:none;overflow:hidden” scrolling=”no” frameborder=”0″ allowfullscreen=”true” allow=”autoplay; clipboard-write; encrypted-media; picture-in-picture; web-share” allowFullScreen=”true”></iframe>

Hôm nay, chúng tôi giới thiệu TextStyleBrush, mô hình AI tự giám sát đầu tiên thay thế văn bản trong một bức ảnh có sẵn của cả ảnh chụp quang cảnh và chữ viết tay – trong một lần chụp – bằng cách sử dụng chỉ một từ mẫu duy nhất. Nghiên cứu này cũng sẽ được gửi cho một tạp chí khoa học có bình duyệt.

Nó hoạt động tương tự như cách các công cụ cọ hoạt động trong trình xử lý văn bản, nhưng là cho tính thẩm mỹ của văn bản. Nó vượt qua độ chính xác tiên tiến nhất trong cả bài kiểm tra tự động và nghiên cứu người dùng đối với bất kỳ loại văn bản nào. Không giống như các phương pháp trước đây, trong đó các thông số cụ thể được xác định như mặt chữ hoặc kiểu chữ đích, chúng tôi thực hiện một phương pháp đào tạo toàn diện hơn và tách biệt nội dung của một hình ảnh khỏi tất cả các khía cạnh của kiểu chữ của toàn bộ khung chứa từ. Sau đó, kiểu chữ tổng thể có thể được áp dụng chỉ qua một lần mà không cần phải đào tạo lại với các mẫu kiểu chữ mới.

Bằng cách xuất bản công khai nghiên cứu này, chúng tôi hy vọng sẽ thúc đẩy nghiên cứu bổ sung và đối thoại trước các cuộc tấn công văn bản deepfake, giống như cách chúng tôi làm với các gương mặt deepfake. Nếu các nhà nghiên cứu và thực hành AI có thể đi trước đối thủ trong việc xây dựng công nghệ này, chúng ta có thể học hỏi để phát hiện kiểu deepfake mới này tốt hơn và xây dựng các hệ thống mạnh mẽ để chống lại chúng. Mặc dù công nghệ này là một nghiên cứu nhưng nó có thể cung cấp nhiều ứng dụng hữu ích trong tương lai, như dịch văn bản trong hình ảnh sang những ngôn ngữ khác, tạo ra các tin nhắn và caption cá nhân hoá, và có thể một ngày nào đó tạo điều kiện cho việc dịch ngôn ngữ ở các biển báo trên đường phố với hình ảnh chân thực bằng AR.

Giảm các rào cản nghiên cứu văn bản Deepfake

TextStyleBrush chứng minh rằng chúng ta có thể xây dựng các hệ thống AI có khả năng truyền tải tính thẩm mỹ của văn bản linh hoạt và chính xác hơn trước đây – bằng cách sử dụng một từ mẫu. Chúng tôi đang tiếp tục cải tiến hệ thống của mình thông qua một số hạn chế mà chúng tôi gặp phải, chẳng hạn như văn bản được viết trên vật thể kim loại hay các ký tự có màu sắc khác nhau.

Chúng tôi hy vọng nghiên cứu này sẽ tiếp tục làm giảm các rào cản trong việc dịch ngôn ngữ các hình ảnh thực, thể hiện bản thân một cách sáng tạo và nghiên cứu các cuộc tấn công văn bản deepfake.

Khi cuộc cách mạng tự giám sát hiện nay tiếp tục tiến triển, chúng tôi nhận thấy rằng lĩnh vực AI buộc phải công khai hỗ trợ nghiên cứu việc phát hiện lạm dụng công nghệ. Điều này không chỉ bao gồm phát hiện các gương mặt giả mà còn đi xa hơn là phát hiện văn bản giả, cùng với đó là chia sẻ các tập dữ liệu tiêu chuẩn, chẳng hạn như tập dữ liệu Deepfake Detection Challenge. Chúng tôi hy vọng rằng bằng cách công khai nghiên cứu và phương pháp cho các kiểu văn bản AI tạo ra, lĩnh vực rộng lớn hơn của AI có thể sẽ được xây dựng dựa trên nghiên cứu này và tạo ra sự tiến bộ tích luỹ về phía trước.

Đây là bản rút gọn của bài viết gốc trên Facebook AI blog. Bài viết gốc bao gồm những kỹ thuật chi tiết về cách hoạt động của TextStyleBrush.

Theo Facebook

Tin liên quan: