I. Giới thiệu

Thiết bị đầu tiên sử dụng công nghệ OCR (Nhận diện ký tự quang học – Optical Character Recognition) vốn được sử dụng để hỗ trợ việc đọc cho người khiếm thị, thông qua chuyển hóa văn bản thành các mã điện báo. Tuy nhiên ở hiện tại, sau một thời gian phát triển mạnh mẽ, OCR thường được sử dụng để chuyển hóa các văn bản viết tay, scan, chụp ảnh, hay in máy thành các văn bản có thể chỉnh sửa và tìm kiếm trên máy với nhiều định dạng khác nhau (ví dụ: txt, doc, etc.).

Hình 1: Công nghệ OCR.

Công nghệ OCR truyền thống: Trước khi AI được sử dụng rộng rãi trong OCR, công nghệ OCR truyền thống chỉ có thể hoạt động hiệu quả khi tuân thủ được các điều luật và template nghiêm ngặt. Các công cụ cũ này vô cùng thiếu linh hoạt, và chỉ hiệu quả khi thỏa mãn đủ các điều kiện về định dạng hình ảnh, và với một số template cụ thể có sẵn trên hệ thống. Trong khi đó, việc xây dựng các template này lại tốn công không kém gì việc nhập thủ công.

Trí tuệ nhân tạo đã thay đổi mọi thứ: Lợi thế lớn nhất của AI là khả năng nhận dạng vật thể thông qua một số đặc điểm tinh vi mà công nghệ này trích xuất được, theo một cơ chế tương tự như cách não bộ con người hoạt động. Nhờ có AI, các hệ thống OCR hiện đại không chỉ có khả năng dự đoán ký tự với độ chính xác cao kể cả với chất lượng hình ảnh thấp, mà còn có thể xem lại từ điển, hiểu bối cảnh, và lựa chọn các kết hợp phù hợp nhất dựa trên các thông tin liên quan.

Tận dụng được năng lực các mạng nơ-ron là deep learning đến từ AI, các phần mềm OCR ở hiện tại đã vượt xa các ranh giới trước kia. Và các doanh nghiệp, nếu tận dụng được sức mạnh này, sẽ có thể vươn lên mạnh mẽ, đặc biệt là trong bối cảnh thị trường đang cạnh tranh ngày một khốc liệt.

1. OCR nhận diện ký tự trên ảnh như thế nào?

Các thuật toán được ứng dụng trong công nghệ OCR có thể được chia làm hai thể loại sau: nhận diện xu thế (pattern recognition) và trích xuất đặc điểm (feature extraction).

a) Nhận diện xu thế:

Thông qua các phương thức của loại thuật toán này, phần mềm có thể nhận diện toàn bộ một ký tự bằng cách so sánh ký tự mà nó “thấy” với các ký tự mà nó đã “ghi nhớ”. Phần mềm sẽ hiểu được ký tự và tìm được các đặc điểm “thích hợp” với ký tự đó. Tuy nhiên, các phương thức này lại có nhược điểm là, phần mềm thường gặp khó khăn trong việc xử lý quá nhiều phông chữ khác nhau. Trong quá khứ, thậm chí đã xuất hiện một số phông chữ được thiết kế riêng sao cho tăng độ chính xác của các phương thức này. (VD: phông chữ OCR-A).

Hình 2: Phông chữ OCR-A

b) Trích xuất đặc điểm:

Phương thức được sử dụng trong loại thuật toán này tinh vi hơn rất nhiều so với các phương thức bên trên. Cụ thể, thay vì nhận diện toàn bộ ký tự một lúc, phần mềm sẽ cố tìm các đặc điểm giúp nhận diện được ký tự, ví dụ như các điểm, góc, đường cong… Các thuật toán machine learning hiện đại đã có thể học và trích xuất nhiều đặc điểm vô cùng trừu tượng mà chính con người cũng không thể hiểu, đồng thời nhận diện được ký tự trong nhiều điều kiện và ở nhiều phông chữ khác nhau.

Hình 3: Trích xuất đặc điểm.

2. Các ứng dụng của công nghệ OCR:

OCR giờ đây đã có độ chính xác lớn hơn rất nhiều so với trước, do đó nó đang được ứng dụng trong rất nhiều khía cạnh của đời sống, chứng minh được khả năng giảm công sức, thời gian, chi phí, cũng như lỗi sai do con người gây ra. Các ứng dụng đó là:

  • Hỗ trợ người khiếm thị: Các thiết bị tiên tiến sử dụng công nghệ OCR tổng hợp giọng nói đã có thể đọc các văn bản in trên giấy, tạp chí, sách – với nhiều kiểu định dạng cho người khiếm thị.
  • Tự động hóa các quy trình: Đọc biển số xe trong bãi đỗ, đọc các chứng từ cá nhân như hộ chiếu, CMTND/CCCD… tại sân bay.
  • Phân loại/sắp xếp các thư từ/tài liệu ở bưu điện, doanh nghiệp…
  • Lưu trữ các sách và văn bản có giá trị lịch sử.

II. Công nghệ OCR có thể hỗ trợ doanh nghiệp như thế nào?

Trên thực tế, ở cấp độ doanh nghiệp, công nghệ OCR có thể mang lại rất nhiều ích lợi cho các quy trình có sử dụng văn bản, tài liệu.

Hình 4: Các lợi ích của OCR đối với  doanh nghiệp.

Khi ứng dụng OCR, các doanh nghiệp sẽ:

  • Tiết kiệm thời gian
  • Cải thiện quản lý công việc
  • Giảm chi phí
  • Cải thiện khả năng truy cập và tìm kiếm cho dữ liệu
  • Cải thiện các quy trình kinh doanh
  • Đảm bảo bảo mật dữ liệu
  • Phòng tránh các vấn đề về lưu trữ
  • Cải thiện dịch vụ khách hàng
  • Bảo vệ môi trường

Nhờ vào các lợi ích nêu trên, nhiều doanh nghiệp Việt Nam đang ngày một ứng dụng rộng rãi công nghệ OCR, đặc biệt là ở lĩnh vực ngân hàng và tài chính. Sau đây là một số ứng dụng phổ biến trong các lĩnh vực này:

  • Tự động hóa quy trình định danh khách hàng thông qua việc đọc các chứng từ cá nhân như CMTND/CCCD, hộ chiếu…
  • Số hóa và quản lý tài liệu: Chuyển hóa tài liệu giấy như hợp đồng, hóa đơn… sang định dạng số, cho phép lưu trữ, sắp xếp, phân loại, tìm kiếm, và truyền tải dễ dàng.
  • Nâng cao hiệu suất logistics và vận chuyển: Công nghệ này sẽ giúp cải thiện đang kể tốc độ vận chuyển và giảm chi phí xử lý, theo dõi, và vận chuyển hàng hóa. Cụ thể, thay vì phải nhập thủ công các mã số vận đơn dài dòng, tên người nhận, và địa chỉ, người dùng sẽ chỉ cần dùng tới thiết bị scan để trích xuất các thông tin cần thiết từ nhãn gói hàng trên thời gian thực.

1. Các nền tảng OCR cho doanh nghiệp hiện đại

Với sự phát triển của công nghệ deep learning, các nền tảng OCR hiện tại đang ngày một thỏa mãn tốt hơn các nhu cầu của doanh nghiệp.

Hình 5: Quy trình xử lý OCR.

Về cơ bản, các nền tảng OCR ở hiện tại thường bao gồm 4 tính năng sau:

Hình 6: Các tính năng của nền tảng OCR hiện đại.

a) Phân loại tài liệu

Tính năng chính đầu tiên là tự động hóa quy trình phân loại và phân tách tài liệu sử dụng các cơ chế phân loại AI. Qua đó, các tài liệu sẽ được chia thành nhiều loại cụ thể, hoặc điều chuyển tới các quy trình xử lý khác nhau. VD: hệ thống xử lý và phân loại các tài liệu thành 2 loại là tài liệu bán cấu trúc như: hóa đơn, CMTND/CCCD, hộ chiếu… và tài liệu phi cấu trúc như: CV (hồ sơ năng lực), hợp đồng…

b) Trích xuất dữ liệu

Các hệ thống phát hiện văn bản tùy chỉnh được tích hợp công nghệ Xử lý Ngôn ngữ Tự nhiên (Natural Language Processing – NLP), qua đó tự động hóa được quy trình nhận diện và trích xuất nội dung từ các tài liệu có cấu trúc như CMTND/CCCD, hộ chiếu, hoặc các tài liệu phi cấu trúc như hợp đồng, email. Với các thuật toán mới, hệ thống này sẽ giúp khách hàng đẩy nhanh tốc độ giao dịch, đồng thời giảm đáng kể các chi phí và lỗi vận hành.

c) Xác minh và kiểm soát dữ liệu

Các vùng dữ liệu quan trọng sẽ được nhận diện, xác minh, và xử lý tự động theo các quy chuẩn và quy định của doanh nghiệp. Ví dụ như: Số CMTND/CCCD, số hộ chiếu…

Hình 7: Kiểm tra kết quả OCR.

d) Tầm nhìn xa bên trong dữ liệu và các quy trình

Đây là một tính năng rất quan trọng đối với mọi khách hàng. Do mọi thang đo tài nguyên, hiệu quả, và độ chính xác phải được theo dõi và cập nhật trên thời gian thực, nên ban quản lý cần phải có một tầm nhìn chính xác về các cơ hội phát triển của doanh nghiệp.

Ảnh 8: Theo dõi lịch sử huấn luyện.

2. Những ví dụ về bộ phân loại học tiếp diễn (continuous learning classifier):

Hình 9: Bộ phân loại học tiếp diễn có tùy chỉnh.

Thông qua việc liên tục cung cấp dữ liệu mới cho các mô hình AI, mỗi mô hình sẽ có những cải thiện rõ rệt trong bộ phân loại. Toàn bộ quy trình từ cung cấp dữ liệu, kiểm tra, cho tới quan sát kết quả kiểm nghiệm, đều có thể được vận hành và kiểm soát bởi khách hàng.

III. Kết luận

Bài viết này đã bao quát từ nguồn gốc của công nghệ OCR cho tới các ứng dụng của thuật toán OCR hiện đại trong doanh nghiệp. Về cơ bản, công nghệ OCR đã đem lại rất nhiều lợi ích cho doanh nghiệp, như giảm chi phí và tối ưu hóa nguồn lực. Do đó, càng nhanh chóng tận dụng được các lợi thế mà công nghệ OCR đem lại, thì doanh nghiệp càng nâng cao được khả năng để vượt qua các đối thủ cạnh tranh.

Nguyễn Bảo Trung – FPT Smart Cloud

Tin liên quan: