Trong thời đại ngày nay, ta có thể dễ dàng bắt gặp camera ở bất cứ đâu, từ văn phòng, nhà hàng, cửa hàng tạp hóa đến đường phố. Hệ thống camera trở thành một giải pháp phổ biến nhằm bảo đảm an ninh, kiểm soát giao thông, phát hiện các hành vi bất thường,… Tuy nhiên, liệu video camera đã được khai thác hết tiềm năng chưa? Nói cách khác, bên cạnh các mục đích cơ bản kể trên, camera còn có thể mang lại những lợi ích nào nữa?

Để đáp ứng nhu cầu ngày càng cao trong kỷ nguyên số, FPT Software đã xây dựng và phát triển Nền tảng phân tích video có tên uniSense, nhằm cung cấp các phân tích chung dành cho nhiều ngành khác nhau. Giải pháp này thích ứng với nhiều nhiệm vụ kinh doanh khác nhau như phân tích đặc điểm và hành vi của khách hàng, đánh giá quầy kệ, vận hành nhà hàng,…

Nền tảng này là một giải pháp đa năng, phục vụ nhiều mục đích, nhu cầu khác nhau, giúp mở rộng hoạt động kinh doanh của doanh nghiệp. Do đó, tính linh hoạt, cài đặt và vận hành đã được tính toán kỹ lưỡng trong giai đoạn nghiên cứu phát triển.

Kiến trúc riêng dành cho hệ thống phân tích video

Nhìn chung, một hệ thống phân tích video có các thành phần điển hình như mô hình AI, nhiệm vụ phân tích, nhiệm vụ kinh doanh, nhiệm vụ duy trì,… Với cách tiếp cận này, kiến trúc tổng thể của uniSense được trình bày trong hình dưới đây:

Mỗi thành phần có một vai trò cụ thể trong quy trình xử lý, tạo ra một hệ thống phân tích dữ liệu mạnh mẽ để phục vụ nhu cầu của doanh nghiệp.

1. Message Broker

Message Broker bảo đảm tính độc lập giữa các nhiệm vụ. Nghĩa là, mỗi nhiệm vụ chỉ cần theo một chủ đề nhất định, lấy dữ liệu JSON đã contract, xử lý dữ liệu, sau đó xuất lại kết quả cho message broker (ở định dạng contract). Mỗi nhiệm vụ không cần biết thứ tự cụ thể của quy trình này. Ví dụ: Frame Extractor có thể trích xuất hình ảnh từ video và đưa dữ liệu đến trình message broker mà không cần biết bộ xử lý nào sẽ sử dụng video sau đó.

2. TensorFlow Serving

TensorFlow Serving là một hệ thống phục vụ nhằm tích hợp với mô hình học máy. TensorFlow Serving giúp cập nhật phiên bản mô hình một cách linh hoạt và là một phương pháp dễ dàng để sử dụng mô hình – thông qua API. Để biết thêm thông tin về TensorFlow Serving, vui lòng truy cập: https://www.tensorflow.org/tfx/guide/serving.

3. Bộ xử lý

Bộ xử lý là các thành phần độc lập có những nhiệm vụ riêng biệt. So với thiết kế ứng dụng đơn lẻ, kiến trúc này cung cấp cho hệ thống:

  • Khả năng mở rộng: Tự do thêm các tính năng mới vào hệ thống mà không ảnh hưởng đến các tính năng cũ.
  • Khả năng duy trì và cập nhật: Cập nhật là một bước bắt buộc trong dự án AI. Áp dụng kiến trúc này có thể giúp chúng ta cập nhật từng thành phần riêng biệt, cho phép kiến trúc có thể cập nhật với công nghệ hiện đại trong tương lai.
  • Khả năng tái sử dụng: Các thành phần được thiết kế tốt có thể được sử dụng lại trên các quy trình làm việc khác mà không cần sửa đổi.

Với những lợi ích đó, Nền tảng phân tích video có thể được xây dựng dễ dàng, cho phép người dùng xác định quy trình làm việc, định dạng cấu hình các dịch vụ bên ngoài và chuẩn bị sẵn sàng cho hệ thống phân tích video của riêng mình.

Triển khai nhanh chóng, mô hình triển khai linh hoạt

Các thành phần được tạo thành hình ảnh Docker, nhằm triển khai trên nhiều nền tảng khác nhau, cả trên cục bộ và đám mây.

Docker là một công nghệ chứa cho phép chúng ta dễ dàng tạo, triển khai và chạy các ứng dụng. Docker sử dụng vùng chứa để tập hợp ứng dụng và các dependency (thư viện) thành một package. Nhờ mô hình triển khai dựa trên hình ảnh này, các ứng dụng hỗ trợ Docker có thể được chia sẻ và chạy trên nhiều môi trường. Nếu bạn quan tâm đến Docker, vui lòng theo dõi tài liệu Docker Quickstart https://docs.docker.com/get-started.

Với Docker, người dùng có thể cập nhật các thành phần bằng cách thay đổi hình ảnh đích. Ngoài ra, TensorFlow Serving có thể được cập nhật phiên bản mô hình theo thời gian. Những khả năng này giúp nền tảng nhanh chóng thích ứng với môi trường thực, nơi mà mô hình AI sẽ được cập nhật dựa trên đầu vào thực tế. Nền tảng cũng có thể theo kịp các công nghệ mới, từ đó kích hoạt các tính năng AI mới.

Hơn nữa, với Docker, ta có thể chạy từng thành phần ở bất kỳ đâu tùy thuộc vào nhu cầu của riêng mình.

Ví dụ, Docker cho phép ta triển khai trình trích xuất khung hình lưu trữ trên mỗi hệ thống camera cục bộ và các bộ xử lý trên đám mây để tập trung giám sát. Cách này có thể sử dụng các máy ảo CPU để xử lý mô hình.

Quá trình triển khai trong mỗi dự án phụ thuộc vào nhiều yếu tố. Sử dụng Docker, ta có thể tùy chỉnh mô hình triển khai dựa trên những gì mình muốn.

Thích ứng với các nhu cầu kinh doanh khác nhau

Hiện tại, uniSense cung cấp một loạt các phân tích phổ biến như đếm người, phát hiện tuổi và giới tính, đọc biển số xe, v.v., thích ứng với các nhu cầu kinh doanh khác nhau. Nền tảng phân tích video này là một giải pháp tiềm năng để phân tích các đặc điểm và hành vi của khách hàng, đánh giá kệ hàng, hoạt động của nhà hàng…

Dưới đây là 4 ứng dụng của uniSense:

1. Phân tích đặc điểm và hành vi của khách hàng

Trong các cửa hàng bán lẻ, camera thường được lắp đặt tại các vị trí thông thường như cửa trước, quầy, kệ hàng hóa, … nhằm bảo đảm an ninh Ngoài mục đích này, hệ thống camera còn có thể tạo ra nhiều thông tin có giá trị giúp hoạt động kinh doanh hiệu quả hơn bằng cách cung cấp thêm hiểu biết về hành vi của khách hàng cũng như các dịch vụ tốt hơn. Sau khi sử dụng dữ liệu trích xuất từ hệ thống camera, ta thu được các thông tin như:

  • Có bao nhiêu khách hàng ra, vào mỗi ngày?
  • Khách hàng là nam hay nữ, trong độ tuổi nào?
  • Khách hàng đã đợi ở quầy tính tiền trong bao lâu?
  • Phân biệt khách hàng và nhân viên để kết quả chính xác hơn.

Cuối cùng, đầu ra được hiển thị như dưới đây:

2. Hỗ trợ đánh giá kệ hàng 

Trong các cửa hàng tạp hóa và sự kiện quảng bá thương hiệu, bố trí kệ hàng là điểm mấu chốt quan trọng giúp khách hàng đưa ra quyết định mua hàng. Đây có thể được coi là một cấp độ trải nghiệm khách hàng tiếp theo của ngành bán lẻ khi triển khai AI vào hoạt động kinh doanh, đặc biệt là đánh giá kệ hàng. Thị giác máy tính sử dụng mạng nơ-ron nhằm phát hiện các đối tượng trong hình ảnh kệ hàng, phân loại chúng dựa trên danh mục, thương hiệu và mặt hàng. Tại thời điểm này, uniSense hỗ trợ nhà bán lẻ kiểm tra việc sắp xếp kệ và thu thập thông tin quan trọng để có thể xử lý vấn đề kịp thời.

3. Tư vấn nhà hàng

Nhiều nhà hàng hiện đã bắt kịp xu hướng phân tích video cho hoạt động kinh doanh của mình. uniSense giúp tự động hoá thông tin chi tiết về video, từ đó tăng lợi nhuận và cải thiện quy trình hoạt động. Dữ liệu thu thập được từ video có thể giúp nhà hàng hiểu các tình huống cụ thể với khung thời gian chính xác:

  • Tính toán có bao nhiêu khách hàng tại một bàn tại một thời điểm nhất định
  • Khách hàng phải đợi bao lâu để được phục vụ
  • Khách hàng dùng bữa trong bao lâu
  • Nhân viên cần dọn bàn trong bao lâu sau khi khách hàng rời đi

Đầu ra như dưới đây:

4. Trình đọc biển số xe

Một ứng dụng phổ biến của nền tảng phân tích video là trình đọc biển số, cho cả ô tô và xe đạp. Nhận dạng biển số xe được sử dụng rộng rãi ngày nay, kết hợp với các phân tích video khác để tối đa hóa việc phòng ngừa trộm cắp, hư hại. Nền tảng cung cấp mô hình nhận dạng ký tự có thể tùy chỉnh để thích ứng với các phông chữ biển số xe khác nhau.

Tối ưu hoá quy trình kinh doanh

uniSense hỗ trợ khách hàng đẩy nhanh quá trình chuyển đổi số hóa bằng cách cung cấp khả năng triển khai dịch vụ trong thời gian ngắn, do đó chủ doanh nghiệp có thể giảm thời gian tiếp thị.

Kiến trúc của uniSense có thể tự mở rộng, bảo trì, cập nhật và tái sử dụng. Với Docker và TensorFlow Serving, ta có thể cập nhật các thành phần, cũng như mô hình AI, để hệ thống có thể linh hoạt và được triển khai trong thời gian ngắn.

Khả năng phân tích video càng đa dạng thì doanh nghiệp càng thu thập được nhiều thông tin chi tiết hơn dựa trên video được thu thập trong hệ thống.

Trong thế giới thực, khi doanh nghiệp có nhiều dữ liệu, doanh nghiệp đó có thể xây dựng mô hình AI để hỗ trợ hoạt động kinh doanh của mình. Tuy nhiên, chất lượng của các sản phẩm liên quan đến AI thường cần được cải thiện liên tục để đảm bảo hệ thống hoạt động ổn định. Do đó, thách thức thực sự của dự án AI là làm thế nào để nhanh chóng áp dụng mô hình AI, cập nhật nhanh chóng phiên bản mới nhất, cũng như kiểm tra hiệu quả của việc cải tiến theo thời gian. Bên cạnh đó, chuyển đổi các yêu cầu của khách hàng thành đường ống xử lý cũng là một quá trình quan trọng.

Kiến trúc đa thành phần uniSense giúp doanh nghiệp giải quyết các yêu cầu trên. Với tính năng của TensorFlow Serving, uniSense có thể dễ dàng cập nhật phiên bản mô hình mới, dựa trên nhiều thành phần, kết hợp với bộ điều phối dựa trên tin nhắn giúp cập nhật linh hoạt luồng xử lý nghiệp vụ. Từ đó, uniSense giúp các doanh nghiệp áp dụng AI vào giải quyết vấn đề kinh doanh một cách dễ dàng.

Trần Gia Quốc Hưng –  Ban Giải pháp và Công nghệ, FPT Software

Tin liên quan: