Ứng dụng nhận diện hình ảnh và nhận dạng giọng nói với công nghệ Machine learning

2663

Là một lĩnh vực con của công nghệ Trí tuệ nhân tạo (AI), Machine learning là phương pháp phân tích dữ liệu từ đó tự động hóa việc xây dựng mô hình phân tích. Đây là công nghệ hứa hẹn mang lại những hỗ trợ tối ưu nhất cho các doanh nghiệp với nhiều ứng dụng trong thế giới thực, ví dụ như nhận dạng giọng nói và nhận diện hình ảnh.

Machine learning sử dụng các thuật toán lặp để học từ dữ liệu và cho phép máy tính tìm thấy những thông tin, giá trị ẩn sâu mà không được lập trình một cách rõ ràng nơi để tìm. Khía cạnh lặp lại của Machine learning là quan trọng bởi khi các mô hình này được tiếp xúc với dữ liệu mới thì chúng có thể thích ứng một cách độc lập.  Các hệ thống Machine Learning có thể nhanh chóng áp dụng kiến thức và đào tạo từ các bộ dữ liệu lớn để thực hiện các công việc về nhận diện khuôn mặt, nhận dạng giọng nói, … một cách xuất sắc.

1. Ứng dụng nhận diện hình ảnh

Với nhận diện hình ảnh, có rất nhiều tình huống hệ thống phân loại hình ảnh các đối tượng như một ảnh kỹ thuật số. Đối với hình ảnh số, các phép đo mô tả các kết quả đầu ra của mỗi pixel trong hình ảnh. Với ảnh đen trắng, mật độ của mỗi pixel được tính như 1 đơn vị đo. Vì thế, nếu một hình ảnh đen trắng có N * N pixels, tổng số pixel và các phép đo là N2. Với ảnh màu, mỗi pixel được tính như cung cấp 3 phép đo với mật độ của 3 thành phần màu chính là RGB. Vì vậy ảnh màu N * N có 3 phép đo N2.

  • Về phần nhận diện khuôn mặt – là các hạng mục có thể yêu cầu trình diện hoặc không trình diện khuôn mặt. Có thể có hạng mục riêng cho từng người trong cơ sở dữ liệu của một số cá nhân.
  • Về phần nhận dạng ký tự – Các đoạn văn bản có thể được phân tách thành các hình ảnh nhỏ hơn, mỗi hình có chứa một ký tự đơn. Các mục có thể bao gồm 26 chữ cái trong bảng chữ cái tiếng Anh, 10 chữ số, và một số ký tự đặc biệt.

Hệ thống nhận diện hình ảnh sử dụng công nghệ machine learning đang được Google sử dụng trong các sản phẩm của mình như Google Photos, Google Search, Google Drive… để tối ưu hóa việc phát hiện hình ảnh thông qua các từ khóa tìm kiếm của người dùng.

2. Ứng dụng nhận dạng giọng nói

Nhận dạng lời thoại (Speech Recognition – SR) là việc chuyển đổi các ngôn ngữ nói thành văn bản. Nó còn được biết với cái tên “nhận dạng giọng nói tự động” (Automatic speech recognition – ASR), “nhận dạng giọng nói qua máy tính” (computer speech recognition), hoặc speech to text – STT.

Ứng dụng chuyển giọng nói thành văn bản

Nhận dạng giọng nói được thực hiện bởi phần mềm ứng dụng. Các phép đo trong ứng dụng này có thể là một bộ số đại diện cho tín hiệu thoại. Các tín hiệu có thể được phân chia thành các phần có chứa các từ riêng biệt hoặc các âm vị. Trong mỗi phân đoạn, tín hiệu giọng nói được biểu diễn bằng mật độ hoặc năng lượng trong các dải tần suất thời gian khác nhau. Mặc dù các chi tiết về biểu diễn tín hiệu nằm ngoài phạm vi của chương trình này, chúng ta có thể biểu diễn tín hiệu bằng một tập các giá trị thực.

Các ứng dụng nhận dạng giọng nói bao gồm giao diện người dùng thoại. Những ví dụ về giao diện người dùng thoại như: quay số bằng giọng nói, định tuyến cuộc gọi, kiểm soát các ứng dụng domotic. Ngoài ra, chúng cũng có thể dùng trong tiếp nhận dữ liệu đơn giản, chuẩn bị các tư liệu cấu trúc, xử lý text to speech và các hình thức tương đương.

Ứng dụng công nghệ Machine learning, phòng nghiên cứu và phát triển của công ty Baidu đã chế tạo một công cụ mang tên gọi Deep Voice – một mạng lưới nơ-ron sâu có khả năng tạo ra giọng nói nhân tạo rất khó để phân biệt từ giọng nói thật của con người. Mạng lưới này có thể “học” được những nét đặc trưng trong nhịp điệu, giọng nói, cách phát âm và âm vực nhằm tạo ra giọng của người nói chính xác đến kì lạ. Ngoài ra, Google cũng sử dụng Machine learning cho các sản phẩm khác liên quan đến giọng nói và dịch thuật như Google Translate, Google Text To Speech, Google Assistant.

Bên cạnh những ứng dụng trong nhận dạng âm thanh và nhận diện hình ảnh, Machine learning còn được nghiên cứu ứng dụng trong các lĩnh vực như phân tích y khoa; sắp xếp, phân loại; phân tích dữ liệu và dự báo,… tại các ngành như chăm sóc sức khỏe, dịch vụ tài chính, vận tải, marketing & sale… Như vậy, chẳng bao lâu nữa mọi mặt của đời sống con người đều có sự xuất hiện của những thiết bị, ứng dụng có nền tảng là công nghệ Machine learning.

FPT.AI – Nền tảng hội thoại và trợ lý ảo thế hệ mới

Để bắt kịp xu hướng công nghệ hiện đại, FPT đã và đang sử dụng Machine learning trong hầu hết các ứng dụng, sản phẩm công nghệ hiện đang phát triển của FPT. Một số cái tên có thể kể đến như: FPT.AI – Nền tảng hội thoại và trợ lý ảo thế hệ mới, Bài toán đếm ngô, đếm tàu, Nhận diện người trong FPT Shop, Xe tự hành, Human Machine Interface – TTS, STT, …

Mai Hiền

Tin liên quan: