Thuật toán nhận diện giọng nói của Alibaba có thể tách biệt giọng nói trong đám đông

111

Alibaba là một trong những công ty thương mại điện tử lớn nhất thế giới, và ngày càng quan tâm tới công nghệ trí tuệ nhân tạo (AI). Vào tháng 3 năm 2017, Alibaba đã khai trương bộ phận dịch vụ AI để chăm sóc sức khỏe và sản xuất. Vào tháng 9/2017, bộ phận đám mây công cộng (public cloud) của họ – Alibaba Cloud  đã công bố kế hoạch thành lập một công ty con chuyên sản xuất chip có khả năng thực hiện suy luận dựa trên AI, sử dụng cho mảng hậu cần và lái xe tự hành.

Alibaba chiếm một phần tương đối trong miếng bánh thị phần AI.Trong một bài thuyết trình tại NeurIPS 2018 tại Montreal, công ty này đã cập nhật những thành tựu trong xây dựng sản phẩm trong thời gian qua:

“Chúng tôi đang giải quyết các phương án với những khó khăn mà chúng ta không dễ nhận ra“ Rong Jin, trưởng khoa của Viện Khoa học Dữ liệu Alibaba, cho biết. “AI cùng những đổi mới gần đây sẽ hỗ trợ giải quyết những thách thức thú vị.”

Một trong những thách thức đó là nhận dạng giọng nói trong môi trường có nhiều tiếng ồn, ví dụ như hệ thống tàu điện ngầm đông đúc hoặc trung tâm hội nghị với rất nhiều người tham dự. Giải pháp của Alibaba tới một phần từ phần cứng, một phần từ phần mềm: microphone tầm xa và các thuật toán học sâu phức tạp giúp tách biệt giọng nói trong đám đông, làm giảm đáng kể tỷ lệ lỗi.

So với độ chính xác 84%, công nghệ nhận dạng giọng nói “tốt nhất” chỉ có thể đạt được với một giọng, Alibaba khẳng định mô hình chính xác từ 94 đến 95%, ngay cả với những diễn giả có với giọng nặng tính địa phương. Hiện tại, nó đã được triển khai trong một phần của hệ thống bán vé tàu điện ngầm ở Thượng Hải, và Alibaba đang trong quá trình thương thảo để mang công nghệ này đến “thêm một số thành phố”.

Ngôn ngữ nói không phải là lĩnh vực duy nhất mà Alibaba đang giải quyết với công nghệ AI. Bằng việc sử dụng công nghệ xử lý ngôn ngữ tự nhiên, Alibaba đã thực hiện việc dịch tự động trong thời gian thực, trên môi trường đám mây để các khách hàng của Alibaba ở các nước như Nga và Malaysia có thể trò chuyện với các nhân viên bằng tiếng mẹ đẻ của họ. Và Alibaba sử dụng các thuật toán để xử lý một phần trong số hàng chục nghìn cuộc gọi mà trung tâm hỗ trợ khách hàng nhận được mỗi ngày với Alime, công cụ dịch vụ chăm sóc khách hàng thông minh của Alibaba.

Alime, giống như Duplex của Google, có thể thực hiện cuộc trò chuyện qua điện thoại và trả lời các câu hỏi cơ bản mà không cần con người tham gia. Ấn tượng hơn nữa, trong bối cảnh công nghệ chatbot ngày nay đang là một xu hướng, Alime có thể tự động trích xuất văn bản và hình ảnh từ một tài liệu được cung cấp với hiệu suất “tốt hơn con người”.

Trong bản demo trên sân khấu, một khách hàng đã hỏi Dian Xiaomi (chương trình trả lời bot của Alibaba) về chương trình khuyến mãi bán hàng cho một loa Bluetooth, ví dụ như những món quà miễn phí mà họ sẽ nhận được khi mua hàng và quà tặng sẽ được chuyển đến nhà họ như thế nào. (Một phiên bản ra mắt trong năm nay sẽ bổ sung phân tích tình cảm và đưa ra cảnh báo tự động cho các trường hợp ưu tiên). Jin chia sẻ một bản demo khác cho thấy một nguyên mẫu mô phỏng hình người của chatbot, với sự phối hợp mắt, môi và đầu.

Việc này có ích lớn cho các đơn vị có lưu lượng sử dụng cao như AliExpress với hơn 150 triệu người dùng và hàng triệu người bán, và Cainiao, đơn vị có nhân lực và robot thực hiện hơn một tỷ đơn đặt hàng mỗi năm. Vào ngày Độc thân – ngày 11 tháng 11 tại Trung Quốc – ngày hội mua sắm năm nay tạo ra 30,8 tỷ USD – đại lý của Alibaba nhận được gấp 5 lần số lượng cuộc gọi trong khoảng thời gian 24 giờ, điều này gần như không thể xử lý công việc mà không có AI hỗ trợ, Alibaba cho biết Dian Xiaomi hiện phục vụ gần 3,5 triệu người dùng mỗi ngày.

Nhưng xử lý ngôn ngữ tự nhiên chỉ như phần nổi của tảng băng chìm AI của Alibaba. Trên trang Xian Yu, trang thương mại điện tử mua bán các sản phẩm đã qua sử dụng, công ty đã đưa vào hoạt động bot đàm phán giá trao đổi với người mua để chốt giá.

Quá trình phát triển của bot không đơn giản. Bot cần phải học các chiến lược thương thuyết và các cách hiệu quả để tạo ra các dòng văn bản thúc đẩy trao việc trao đổi, thương thuyết qua lại. Tuy nhiên kết quả cuối cùng đạt được khá ấn tượng. Khi bot có 10 triệu người dùng trên cùng một nền tảng thì sẽ tạo ra cơ hội chốt hợp động lớn hơn 20% so với một người bình thường chốt bán hàng.

“Hầu hết người dùng không phải là người bán hàng chuyên nghiệp,” Jin nói. “Họ không biết cách đặt giá hoặc nói chuyện với người mua.”

Về mặt quản lý hàng tồn kho và tìm kiếm hình ảnh, Alibaba đang tận dụng kiến ​​trúc thị giác máy tính có thể mở rộng để sàng lọc thông qua hàng trăm triệu vật dụng. Thuật toán Tìm kiếm hình ảnh trên đám mây của họ có thể nhận dạng đối tượng và tìm hình ảnh chứa các đối tượng tương tự hoặc giống hệt nhau. Một trong các ứng dụng quản lý cửa hàng của của Alibaba hỗ trợ chỉ ra những đồ khác nhau trên giá bán hàng, từ đó tạo ra một báo cáo tóm tắt tình hình phân phối các nhãn hàng. Ứng dụng này có thể nhận diện 100,000 SKU với “độ chính xác cao” (Alibaba đang hướng tới mục tiêu 10 triệu SKU).

Đã có nhiều lời khen dành cho chuỗi cung ứng thông minh Ali (ASSC) của Alibaba, một bộ công cụ AI giúp người bán trên Alibaba dự báo nhu cầu sản phẩm, phân bổ hàng tồn và chọn chiến lược về giá.

Công nghệ thị giác máy tính của Alibaba mở rộng ra cả lĩnh vực hình ảnh vệ tinh. Hệ thống của Alibaba sử dụng dữ liệu được thu thập từ AutoNavi, nhà cung cấp bản đồ và định hướng lớn nhất ở Trung Quốc với hơn 70 triệu người dùng. Ví dụ, hệ thống của hãng có thể xác định các tòa nhà mới được xây dựng gần đây và thu thập thông tin liên quan đến công việc và sở thích.

Alibaba cũng đang sử dụng công nghệ thị giác máy tính để ngăn chặn việc trộm đồ. Tại hơn 66 cửa hàng Hema, các thuật toán được ứng dụng trong các tình huống thực tế tại các ki-ốt tự phục vụ và thanh toán. Việc này ngăn chặn khách hàng quét sản phẩm đầu tiên và bỏ qua các sản phẩm còn lại giấu các khỏi camara giám sát được lắp trên trần.

Jin chia sẻ: “Mục tiêu của chúng tôi là sở hữu một hệ thống thị giác máy tính có thể nhận biết được liệu một khách hàng có chủ ý hoặc vô ý quét các món đồ hay không.” “Máy có thể nhận ra những sản phẩm không được khách hàng quét.”

Hệ thống được hỗ trợ bởi một thuật toán học sâu – AliFPGA-X100 chạy trên Mảng cổng lập trình được dạng trường (field-programmable gate array), một mạch tích hợp có thể cấu hình lại trong các kiốt. Alibaba cho biết họ có thể xử lý hình ảnh nhanh hơn đến 170 lần so với một hệ thống dựa trên GPU tương đương.

Alibaba cũng đang áp dụng AI cho dịch vụ lưu trữ video của Youku. Thuật toán học máy tự động tạo hình thu nhỏ cho khoảng 200.000 video từ hàng chục triệu người dùng thường xuyên tải lên mỗi ngày và nhắm tới một số phân khúc khách hàng nhất định với hình thu nhỏ được gán trước. (Ví dụ: người dùng nữ có thể thấy hình ảnh xem trước khác cho một video nhất định so với người dùng nam). Những tinh chỉnh này dẫn đến việc cải thiện 15% tỷ lệ nhấp chuột (CTR) và tăng 12% thời gian xem quảng cáo.

Khảo sát chúng ta thấy hôm nay từ Alibaba có sau hơn một năm ra mắt của đơn vị nghiên cứu mới thành lập của Alibaba (Học viện DAMO) hướng tới việc đi sâu vào các công nghệ mới nổi như học máy và bảo mật an ninh mạng. DAMO cũng được mở rộng trên toàn thế giới, như ở San Mateo, California, Seattle, Washington, Mát-xcơ-va, Nga, Tel Aviv, Israel và Singapore. Những kết quả từ DAMO công bố theo sau sự ra mắt Tmall Genie của Alibaba, trợ lý thoại hỗ trợ AI, bán được hơn 5 triệu đơn vị trong tháng 7 năm 2017.

Lê Hoàng (Venturebeats)

Tin liên quan:
  • 5
    Shares