Tác tử hội thoại thông minh

661

Những nghiên cứu cơ bản và nghiên cứu ứng dụng về tác tử hội thoại thông minh trong giao tiếp người – máy đang được triển khai mạnh mẽ. Gần đây, nhiều hãng công nghệ khổng lồ đã giới thiệu những trợ lí ảo và công cụ tìm kiếm dựa trên tiếng nói, như công cụ Siri của Apple, Google Chrome của Google, Cortana của Microsoft, hay Echo của Amazon. Ngoài ra, vô số công ty khởi nghiệp cũng đã và đang tập trung nguồn lực vào việc xây dựng các tác tử thông minh, hoạt động trong các miền ứng dụng đóng hoặc mở.

Tạo ra tác tử hội thoại thông minh là một trong những mục tiêu lâu dài của lĩnh vực nghiên cứu về giao tiếp người – máy (HMI — Human-Machine Interface). Những tác tử này có khả năng cung cấp nhiều kiểu giao tiếp khác nhau như nhận lệnh điều khiển, hỏi đáp tự động, hội thoại theo chủ đề, hoặc tán gẫu. Tác tử hội thoại thông minh sẽ tạo ra những giải pháp thương mại số có giá trị khổng lồ, thậm chí có khả năng khởi tạo những mô hình kinh doanh mới.

Tuy nhiên, để xây dựng được những hệ thống thông minh nói chung và các tác tử hội thoại thông minh nói riêng, chúng ta cần có nhiều thuật toán cao cấp. Các thuật toán này được nghiên cứu phát triển bởi các nhà toán học ứng dụng và các nhà khoa học máy tính làm việc trong lĩnh vực xử lí ngôn ngữ và tiếng nói. Chính những thuật toán này làm cho tác tử thông minh: có thể nhận diện tiếng nói, hiểu văn bản, và đưa ra hành động thích hợp.

Xây dựng tác tử hội thoại thông minh

Bài toán đầu tiên là nhận dạng tiếng nói. Tiếng nói tự nhiên là một tín hiệu phức tạp, liên quan tới các cấp độ khác nhau: ngữ nghĩa, ngôn ngữ, ngữ âm và âm học. Giao tiếp bằng tiếng nói là hình thức giao tiếp tự nhiên nhất trong các kiểu giao tiếp giữa con người. Trước tiên chúng ta cần làm cho máy tính và các thiết bị kết nối khác nhận dạng được tiếng nói. Nhận dạng tiếng nói là một lĩnh vực khoa học được nghiên cứu trong nhiều thập kỉ qua, nhưng chỉ mới gần đây thì nó mới được đưa vào triển khai trong các ứng dụng thực tế, nhờ những kết quả nghiên cứu đột phá, ở cả trong lĩnh vực phần mềm, tức thuật toán và phần cứng, tức hạ tầng tính toán tốc độ cao. Tiếng nói tự nhiên mang nghĩa thông qua các từ được phát âm. Việc đầu tiên của nhận dạng tiếng nói là chuyển được âm thanh thành văn bản một cách tự động. Sau đó, văn bản thu được sẽ được xử lí để trích ra nghĩa của các từ đơn lẻ, cũng như nghĩa của toàn bộ văn bản. Đây là nhiệm vụ cần giải của bài toán thứ hai: hiểu văn bản.

Để hiểu được văn bản, các nhà nghiên cứu cần vận dụng các kĩ thuật được phát triển trong chuyên ngành xử lí ngôn ngữ tự nhiên, một lĩnh vực nghiên cứu của khoa học máy tính và trí tuệ  nhân tạo.  Hai nhiệm vụ chính của xử lí ngôn ngữ tự nhiên là làm cho tác tử suy diễn được nghĩa từ văn bản, và sinh ra văn bản. Nhiều thuật toán trong xử lí ngôn ngữ tự nhiên được phát triển dựa trên nền tảng học tự động, nhất là học tự động bằng các mô hình xác suất thống kê. Khác với kĩ thuật học truyền thống dựa trên việc xây dựng thủ công các luật, các thuật toán học tự động sử dụng suy diễn thống kê để học những luật đó hoàn toàn tự động, bằng cách phân tích những kho dữ liệu lớn, chứa rất nhiều ví dụ thực tế. Việc học có thể thực hiện theo cách có người hướng dẫn, hoặc hoàn toàn không có hướng dẫn.

So với việc học bằng luật thủ công thì học tự động có rất nhiều ưu điểm. Hai trong số các ưu điểm chính là:

  • Học tự động dựa trên suy diễn thống kê, có khả năng tạo ra các mô hình ổn định, vững vàng, ngay cả khi cần xử lí các dữ liệu mới, chưa từng gặp trong quá trình huấn luyện, hoặc khi gặp dữ liệu nhiễu, sai. Chẳng hạn, các hệ thống học xử lí ngôn ngữ tự động có khả năng xử lí các từ mới hoặc các cấu trúc cú pháp mới mà trong dữ liệu huấn luyện không có.
  • Ta có thể làm cho các hệ thống học tự động ngày càng chính xác hơn chỉ bằng cách đơn giản là cung cấp thêm nhiều dữ liệu huấn luyện cho chúng. Trong khi đó, các hệ thống học thủ công bằng luật thì cần thêm nhiều luật hơn, hoặc luật cần phức tạp hơn thì mới có thể chính xác hơn; các luật được chuyên gia làm thủ công nên khó hơn và tốn nhiều thời gian, công sức hơn, đồng thời cũng dễ nhầm lẫn.

Một số vấn đề nghiên cứu cơ bản nhưng ở mức cao của lĩnh vực xử lí ngôn ngữ tự nhiên gồm dịch tự động, tóm tắt văn bản, sinh văn bản, phân tích quan điểm, phân tích ngữ nghĩa và cú pháp, nhận dạng tên riêng,…

Bài toán thứ ba là sinh ngôn ngữ tự nhiên, giúp cho tác tử thông minh đưa ra những phản hồi thích hợp trong quá trình giao tiếp, dưới dạng tiếng nói hoặc văn bản. Ví dụ, trong ngữ cảnh hỏi đáp bằng văn bản thì tác tử trả lời câu hỏi dạng văn bản của người cũng bằng một văn bản; còn trong ngữ cảnh hội thoại, người hỏi bằng tiếng nói, máy cũng cần trả lời bằng tiếng nói. Để sinh ra được các câu trả lời hợp lí, đúng cú pháp và ngữ nghĩa thì tác tử cần được trang bị những thuật toán sinh văn bản tốt và những thuật toán tổng hợp tiếng nói tốt.

Máy trò chuyện

Một dạng đặc biệt của tác tử hội thoại thông minh là máy trò chuyện hay máy tán gẫu, còn gọi là chatbot. Nói chung, chatbot là một dạng máy tính mô phỏng hội thoại thông minh. Đầu vào và đầu ra của hội thoại là văn bản hoặc tiếng nói. Chẳng hạn, bạn gọi điện thoại đến cửa hàng đặt bánh pizza để yêu cầu đặt một số loại bánh khác nhau, chatbot có thể tự động nhận yêu cầu và chuyển hoá đơn cho bạn. Hoặc, bạn gọi điện đến tổng đài dịch vụ chăm sóc khách hàng, người trả lời bạn có thể không còn là một tổng đài viên mà chỉ là một chabot có khả năng giải đáp mọi thắc mắc của bạn. Những chatbot chất lượng cao sẽ có khả năng làm thay công việc của nhiều nhân viên dịch vụ khách hàng, làm cho họ có nguy cơ thất nghiệp trong tương lai không xa.

Việc phát triển một chatbot cần những kĩ năng chuyên nghiệp ở mức cao, gồm cả các chuyên gia khoa học (chủ yếu trong lĩnh vực học tự động và xử lí ngôn ngữ và tiếng nói) và những lập trình viên nhiều kinh nghiệm trong các môi trường liên quan (chẳng hạn tính toán phân tán trên hệ thống lớn, điện toán đám mây hoặc di động). Để chatbot có thể chuyển mỗi dữ liệu vào thành một dữ liệu ra phù hợp trong một ngữ cảnh hội thoại nào đó thì đằng sau chatbot cần có một nền tảng rất phức tạp. Chatbot cần được trang bị không những các cơ sở tri thức lớn, mà còn cần hàng trăm, hàng ngàn thuật toán chuyên dụng và hiệu quả. Mỗi ngôn ngữ tự nhiên khác nhau cần có các cách xử lí khác nhau. Những thuật toán hay kĩ thuật tốt cho các thứ tiếng thông dụng như tiếng Anh, tiếng Pháp, hay tiếng Hoa chưa chắc đã áp dụng tốt cho tiếng Việt và ngược lại.

Tiến sĩ Lê Hồng Phương

Thông tin tác giả:

Ông Lê Hồng Phương – Tiến sĩ ngành Khoa học máy tính tại trường đại học Lorraine, Pháp.

Hiện ông đang là giảng viên tại trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội, đồng thời tham gia các hoạt động nghiên cứu tại Viện nghiên cứu công nghệ FPT (FTRI). Ông là tác giả của nhiều phần mềm xử lý ngôn ngữ được sử dụng rộng rãi trong cộng đồng xử lý ngôn ngữ tự nhiên tại Việt Nam. Link website cá nhân: http://mim.hus.vnu.edu.vn/phuonglh/

(Bài viết được đăng trên ấn phẩm Đặc san công nghệ FPT, FPT TechInsight No.1)

Tin liên quan: