Trong những năm gần đây, các nhà nghiên cứu đang tích cực tìm hiểu các phương pháp hỗ trợ robot học được những kỹ năng mới. Trong đó, có một phương pháp mà robot sẽ học được những kỹ năng này từ con người, qua việc thắc mắc khi không chắc chắn trong xử lý, và học tập qua phản hồi của người dạy.

Một phương thức thân thiện với người dùng trong học có thưởng tại robot

Đội ngũ nghiên cứu tại Đại học Stanford đã phát triển ra một phương thức sử dụng để huấn luyện robot thông qua phản hồi của người dùng. Phương thức mới này được trình bày trong một nghiên cứu được đăng tải qua arXiv, mô tả cụ thể quá trình huấn luyện robot để chúng đưa ra những câu hỏi dễ trả lời, súc tích, và đúng trọng tâm.

Đội ngũ nghiên cứu chia sẻ: “Đặt câu hỏi là một cách học trực quan. Cụ thể, các câu hỏi có thể có dạng như, ‘Bạn muốn xe tự lái đi một cách cẩn trọng hay thật nhanh?’ ‘Xe tự lái này nên vượt qua hay đi sau xe người lái?’”

Giả định của nghiên cứu là, trong một điều kiện lý tưởng, robot sẽ có thể đưa ra các câu hỏi thông tin, có thể khai thác được tối đa dữ liệu từ người dùng. Điều này có nghĩa là, robot cần phải hiểu được người dùng muốn gì ở chúng, hay muốn chúng làm gì với số lượng câu hỏi ít nhất có thể.

Đáng tiếc, đa số các cách tiếp cận đều chỉ tập trung vào câu hỏi, chứ không tập trung vào việc liệu người dùng có thấy câu hỏi đó dễ trả lời hay không. Hậu quả là, người dùng thường sẽ tốn thời gian trả lời những câu hỏi không cần thiết, hoặc đưa ra những câu trả lời không chắc chắn.

Đội ngũ nghiên cứu chia sẻ: “Đa số thuật toán hiện đại đều đưa ra những phương án khó phân biệt, khiến người dùng khó trả lời đúng câu hỏi của robot. Cụ thể, trong ví dụ về xe tự lái, các thuật toán sẽ đưa ra những câu hỏi kiểu như: ‘Bạn muốn vượt xe người lái với tốc độ 47km/h hay 50km/h?’  Câu hỏi này rất thông tin cho robot, nhưng lại vô cùng khó để trả lời với người dùng.”

Và nhằm cải thiện hạn chế này, các nhà nghiên cứu đã phát triển ra một thuật toán mới, giúp đưa ra những câu hỏi hiệu quả hơn. Cụ thể, thuật toán sẽ giúp robot thu thập được tối đa thông tin, trong khi vẫn chú trọng tính dễ trả lời của các câu hỏi.

Ảnh: Bıyık et al.

“Các hạn chế trong những công trình trước đây đã truyền cảm hứng cho chúng tôi. Vì vậy, khi tạo ra thuật toán mới này, chúng tôi đã chú trọng khả năng trả lời câu hỏi của con người,” nhóm nghiên cứu cho biết. “Ý tưởng của chúng tôi là, chỉ có những robot quan trọng điểm này mới có thể hiểu rõ con người một cách chính xác và hiệu quả.”

Đội ngũ nghiên cứu đã tính lượng thông tin thu thập được thông qua chuyển động ngược của entropy (tức đo sự thiếu chắc chắn) về sở thích của người dùng, thông qua các câu hỏi được hỏi bởi robot. Cụ thể, theo nguyên lý này, câu hỏi thu được nhiều thông tin sẽ làm robot chắc chắn hơn về sở thích của người dùng, qua đó cho robot một cái nhìn chính xác để lựa chọn các câu hỏi có khả năng đem lại nhiều thông tin nhất.

Điểm tích cực của khả năng thu thập thông tin là, nó làm robot thiếu chắc chắn hơn (để robot học được nhiều hơn từ mỗi câu hỏi), trong khi lại làm con người chắc chắn hơn (thông qua các câu hỏi dễ trả lời,” đội ngũ nghiên cứu giải thích. “Vì vậy, việc sử dụng lượng thông tin thu thập làm thước đo để chọn câu hỏi sẽ làm cải thiện sự tích cực trong học tập, do những câu hỏi này sẽ vừa mang lại nhiều thông tin hơn, vừa dễ để trả lời chính xác hơn.”

Như vậy, phương thức này sẽ lựa chọn các câu hỏi tối ưu hóa về mặt thông tin thông qua mỗi bước. Sau đó, robot sẽ bắt đầu hình thành “niềm tin” (thực chất là một sự phân phối xác suất) về các sở thích của người dùng, từ đó thử nghiệm để chọn ra những câu hỏi phù hợp.

Cuối cùng, robot sẽ chọn ra các câu hỏi được cho là sẽ thu được nhiều thông tin nhất thông qua phân phối xác suất. Đồng thời, nó sẽ liên tục cập nhật các xác suất này dựa trên những phản hồi mới, và liên tục lặp lại quy trình nêu trên để cải thiện hiệu quả học tập.

Như vậy, chúng tôi đã tạo ra một phương thức có thể theo dõi được, có hiệu quả tốt hơn trong việc hiểu được sở thích con người. Và theo kết quả nghiên cứu, người dùng thích phương thức này hơn so với những kỹ thuật tiên tiến khác,” đội ngũ nghiên cứu chia sẻ.

Trong nghiên cứu, đội ngũ này đã chứng minh thành công rằng, phương thức huấn luyện robot lựa chọn câu hỏi cũng phức tạp không kém gì những kỹ thuật tiên tiến. Và điều này có nghĩa là, việc tìm kiếm những câu hỏi phù hợp cũng khó khăn tương tự như những quá trình của các phương thức khác.

Họ trình bày: “Trong nghiên cứu, chúng tôi cũng chỉ ra rằng, phương thức này cũng có những biểu hiện toán học, cụ thể như tính đơn thể phụ (submodularity), cho phép tái sử dụng các lý thuyết và mở rộng được phát triển từ những phương thức khác. Cụ thể, chúng tôi có thể sử dụng những công trình trước đó để tìm ra cùng lúc nhiều câu trả lời phù hợp, thay vì bị hạn chế chỉ tìm kiếm một câu hỏi mỗi lần.”

Đội ngũ cũng đã đánh giá phương thức học này qua một loạt các mô phỏng, từ đó kết luận được rằng, phương thức này giúp robot hiểu được sở thích con người nhanh hơn và chính xác hơn so với các phương thức tiên tiến trước đó. Điều này cũng đúng kể cả trong những tình huống thực, trong đó người dùng có thể phản hồi là họ không biết câu trả lời.

Đồng thời, đội ngũ cũng đã thực hiện kiểm tra trong tình huống thực, lần lượt hỏi người dùng những câu hỏi được tổng hợp từ phương thức của họ và các câu hỏi từ những phương thức khác. Kết quả là khả quan: người dùng cảm thấy những câu hỏi từ phương thức mới dễ trả lời hơn so với các câu hỏi của họ, đồng thời cũng cảm thấy robot sử dụng các câu hỏi trên hiểu được sở thích của họ rõ hơn.

Như vậy, những nỗ lực của chúng tôi đã giúp robot hiểu được con người dễ dàng hơn. Chúng tôi đã chứng minh được, việc giúp robot hỏi được những câu hỏi thu thập tối đa thông tin, cũng không hề phức tạp hơn các phương thức trước đó,” đội ngũ nghiên cứu nói.

Trong tương lai, phương thức của đội nghiên cứu này có thể sẽ giúp huấn luyện robot hiệu quả hơn, hiểu được người dùng rõ hơn. Đồng thời, nó cũng sẽ giúp robot đưa ra những câu hỏi dễ trả lời hơn cho người dùng. Xa hơn, đội ngũ nghiên cứu còn mong muốn tìm ra được những phương thức giúp robot có thể diễn giải hành động của chúng hiệu quả hơn.

Chúng tôi mong muốn tạo ra được các robot mà không chỉ hỏi được những câu hỏi tốt, mà còn giải thích được tại sao chúng lại muốn hỏi những câu hỏi đó,” đội ngũ chia sẻ. “Thử tưởng tượng mà xem, một chiếc xe tự lái có thể đưa ra 2 lựa chọn cho người dùng, sau đó giải thích rằng, do đường tắc nên nó mới hỏi câu hỏi này, để người dùng quyết định xem nó nên lái cẩn thận hơn hay nhanh hơn.”

FPT TechInsight
Theo Techxplore

Tin liên quan: