Một mục tiêu lâu dài của việc nghiên cứu AI là giúp robot có thể tương tác một cách có ý nghĩa trong môi trường thực. Trong một công bố gần đây, các nhà nghiên cứu tại Stanford và Facebook đã tiến gần hơn một bước tới mục tiêu này bằng cách trích xuất thông tin liên quan đến các hành động, ví dụ như đẩy hoặc kéo các đồ vật có bộ phận di chuyển được, và sử dụng nó để đào tạo một mô hình AI. Ví dụ, với một chiếc ngăn kéo, mô hình của họ có thể dự đoán rằng tác dụng một lực kéo lên tay cầm sẽ khiến ngăn kéo mở ra. 

Các nhà nghiên cứu cho biết, con người tương tác với rất nhiều vật thể xung quanh. Điều này có thể xảy ra nhờ hiểu biết của chúng ta về những gì có thể làm với từng vật, vị trí tác động và cách di chuyển cơ thể để làm được điều đó. Con người không chỉ biết hành động nào sẽ thành công mà còn ý thức được hành động nào sẽ không làm được.

Các tác giả của bài báo coi các tương tác dài hạn với vật thể là một chuỗi các tương tác ngắn hạn nhỏ, giống như đẩy và kéo. Điều này giới hạn phạm vi công việc của các nhà nghiên cứu trong các tương tác ngắn hạn hợp lý mà robot có thể thực hiện được với trạng thái cho trước của một vật thể. Những tương tác này tiếp tục được phân tích thành “ở đâu” và “như thế nào”, ví như robot nên kéo tay cầm nào trên tủ và liệu robot nên kéo song song hay vuông góc với tay cầm. 

Stanford motion research

Những quan sát này cho phép các nhà nghiên cứu xác định nhiệm vụ của họ là dán nhãn các pixel. Họ phát triển một mô hình, với độ sâu hoặc ảnh màu của đối tượng, học để suy ra liệu một hành động nhất định có thể thực hiện được hay không và nó nên được thực hiện như thế nào. Đối với mỗi pixel, mô hình sẽ cung cấp một số điểm về “khả năng hành động”, đề xuất hành động và khả năng thành công của hành động. 

“Phương pháp của chúng tôi cho phép máy học những điều này chỉ qua việc tương tác với các vật thể khác nhau và ghi lại kết quả của hành động – dán nhãn những hành động tạo ra trạng thái thay đổi mong muốn là thành công”, các tác giả viết. “Thực nghiệm đã cho thấy rằng phương pháp này thành công học được cách dự đoán các hành động có thể xảy ra với các vật thể mới và ngay cả những loại vật thể chưa từng được nhìn thấy trước đó”.

Các nhà nghiên cứu đã sử dụng một trình mô phỏng có tên là SAPIEN để học và thử nghiệm phương pháp của họ cho 6 loại tương tác trên 972 hình dạng thuộc 15 loại vật thể thường thấy trong nhà. Trong các thí nghiệm, họ trực quan hoá các dự đoán chấm điểm khả năng hành động của mô hình qua các hình ảnh 3D của thế giới thực từ các bộ dữ liệu nguồn mở. Mặc dù họ thừa nhận rằng không có gì đảm bảo cho các dự đoán pixel ở những phần không có khớp nối, nhưng kết quả vẫn có ý nghĩa nếu toàn bộ đối tượng chuyển động. 

Stanford motion research

“Mô hình của chúng tôi học cách trích xuất các đặc điểm hình học theo hành động cụ thể và nhận thức về bàn tay kẹp của robot. Ví dụ, khi kéo, nó dự đoán điểm số cao hơn trên các vùng có độ cong lớn như ranh giới của bộ phận đó và tay cầm. Nhưng khi đẩy, hầu hết các pixel bề mặt phẳng thuộc phần có thể đẩy đều được đánh dấu như nhau, và các pixel xung quanh phần tay cầm được dự đoán là không thể đẩy do sự va chạm giữa vật thể và bàn tay kẹp của robot… Tuy chúng tôi sử dụng các môi trường mô phỏng cho việc học vì chúng cho phép tương tác hiệu quả, chúng tôi cũng nhận thấy rằng hệ thống đã được đào tạo tổng quát hoá các bản quét và hình ảnh thực. 

Các nhà nghiên cứu thừa nhận rằng nghiên cứu của họ có những hạn chế. Một là, mô hình này chỉ có thể lấy một khung ảnh duy nhất làm đầu vào, dẫn đến sự mơ hồ cho hệ thống nếu phần khớp nối đang chuyển động. Nó cũng bị giới hạn trong các quỹ đạo chuyển động được mã hoá cố định. Tuy nhiên, trong tương lai, các tác giả có kế hoạch tổng quát hóa mô hình để tự do hoá các tương tác.  

Theo VentureBeat

Tin liên quan: