Thông qua cơ chế mô phỏng siêu thực, các xe tự lái có thể học cách di chuyển trên thực tế, cũng như rèn luyện phản ứng trong tình huống có thể xảy ra tai nạn.

Mới đây, các nhà khoa học tại MIT đã phát minh ra một hệ thống mô phỏng giúp huấn luyện xe tự lái bằng cách tạo ra một thế giới siêu thực với vô số khả năng và tình huống, qua đó giúp xe học được cách xử lý những tình huống xấu nhất, trước khi được đưa vào sử dụng.

Các hệ thống kiểm soát cho phương tiện tự động thường phải dựa trên các bộ dữ liệu về lộ trình lái của tài xế trong thực tế. Sau đó, qua các dữ liệu này, hệ thống sẽ mô phỏng các cách lái xe an toàn trong nhiều tình huống khác nhau. Tuy nhiên, đáng tiếc thay, số lượng dữ liệu thực tế về cách xử lý an toàn trong va chạm hoặc tai nạn lại rất ít ỏi.

Nhằm giải quyết điều này, một số chương trình máy tính xuất hiện, hay “cơ chế mô phỏng” với khả năng tạo những tình huống này bằng cách mô phỏng những chặng đường ảo, qua đó huấn luyện hệ thống kiểm soát. Tuy nhiên, các kiến thức học được từ những mô phỏng trên lại chưa bao giờ có thể bám sát thực tế khi ứng dụng trên thiết bị thật.

Trước vấn đề này, các nhà nghiên cứu MIT đã sáng tạo ra một cơ chế mô phỏng siêu thực mang tên Virtual Image Synthesis and Transformation for Autonomy (VISTA). Cơ chế này chỉ sử dụng rất ít dữ liệu, được quay bởi người lái xe trên đường, qua đó tổng hợp ra vô cùng nhiều góc nhìn khác từ các lộ trình di chuyển khả thi ở ngoài đời thật. Trong huấn luyện, hệ thống kiểm soát sẽ được thưởng khi di chuyển được xa mà không gây va chạm, và vì vậy phải học cách di chuyển an toàn trong mọi tình huống gặp phải, bao gồm xử lý sau va chạm hay chệch làn.

Trong thử nghiệm, một hệ kiểm soát đã được triển khai một cách an toàn trên một xe tự lái thật, sau khi được huấn luyện qua VISTA, thậm chí có thể di chuyển trên các con phố mà chưa từng được thấy trước đó. Khi xảy ra các tình huống có thể gây va chạm, hệ thống này có thể khôi phục lại lộ trình an toàn chỉ trong vòng vài giây. Công trình nghiên cứu này đã được xuất bản trên tạp chí IEEE Robotics and Automation Letters, đồng thời sẽ được công khai tại hội nghị ICRA vào tháng 5.

“Rất khó để thu thập dữ liệu về những tình huống tai nạn mà ít xảy ra trên đường,” Alexander Amini, first author của nghiên cứu, một nghiên cứu sinh tại Phòng Nghiên cứu Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) chia sẻ. “Tuy nhiên, với mô phỏng của chúng tôi, các hệ thống kiểm soát sẽ được trải nghiệm những tình huống này, qua đó tự học cách xử lý chúng, đồng thời đảm bảo sự ổn định của việc xử lý này khi triển khai trên thiết bị ngoài đời thật.”

Nghiên cứu này được thực hiện với sự hợp tác của Viện Nghiên cứu Toyota. Đồng tác giả với Amini là Igor Gilitschenski, một tiến sỹ tại CSAIL; Jacob Phillips, Julia Moseyko, và Rohan Banerjee, các nghiên cứu sinh tại CSAIL, thuộc Khoa Kỹ thuật Điện và Khoa học Máy tính; Sertac Karaman, phó giáo sư bộ môn hàng không học và du hành vũ trụ kiêm giám đốc của CSAIL, đồng thời là Giáo sư Kỹ sư Điện học và Khoa học Máy tính của Erna Viterbi.

Mô phỏng dựa trên dữ liệu

Trong quá khứ, đa số các cơ chế mô phỏng trong huấn luyện và thử nghiệm phương tiện tự đồng đều được xây dựng thủ công. Cụ thể, các công ty và trường đại học sẽ thuê một đội ngũ họa sỹ và kỹ sư để thiết kế các môi trường ảo, chính xác tới từng đánh dấu đường, làn đường, và cả chi tiết lá trên cây. Ngoài ra, một số cơ chế cũng sẽ tích hợp tính chất vật lý của xe với môi trường xung quanh, dựa trên một số mô hình toán học phức tạp.

Tuy nhiên, một môi trường thật lại có quá nhiều yếu tố, tới nỗi việc tích hợp tất cả những yếu tố này là bất khả thi. Chính vì vậy, những thứ hệ thống kiểm soát học được trong mô phỏng sẽ luôn chênh lệch so với hiện thực.

Thay vì phương thức thủ công nói trên, các nhà nghiên cứu tại MIT đã tạo ra một cơ chế mô phỏng “dựa trên dữ liệu”, với khả năng tổng hợp các lộ trình lái đồng nhất với đường đi từ dữ liệu thật, cũng như đưa ra các khoảng cách và chuyển động của những sự vật khác trên cùng môi trường.

Trước hết, họ sẽ thu thập dữ liệu video từ người lái thật, sau đó đưa dữ liệu này vào cơ chế. Với mỗi khung hình, thì cơ chế này lại biến từng pixel trở thành một dạng point cloud 3D. Sau đó, một xe tự động ảo sẽ được cho vào thế giới trên. Mỗi khi xe này đưa ra lệnh lái, cơ chế sẽ tổng hợp ra một lộ trình thông qua point cloud, dựa trên đường lái, xu hướng, cũng như tốc độ của xe.

Sau đó, cơ chế này sẽ sử dụng lộ trình nói phía trên để kết xuất ra một tình huống siêu thực. Điều này được thực hiện bằng một mạng nơ-ron tích chập – thường được sử dụng trong các tác vụ xử lý hình ảnh – để ước tính một bản đồ độ sâu, trong đó chứa những thông tin liên quan tới khoảng cách từ các vật khác tính tới điểm nhìn của hệ thống kiểm soát. Tiếp theo, bản đồ độ sâu này sẽ được kết hợp với một kỹ thuật để ước tính xu thế camera trong một hoạt cảnh 3D. Tất cả quá trình này sẽ giúp xác định vị trí của xe, cũng như khoảng cách tương đối của nó tới các vật khác trong mô phỏng ảo.

Dựa trên thông tin này, cơ chế sẽ định hướng lại các pixel gốc ban đầu để tạo ra một biểu hiện 3D của thế giới từ góc nhìn mới của xe. Nó cũng đồng thời theo dõi chuyển động của các pixel để thu lại chuyển động của các vật thể di chuyển khác trong cùng khung cảnh. “Điều này tương đương với việc cung cấp vô số lộ trình khả thi cho xe,” Rus nói. “Bởi lẽ khi ta thu thập dữ liệu gốc thì dữ liệu là từ một lộ trình cụ thể. Tuy nhiên, ta lại có thể thay đổi các lộ trình này để thử nghiệm tất cả mọi khả năng và môi trường lái. Chính điều này đã làm hệ thống vô cùng mạnh mẽ.”

Học tăng cường từ đầu

Trước đây, các nhà nghiên cứu thường huấn luyện xe tự lái dựa trên các luật được định sẵn bởi con người, hoặc sao chép hành động của người lái. Tuy nhiên, trong công trình này, các nhà nghiên cứu đã khiến hệ thống kiểm soát phải học mọi thứ từ đầu theo khung “end-to-end”, tức là chỉ sử dụng dữ liệu cảm ứng gốc – tức các hình ảnh quan sát được trên đường – rồi từ hình ảnh này, dự đoán ra các lệnh lái xe thích hợp.

Về cơ bản, chúng tôi cho xe một môi trường, rồi bảo nó lái thế nào cũng được, miễn là không va chạm với thứ gì khác, và luôn đi đúng làn,” Amini nói.

Để làm được điều này, ta cần phải sử dụng tới “học tăng cường” (reinforcement learning – RL), một kỹ thuật machine learning theo phương pháp thử-và-sai, trong đó hệ thống kiểm soát sẽ bắt đầu khi chưa biết gì về cách lái, về các ký hiệu làn đường, hay thậm chí là về các phương tiện khác, và vì thế phải thử nghiệm những đường lái ngẫu nhiên. Sau đó, hệ thống sẽ chỉ nhận được tín hiệu phản hồi sau khi va chậm, rồi lại được chuyển tới một vị trí mô phỏng khác, rồi lặp lại quá trình ở trên. Sau khoảng từ 10 tới 15 tiếng huấn luyện như vậy, hệ thống sẽ có thể học cách di chuyển mà không va chạm thông qua các tín hiệu phản hồi.

Sau khi xe tự lái đi được 10.000 km mà không va chạm trong mô phỏng, các tác giả công trình đã thử ứng dụng hệ thống kiểm soát lên xe ngoài đời thực. Theo họ, đây là lần đầu tiên xuất hiện một hệ thống kiểm soát được huấn luyện bằng công nghệ học tăng cường end-to-end qua mô phỏng, đạt được thành công khi thử nghiệm thực tiễn. Nói về thành tựu này, Amini đã chia sẻ: “Nó là một bất ngờ với chúng tôi. Bởi lẽ hệ thống này chưa bao giờ chạy trên xe thật trước đó, chưa bao giờ nhìn thấy đường phố, và cũng chưa bao giờ biết con người lái xe như thế nào.”

Như vậy, việc phải thử nghiệm qua mọi tình huống đã giúp hệ thống có thể giữ kiểm soát trong những tình huống xấu như bị trượt khỏi đường hoặc trược sang lề đường khác, đồng thời khắc phục các tình huống này chỉ trong vài giây. “Trong khi những hệ thống kiểm soát tiên tiến khác lại luôn thất bại, bởi chúng chưa hề được huấn luyện qua các dữ liệu như trong công trình này,” Amini nói.

Dự định tiếp theo của các nhà nghiên cứu là có thể mô phỏng tất cả các dạng điều kiện đường đi từ một lộ trình lái duy nhất – tức mô phỏng các điều kiện như ngày và đêm, nắng và mưa. Đồng thời, họ cũng mong muốn mô phỏng được những tương tác phức tạp hơn với các phương tiện khác trên đường. “Nếu các xe khác tự nhiên chuyển động lên phía trước xe tự lái thì sao? Những tình huống phức tạp, thực tế như vậy là hướng nghiên cứu tiếp theo của chúng tôi,” Rus nói.

Theo MIT News

Tin liên quan: