Beijing (Gasgoo)- Pada 18 Maret 2025, Kepala R&D teknologi mengemudi otonom Li Auto, Bapak Jia Peng, menyampaikan pidato utama di NVIDIA GTC 2025, berbagi wawasan tentang kemajuan terbaru perusahaan dalam teknologi mengemudi otonom generasi berikutnya, MindVLA.
MindVLA adalah model mengemudi otonom inovatif berbasis arsitektur sistem ganda yang mengintegrasikan pembelajaran end-to-end dan Vision-Language Models (VLM). Sebagai paradigma baru dalam model robotik skala besar, MindVLA memberikan kendaraan otonom kemampuan pemahaman spasial 3D yang lebih baik, penalaran logis, dan generasi perilaku, memungkinkan mereka untuk memahami, berpikir, dan beradaptasi dengan lingkungan dinamis.
Berbeda dengan kombinasi sederhana model end-to-end dan VLM, MindVLA memiliki desain yang sepenuhnya baru. Pengkode spasial 3D-nya mengintegrasikan model bahasa dan penalaran logis untuk menghasilkan keputusan mengemudi, menghasilkan token aksi—representasi dari lingkungan dan perilaku mengemudi. Token ini kemudian dioptimalkan lebih lanjut melalui model difusi untuk menentukan lintasan mengemudi optimal secara real-time, semuanya diproses di kendaraan.
Dengan memanfaatkan model dunia berbasis cloud terpadu yang dikembangkan sendiri, MindVLA mengintegrasikan rekonstruksi skenario 3D, penyelesaian pandangan generatif, dan prediksi perspektif yang belum terlihat untuk menciptakan lingkungan simulasi yang sangat realistis. Hal ini memungkinkan pembelajaran penguatan loop tertutup skala besar, memungkinkan model untuk terus meningkat melalui pengalaman. Li Auto mengatakan telah secara signifikan mengoptimalkan model dunianya selama setahun terakhir, meningkatkan kecepatan pelatihan GS 3D lebih dari tujuh kali lipat.
MindVLA mendefinisikan ulang pengalaman mengemudi otonom, memungkinkan kendaraan untuk memahami dan merespons perintah suara secara real-time. Pengguna dapat memberikan instruksi bahasa alami, seperti "Carikan saya supermarket" di area yang tidak dikenal, tanpa navigasi yang telah ditentukan sebelumnya. Kendaraan akan secara otonom menjelajahi dan menemukan tujuan. Selain itu, pengemudi dapat melakukan penyesuaian real-time, seperti "Perlambat" atau "Ambil jalur kiri," dengan sistem memahami dan melaksanakan perintah tersebut dengan lancar.