Pequim (Gasgoo) - Em 18 de março de 2025, o chefe de P&D de tecnologia de direção autônoma da Li Auto, Sr. Jia Peng, fez um discurso principal na NVIDIA GTC 2025, compartilhando insights sobre os mais recentes avanços da empresa em sua tecnologia de direção autônoma de próxima geração, MindVLA.
MindVLA é um modelo inovador de direção autônoma baseado em uma arquitetura de sistema duplo que integra aprendizado de ponta a ponta e Modelos de Visão-Linguagem (VLM). Como um novo paradigma em modelos robóticos de grande escala, o MindVLA dota os veículos autônomos de capacidades aprimoradas de compreensão espacial 3D, raciocínio lógico e geração de comportamento, permitindo que percebam, pensem e se adaptem a ambientes dinâmicos.
Diferente de uma simples combinação de modelos de ponta a ponta e VLM, o MindVLA apresenta um design totalmente novo. Seu codificador espacial 3D integra modelos de linguagem e raciocínio lógico para gerar decisões de direção, produzindo tokens de ação—uma representação de comportamentos ambientais e de direção. Esses tokens passam por otimização adicional via um modelo de difusão para determinar a trajetória de direção ideal em tempo real, tudo processado no veículo.
Aproveitando um modelo mundial unificado baseado em nuvem desenvolvido internamente, o MindVLA integra reconstrução de cenários 3D, conclusão de visão generativa e previsão de perspectivas não vistas para criar um ambiente de simulação altamente realista. Isso possibilita aprendizado por reforço em grande escala e em loop fechado, permitindo que o modelo melhore continuamente por meio da experiência. A Li Auto afirmou que otimizou significativamente seu modelo mundial no último ano, aumentando as velocidades de treinamento 3D GS em mais de sete vezes.
O MindVLA redefine a experiência de direção autônoma, permitindo que os veículos compreendam e respondam a comandos de voz em tempo real. Os usuários podem emitir instruções em linguagem natural, como "Encontre um supermercado para mim" em uma área desconhecida, sem necessidade de navegação pré-definida. O veículo explorará e localizará o destino de forma autônoma. Além disso, os motoristas podem fazer ajustes em tempo real, como "Reduza a velocidade" ou "Pegue a faixa da esquerda", com o sistema entendendo e executando os comandos perfeitamente.