理想汽车在GTC发布MindVLA-o1自动驾驶基座模型，瞄准3D理解与通用具身智能升级

问题——规模化落地遭遇“天花板”，自动驾驶需要从“会开”走向“看懂” 近年来，自动驾驶从规则驱动转向数据驱动，端到端学习成为行业重要方向：系统直接从感知输入生成控制输出，依靠大规模真实道路数据学习驾驶行为；但工程落地中，仅依赖模仿学习的端到端路线逐渐暴露局限：对极端与长尾场景的泛化能力不足，对偏离常见分布的交通参与者行为难以解释与预判，在复杂交互中缺少可验证的安全意识和因果推理能力。理想汽车披露，当训练数据规模提升至千万级片段后，模型能力提升出现边际递减，接管里程等关键指标增幅低于预期，说明单纯“堆数据”并不能持续换来能力跃升。原因——核心矛盾在于对三维物理世界理解不足，缺乏“感知—认知—行动”一体化训练业内普遍认为，二维视频上的模式匹配不等同于对物理世界的理解。车辆行驶涉及距离、速度、遮挡、空间结构与行为意图等多维因素，仅依赖2D外观变化容易误判；驾驶也不仅是执行动作，更需要基于因果关系做判断，并提前管理风险。理想上认为，现阶段不少模型训练中弱化甚至跳过了三维世界建模与反馈校准等关键环节，导致系统在熟悉场景表现尚可，但在突发、反常或复杂博弈场景中缺乏可预期的稳健性。因此，推动视觉、语言与行动在统一表示空间内协同学习，被视为提升“可理解、可推理、可执行”能力的重要方向。影响——VLA路线把模型能力从“驾驶技能”扩展到“通用执行”，并重塑研发效率与部署模式因此，理想汽车在GTC 2026大会上发布MindVLA-o1。该模型定位为下一代自动驾驶基础模型，采用原生多模态统一架构，将视觉、语言与行动信息置于同一框架中训练与推理，目标是提升“看得更远、想得更深、行得更稳、进化更快、部署更高效”等能力。理想上指出，当视觉理解与语言推理可以直接服务行动决策，模型不再只是驾驶策略网络，而有机会演进为面向物理世界的通用智能体框架，能力边界也可能从车辆控制扩展至机器人等更广泛的实体执行场景。这意味着，自动驾驶的竞争焦点将从单一功能指标，继续转向“世界模型、推理链路与执行闭环”等系统能力。对策——以混合专家与三维感知为抓手，构建从感知到推理再到行动的分层体系据介绍，MindVLA-o1采用多模态混合专家（MoE）Transformer架构，通过扩大模型容量同时控制激活参数规模，成本与效果之间寻求更可持续的工程路径。路线强调分层设计：在感知侧，引入自监督的三维视觉编码器，训练时联合使用摄像头与激光雷达等多源数据——前者提供语义信息，后者提供几何结构——以便在统一表示空间中同时学习“看见什么”以及“在哪里、形状如何”。在此基础上，模型进一步融合世界模型与推理能力，目标是不只输出动作，还能在复杂交通环境中形成更可靠的空间理解、风险评估与决策依据。业内人士认为，这类架构的价值在于尽可能用统一表征与训练目标打通过去分散在感知、预测、规划等模块间的信息，提高协同效率，并减少系统“拼接”带来的不确定性。前景——从“可用”走向“可信”，自动驾驶需在安全验证、数据闭环与产业协同上持续突破随着自动驾驶进入规模化应用阶段，技术路线的评价标准也在变化：不仅要在常规路况“跑得好”，更要在长尾场景“稳得住”，并在可解释性、安全验证、算力成本与量产部署之间取得平衡。VLA与三维世界建模为提升泛化能力与安全冗余提供了新方向，但要形成可复制的工程能力，仍需在数据闭环、仿真与实车验证体系、功能安全与网络安全合规，以及软硬件协同优化诸上持续投入。随着大模型能力向车端下沉，如何在车规算力与能耗约束下保持稳定迭代，并在大规模用户场景中建立可验证的安全边界，将成为影响技术路线成败的关键变量。

自动驾驶技术正在从单一功能实现转向对物理世界的整体认知。理想汽车此次发布的技术路线为突破行业瓶颈提供了新思路，也提示了智能系统走向更高自主性的关键——建立对三维世界的有效理解，才能支撑更可靠的自主决策。该进展或将更改写人机交互与智能出行的未来形态。