(问题)随着辅助驾驶向更高阶自动驾驶演进,行业普遍面临三类关键挑战:其一,交通参与者复杂、路况多变,感知误差容易累积,极端场景下仍存“看不清、看不准”的瓶颈;其二,单一模块串联式架构在决策规划中容易出现信息断层,难以及时对未来风险做出推演;其三,大模型能力提升带来更高的计算与时延压力,训练成本、车端部署效率与量产一致性,仍是企业从“实验室到道路”的关键门槛; (原因)这些挑战背后,既有技术路线的阶段性限制,也有工程落地的现实约束。一上,传统自动驾驶长期依赖二维图像与规则驱动或分段式算法,三维空间、遮挡和动态变化面前,缺少统一、稳定的物理世界表征;另一上,数据采集、标注及长尾场景覆盖成本高,单靠真实道路迭代效率有限;同时,车端算力与功耗受限,模型规模与实时性必须量产条件下取得平衡,软硬件协同优化由此成为绕不开的课题。 (影响)鉴于此,理想汽车在GTC 2026发布MindVLA-o1,提出以五项技术创新构建面向物理世界智能的自动驾驶基础模型:一是3D空间理解,通过融合摄像头与激光雷达信息,并引入3D编码器,加强对物体距离、深浅和运动状态的表达,提升对三维交通环境的理解精度;二是多模态思考,引入“隐世界模型”思路,在内部隐空间对未来数秒的可能场景进行预测推演,增强决策前瞻性与风险应对能力;三是统一行为生成,采用VLA-MoE架构并配置“动作专家”,在生成全量轨迹点的同时通过迭代优化降低噪声,使轨迹更符合物理约束与舒适性要求;四是闭环强化学习,依托世界模拟器开展大规模训练与策略优化,提高迭代效率并降低对真实道路数据的依赖;五是软硬件协同设计,围绕模型精度与车端时延的平衡进行系统优化,将架构设计与适配周期从“以月计”压缩至“以天计”,提升大模型上车的工程效率与可用性。 从产业层面看,上述路线反映出自动驾驶从“模块堆叠”走向“统一底座”的趋势:把感知、推理与动作控制纳入同一框架协同优化,有望减少系统间误差传导,提升复杂路况下的一致性;通过模拟器与闭环训练扩展长尾场景覆盖,可能改变过去主要依赖路测堆数据的迭代节奏;通过软硬件协同压缩部署周期,则有助于更快把模型能力转化为规模化产品能力,在用户体验、量产效率与安全冗余各上形成综合竞争力。 (对策)业内人士认为,推动此类基础模型落地,需要三上持续投入:一是坚持安全优先,完善从仿真到实车的验证体系与安全边界管理,确保关键指标可测、可控、可追溯;二是强化数据与场景体系建设,提升长尾场景的挖掘、生成与评估能力,形成“数据—训练—验证—回灌”的闭环;三是以工程化为牵引推进软硬件协同,覆盖算力规划、芯片适配、实时系统与能耗管理,确保算法能力车端稳定运行,并满足量产一致性要求。 (前景)面向未来,统一视觉—语言—动作的基础模型正成为自动驾驶竞争的新焦点。随着算力平台升级、传感器融合能力增强,以及仿真与强化学习工具链成熟,行业有望在复杂城市场景、极端天气与混行交通中获得更稳定的泛化表现。但也应看到,自动驾驶仍需在安全冗余、法规合规、责任界定与用户认知等上同步推进。谁能在提升模型能力的同时,建立覆盖研发、验证、量产与运营的全链条安全体系,谁就更可能在下一阶段竞争中占据主动。
自动驾驶迈向更高水平,既需要算法范式创新,也离不开对安全底线与工程规律的坚守;基础模型为行业打开了提升上限的新窗口,但真正的“全能”仍取决于在现实道路上经得起反复检验的可靠性。以安全为先、以验证为纲、以协同为径,才能让技术进步稳步转化为用户可感、可用的出行体验。