就在前不久的NVIDIAGTC2026大会上,理想汽车向全世界秀了一把自家的看家本领,正式发布了全新的自动驾驶基础模型MindVLA-o1。这东西最核心的那招是突破了3D视觉编码器的瓶颈,也就是3DViT。这就好比给自动驾驶装上了一双能看透物体位置、形态和功能的火眼金睛,让它从只会看着东西走到了真正理解物理世界的新台阶。 过去那些系统之所以老是在马路上出岔子,主要是因为用的技术不对路。要么是像BEV那样把三维压缩成二维,要么是像OCC那样虽然保留了空间感却搞不懂东西啥意思。理想这回搞的3DViT不一样,它直接在编码的时候就把空间几何和语义信息全给弄明白了。就像小时候爸妈教我们走路时帮我们认周围的环境一样,理想团队也从中悟到了道理,觉得AI也得先有这种基础训练才行。 现在这种技术到底有多猛?实验数据显示它的空间感知能力直接扩展到了500米以上,比以前提升了三倍。这就好比开车在高速路上,车子能提前几十秒就看清楚前面路况的变化。很多人肯定会问这怎么做到的?其实是靠那颗厉害的马赫芯片给撑着了,单颗算力比以前翻了好几倍,总算把3D视觉处理这道坎给过去了。至于以前的激光雷达,现在也不怎么用了,降级成个辅助标定工具就行。 话说回来,大家可能最关心这东西贵不贵?但好在理想汽车在软硬件设计上找到了平衡点,让技术落地变得挺现实的。未来这种本事不光能装在车上,还能搬到机器人控制或者别的地方去用。技术的尽头到底是什么?其实就是理解世界的开始。有人说自动驾驶最大的难处就是不懂三维空间,理想这次的MindVLA-o1正好是为了解决这个问题而生的。 从感知到认知这可是一次大飞跃啊!你有没有想过以后的车不光是个开车的工具,更是个能理解环境的智能伙伴?当AI开始像人一样思考的时候,我们离真正的智能出行到底还有多远呢?物理AI的出现,正在改变我们和这个世界打交道的方式。 最后我想问问大家:面对这么大的技术革新,你是打算在旁边看着还是赶紧去拥抱它?评论区见吧!