人工智能里的世界模型这块儿最近挺热闹,从1月27号到2月1号短短几天,蚂蚁灵波和谷歌就都把各自的家底往外掏了。这两家公司虽然之前没商量过,但动作基本是在同一天做出的,就像是有个约定似的。咱们先说说中国那边的情况,蚂蚁集团旗下的灵波科技先是在1月27号和28号两天,接连把具身大模型LingBot-VLA还有空间感知模型LingBot-Depth给开源了。前者特别厉害,跨本体、跨任务的泛化能力强,在真机操作成功率上刷新了纪录;后者则专门解决机器人在抓取透明或者反光物体时的视觉难题,还顺带把深度相机的硬件给升级了。 紧接着到了1月29号,灵波科技把大招亮出来了,正式把自家的世界模型LingBot-World给放出来了。这个模型不光能生成高保真的视频,还能连续工作近十分钟,而且响应速度超快。最关键的是它有“Zero-shot”泛化能力,哪怕只给一张真实照片或者游戏截图,不用再额外训练,也能马上生成可互动的动态视频。这种高质量的机器人模拟环境和开源工具包被德国财经媒体AdHocNews评价为一项战略性举动。过去这种训练环境通常成本很高还不让用,现在开源了对整个行业来说都是个大变革。 大洋彼岸的谷歌也没闲着,就在北京时间1月30日,给自家的AI Ultra订阅用户开放了体验平台,让大家试试Genie 3这个世界模型项目。这个模型也能根据指令变出多样化的虚拟环境来。两家公司虽然路径不太一样——蚂蚁是全代码开源,谷歌是给体验入口——但目的都是想把技术门槛降下来。蚂蚁灵波在短短的几天里连开了好几款模型,初步搭起了一条“感知-决策-仿真”的完整链条。 这两家公司的举动表明世界模型正想走出实验室的深闺去拥抱开发者生态。大家以前都觉得这类技术很难接触到、成本又高、只有少数大公司能用。现在通过开源或者开放体验的方式普及下去,意味着前沿技术变得普惠了。一个由开源协作驱动、多方一起搞的世界模型发展新阶段算是来了。可以预见以后随着门槛降低和生态繁荣,世界模型在赋能实体经济、产业智能化升级、搞新型数字内容创作这些方面会有更大潜力释放出来。