自变量机器人cto王昊:这是个大趋势但得跟真机采集配合好才行

来聊聊自变量机器人,他们的CTO王昊最近在咱们这里说了些心里话。虽然公司成立时间不长,但动作那叫一个快,刚拿下了阿里、美团、字节三家大佬的投资,立马就把事儿干起来了。就在今年3月,自变量办了个挺有意思的大会——“首届具身智能开发者大会(Embodied AI Developers Conference)”,也就是那个大家常说的EAIDC 2026。他们给开发者搭了个线下的真机评测竞技平台,不管用什么模型都能来比试比试,这招挺能吸引人。王昊在采访里透露了他们家的最新动向。要说自变量的背景,创始人王潜以前在美国搞机器人学习和人机交互研究的,还是最早提出Attention机制的人之一。后来回国办了自变量,他找来了IDEA研究院出来的王昊当CTO。这两个人一联手,自变量一开始就走的是端到端技术路线。 到了2024年,自变量推出了自己的端到端具身智能大模型Great Wall系列WALL-A模型,分支WALL-OSS去年也宣布开源了。王昊说他们现在的重点是把世界模型和VLA(视觉语言动作模型)融合成一个联合框架,这样就能让动作和视觉一起建模,让模型更好地理解物理定律。短期里他们想多引入一些多模态输出架构来减少误差,中远期还是想在基模上实现完全的场景泛化。跟那种先做硬件的公司不一样,自变量觉得基础模型才是根本。所以他们从成立那天起就在数据和算力上砸钱。王昊觉得规模化效应这东西越早建立越好,资源聚集得快。 很多厂商现在更愿意先从工业场景下手是因为那地方环境好控制、任务单一、赚钱还能算清楚。但自变量觉得家庭才是目标。今年3月他们宣布跟58同城合作,让机器人去给阿姨帮忙做家务,现在深圳已经开始跑了。家庭里的任务最复杂、最难标准化,业内觉得搞成得等5到10年呢。可王昊觉得必须得趁早直面最难的环境,“不管从什么时候开始都要开始”。 工厂也是自变量的目标之一。王潜以前说过今年内就能看到正ROI的商业落地了。不过王昊也说现在工厂场景也有难处:本体的基模能力跟不上商业压力要求快落地,厂家只能在工程上各种弥补。比如视觉有盲区就加个小模型。这种做法短期能加速落地但长期会让模型停滞。 现在市面上主流的数据采集方式有真机遥操、仿真合成还有互联网挖掘之类的。其中真机采集的数据最好用但太贵、效率太低。所以自变量决定还是坚持用真机采集。不过随着模型变大了他们在2026年会更依赖于Ego-Centric的数据采集方式——就是在真人脑袋上戴摄像头让AI用第一人称视角学人类怎么跟世界互动。王昊觉得这是个大趋势但得跟真机采集配合好才行,“这个数据策略会决定模型的上限”,而这个上限可能也决定了整个行业的上限。