虽然业界常说机器人“吃不饱”,但关于数据问题的争论从来没停过,这其实是整个智能化升级的拦路虎。就在前几天的中关村论坛上,有个专门讨论“百亿具身智能”的环节,星动纪元的席悦和原力灵机的唐文斌,还有张鹏等几位朋友,就在那儿聊聊这个行业的核心难题。席悦倒是很直接,觉得数据才是现在最大的坎。她还吐槽说,要在现实场景里搞数据采集太难了,对方得给权限,而且这一采起来又贵又费工夫。现在那些用1:1复刻真实环境自建训练场的办法,根本不靠谱,全得靠工程师在那儿盯着来来回回地弄,效率特别低。她倒是有个想法,想搞个“数据采集—模型迭代”的闭环数据飞轮,让机器人自己在外面练本事;还有一种办法就是“人类演示+真机采集”组合拳,不过现在在怎么搞两者的体型、动作和感知上还有不少难关要跨。唐文斌虽然也认同数据是瓶颈,但没把它当成全部问题。他觉得说到底就是个钱和时间的事儿,只要砸钱买机器人、盖场地、请人来操作、外包做标注,百万小时、亿级的样本分分钟就能堆出来。所以光说“有没有数据”其实算不上什么壁垒。真正能分出胜负的,得看哪家公司能把在外面跑的产品产生的数据拿回来变成资产。智平方现在路子也宽得很,虽然他们联合创始人张鹏还是认为在一线拿回来的真实场景数据价值最高。在安全有保障的前提下,智平方也愿意把这部分好东西拿出来跟大家一起分享。就在这次论坛的现场,北京石景山的那个具身智能触觉及多模态感知数训创新中心揭牌了。这个中心是北京石景山科技创新集团跟他山科技一起搞的,专门盯着具身智能产业的发展需求。他们定了触觉、异构、自主无人数采这三个大方向,想打造一个从多模态数据采集到算法训练再到落地的一条龙平台。北京石景山人形机器人数据采集训练中心四期项目现在主要是跟乐聚、他山、睿尔曼、灵初这些公司合作的。有人跟我说啊,现在行业里正在经历一场数据体系的大变革。像EGO这种第一人称视角数据还有UMI这种通用接口技术越来越流行,以前那种靠重资产建遥操作工厂的路子可能就要不行了。虽然真实场景的数据还是金字塔尖上的那种好东西,但现在普遍有两大麻烦:一是大家的数据质量和怎么管数据这事儿还没个统一的标准;二是很多厂商手里压根没那个本事去建高效的处理系统,再加上行业里也没什么共享经验或者评测标准的机制,导致大家用起来效率参差不齐。从长远来看啊,这种玩法估计得变变。不再是比谁的训练中心更大更强了,而是看谁能把外面的场景拿下、谁能让这个闭环转得更快更稳。