具身智能正迎来发展的新阶段。
在近日举行的"具身原生"技术开放日上,业界围绕具身智能的发展瓶颈展开深入讨论,形成了对产业前景的新认识。
当前,具身智能领域面临的核心问题是技术路线的多元化与不确定性。
北京智源人工智能研究院院长王仲远指出,虽然硬件和模型取得快速进步,但行业尚未出现具身领域的"ChatGPT时刻",距离大规模应用仍存在巨大差距。
目前,VLM加控制、端到端VLA、世界模型等多条技术路线并行发展,均处于探索阶段,尚未形成业界共识。
这种技术路线的多元化既反映了产业的活力,也表明产业标准化程度仍需提升。
数据积累与场景闭环成为突破的关键。
王仲远强调,行业需要通过真实场景积累数据,形成完整的反馈闭环,进而解决泛化问题。
这意味着具身智能的发展不能仅依靠实验室的理论创新,而必须与实际应用场景深度结合。
清华大学教授汪玉从基础设施角度补充,当前机器人任务仍主要局限于"工作台"环境,要完成收拾屋子等长程跨模态任务,不仅需要模型的突破,还可能需要环境本身的协同设计。
这提示产业发展需要从硬件、软件、环境等多维度进行系统性创新。
产业链成熟度成为制约因素。
星海图CEO高继扬指出,具身智能的产业链条远长于大模型产业,涉及零部件、数据、算法等多个环节。
其中,供应链和零部件的成熟度仍显不足,这与大语言模型产业链的特点存在明显差异。
不过,算法领域因开源社区的推动,传播速度最快,第一梯队公司的算法传播周期仅为2至3个月,这为产业快速迭代创造了条件。
中国在产业化方面具有独特优势。
汪玉指出,中国在产业链、供应链方面具备显著优势,产学研联动也在逐步增多,有望在具身智能领域实现比美国更快的突破。
高继扬进一步分析,中国在供应链成熟度、成本控制等方面的优势明显,周期快5至10倍,成本仅为美国的五分之一到十分之一,这将成为中国具身智能产业的重要竞争力。
关于"ChatGPT时刻"的定义,业界存在不同理解。
阶跃星辰CEO姜大昕认为,具身智能的"ChatGPT时刻"比语言模型更难定义,因为其泛化维度多元,涉及场景、任务、目标等多个方面,且视觉编码、三维空间推理等基础问题仍待突破。
但其标志性信号应该是零样本泛化能力,即模型能够处理从未见过的指令。
原力灵机联合创始人兼CEO唐文斌则从应用价值角度定义,认为"ChatGPT时刻"应该是在限定场景中真正有用、可信赖、投资回报率可计算的产品,即把玩具变成工具。
他指出,当前在仓库、工厂等工业场景中的应用虽然已形成闭环,但大众感知度不高。
从工业物流走向商业应用、走向消费者端的时刻还需时日,但这个过程"也不会太远"。
2026年被业界普遍看好为具身智能产业的关键转折点。
唐文斌表示,2026年不是具身智能的元年,而是"具身原生"的元年,将成为智能爆发的时刻。
高继扬进一步指出,2026年的爆发结果必然在某些应用领域形成应用外溢,同时配合供应链和整机的成熟,中国在这一过程中的优势将更加凸显。
具身智能的竞争,本质上是“真实世界能力”的竞争:既要突破模型与算法的边界,也要在工程化、产业链和应用场景中把不确定性压到可控范围内。
只有当机器人从“能展示”走向“能长期稳定工作”,从“看起来聪明”走向“让人放心使用”,技术热潮才会沉淀为产业动能。
面向下一阶段,谁能率先形成可复制的闭环与可规模交付的产品,谁就更可能在新一轮产业变革中赢得先机。