围绕机器人等具身系统“看得懂、想得清、做得准”的核心能力,VLA模型被视为通向通用操控的重要路径。
但在工程与科研实践中,一个长期存在的痛点日益突出:语义层面的推理与执行层面的动作控制往往分属不同表征体系,训练时难以保持一致的“语言—感知—动作”对齐,导致模型在推理链条完整时动作输出仍可能漂移,或在动作可执行时推理能力不足,进而影响端到端落地效果。
问题在于,具身系统既要处理离散的语言与符号信息,又要生成连续的控制信号。
传统做法常将动作连续空间强行映射为离散token,以便与语言、视觉统一训练与推理。
然而,离散化带来的量化误差会在细粒度操控中被放大,尤其在对精度、稳定性要求较高的真机任务中,微小偏差就可能引发抓取失败、轨迹震荡或安全风险。
同时,模型评测长期存在“任务结果导向”的倾向,容易将感知、推理、规划、控制等环节混在一起衡量,使得研究者难以准确识别性能瓶颈,进而影响算法迭代效率与行业可比性。
针对上述挑战,智元具身研究中心此次发布的GenieReasoner 2.0提出一体化的“大小脑”体系思路:在同一框架下兼顾高层语义推理与低层动作执行,并围绕统一离散化预训练构建模型架构,以减少推理与控制之间的割裂。
值得关注的是,团队引入流匹配(Flow-matching)技术来缓解动作离散化带来的精度瓶颈,力图在可训练、可推理的统一表示与高精度动作生成之间取得平衡。
简言之,其目标是让模型不仅“会解释”,也“能落手”,并在复杂环境中保持稳定执行。
与此同时,智元具身研究中心开源ERIQ评测基准,聚焦真机操控全流程的具身推理评估,并尝试以更可解释的方式解耦不同维度能力:例如在多步骤任务中分辨模型究竟在“理解指令”“推理关系”“规划顺序”还是“执行控制”环节受限。
业内普遍认为,具身智能从实验室走向规模化应用,需要一套能够兼顾可重复、可量化、贴近真实场景的评测体系;ERIQ的开源有助于推动研究在共同标尺下对齐,降低各自为战带来的重复投入,也为产业侧选型、测试与集成提供参考。
从影响层面看,一体化具身“大小脑”方案与评测基准的同步推进,体现出当前具身智能研究的一种趋势:一方面,通过更强的推理能力支撑更可靠的动作决策,减少“看似聪明但不会做”的落差;另一方面,通过更贴近真机的评测框架,将模型能力与现实约束挂钩,促进算法从演示走向可部署。
公开信息显示,相关实验认为该系统在推理能力上达到领先水平,并在跨本体的真机实验中展现较强泛化。
更重要的是,对比结果指向一个关键结论:具身推理能力的增强能够显著改善端到端动作执行表现,这为“先补推理、再促执行”的技术路径提供了证据,也提升了评测基准对研发迭代的指导价值。
在对策与路径上,智元具身研究中心提出下一步将从“逻辑深度”和“执行精度”两条主线持续推进,并致力于形成具身大小脑、世界模型与真机强化学习的闭环协同。
业内人士指出,世界模型用于描述环境演化与因果结构,强化学习强调在真实反馈中优化策略,两者与大小脑架构结合,有望在“可解释推理—可控规划—可验证执行”之间建立更紧密的联动机制。
但也需看到,真机强化学习面临数据成本高、试错风险大、分布漂移明显等挑战,闭环协同要取得稳定成效,还需要在安全约束、数据治理、仿真到现实迁移等方面形成系统工程能力。
前景来看,具身智能正处于从模型能力竞赛走向系统能力竞赛的阶段。
谁能在统一架构下同时解决语义推理、动作精度、泛化能力与评测可比性,谁就更可能在物流分拣、柔性制造、家庭服务、特种作业等场景中率先形成可复制的产品化路径。
随着开源评测基准扩散,行业将更快识别关键短板,也将倒逼模型在可验证指标上持续提升。
可以预期,围绕“模型—数据—评测—真机闭环”的协同体系,将成为下一阶段具身智能竞争的主战场之一。
具身智能作为人工智能发展的重要方向,其核心在于实现智能体对物理世界的深度理解与精准操控。
GenieReasoner 2.0的技术突破不仅推动了学术研究的边界拓展,更为构建真正意义上的通用智能机器人提供了可行路径。
随着相关技术的持续完善和产业化进程的加速推进,具身智能有望在更多实际场景中发挥重要作用,为经济社会发展注入新的动力。