我国科研团队突破智能体系统关键技术第二代"GenieReasoner"实现推理与操控双提升

围绕机器人等具身系统“看得懂、想得清、做得准”的核心能力，VLA模型被视为通向通用操控的重要路径。

但在工程与科研实践中，一个长期存在的痛点日益突出：语义层面的推理与执行层面的动作控制往往分属不同表征体系，训练时难以保持一致的“语言—感知—动作”对齐，导致模型在推理链条完整时动作输出仍可能漂移，或在动作可执行时推理能力不足，进而影响端到端落地效果。

问题在于，具身系统既要处理离散的语言与符号信息，又要生成连续的控制信号。

传统做法常将动作连续空间强行映射为离散token，以便与语言、视觉统一训练与推理。

然而，离散化带来的量化误差会在细粒度操控中被放大，尤其在对精度、稳定性要求较高的真机任务中，微小偏差就可能引发抓取失败、轨迹震荡或安全风险。

同时，模型评测长期存在“任务结果导向”的倾向，容易将感知、推理、规划、控制等环节混在一起衡量，使得研究者难以准确识别性能瓶颈，进而影响算法迭代效率与行业可比性。

针对上述挑战，智元具身研究中心此次发布的GenieReasoner 2.0提出一体化的“大小脑”体系思路：在同一框架下兼顾高层语义推理与低层动作执行，并围绕统一离散化预训练构建模型架构，以减少推理与控制之间的割裂。

值得关注的是，团队引入流匹配（Flow-matching）技术来缓解动作离散化带来的精度瓶颈，力图在可训练、可推理的统一表示与高精度动作生成之间取得平衡。

简言之，其目标是让模型不仅“会解释”，也“能落手”，并在复杂环境中保持稳定执行。

与此同时，智元具身研究中心开源ERIQ评测基准，聚焦真机操控全流程的具身推理评估，并尝试以更可解释的方式解耦不同维度能力：例如在多步骤任务中分辨模型究竟在“理解指令”“推理关系”“规划顺序”还是“执行控制”环节受限。

业内普遍认为，具身智能从实验室走向规模化应用，需要一套能够兼顾可重复、可量化、贴近真实场景的评测体系；ERIQ的开源有助于推动研究在共同标尺下对齐，降低各自为战带来的重复投入，也为产业侧选型、测试与集成提供参考。

从影响层面看，一体化具身“大小脑”方案与评测基准的同步推进，体现出当前具身智能研究的一种趋势：一方面，通过更强的推理能力支撑更可靠的动作决策，减少“看似聪明但不会做”的落差；另一方面，通过更贴近真机的评测框架，将模型能力与现实约束挂钩，促进算法从演示走向可部署。

公开信息显示，相关实验认为该系统在推理能力上达到领先水平，并在跨本体的真机实验中展现较强泛化。

更重要的是，对比结果指向一个关键结论：具身推理能力的增强能够显著改善端到端动作执行表现，这为“先补推理、再促执行”的技术路径提供了证据，也提升了评测基准对研发迭代的指导价值。

在对策与路径上，智元具身研究中心提出下一步将从“逻辑深度”和“执行精度”两条主线持续推进，并致力于形成具身大小脑、世界模型与真机强化学习的闭环协同。

业内人士指出，世界模型用于描述环境演化与因果结构，强化学习强调在真实反馈中优化策略，两者与大小脑架构结合，有望在“可解释推理—可控规划—可验证执行”之间建立更紧密的联动机制。

但也需看到，真机强化学习面临数据成本高、试错风险大、分布漂移明显等挑战，闭环协同要取得稳定成效，还需要在安全约束、数据治理、仿真到现实迁移等方面形成系统工程能力。

前景来看，具身智能正处于从模型能力竞赛走向系统能力竞赛的阶段。

谁能在统一架构下同时解决语义推理、动作精度、泛化能力与评测可比性，谁就更可能在物流分拣、柔性制造、家庭服务、特种作业等场景中率先形成可复制的产品化路径。

随着开源评测基准扩散，行业将更快识别关键短板，也将倒逼模型在可验证指标上持续提升。

可以预期，围绕“模型—数据—评测—真机闭环”的协同体系，将成为下一阶段具身智能竞争的主战场之一。

具身智能作为人工智能发展的重要方向，其核心在于实现智能体对物理世界的深度理解与精准操控。

GenieReasoner 2.0的技术突破不仅推动了学术研究的边界拓展，更为构建真正意义上的通用智能机器人提供了可行路径。

随着相关技术的持续完善和产业化进程的加速推进，具身智能有望在更多实际场景中发挥重要作用，为经济社会发展注入新的动力。

我国科研团队突破智能体系统关键技术 第二代"GenieReasoner"实现推理与操控双提升