具身智能领域的关键瓶颈正在被逐步突破;当前机器人在执行复杂任务时存在明显不足:被打断后难以记住任务的时间和空间状态,无法无缝衔接;对物理环境的理解有限——容易产生错误判断——影响操作精准度。 业界主要探索两条技术路线。一是动作模型路线,直接开发可操作物理世界的视觉语言动作模型(VLA),但因训练数据稀缺而泛化能力受限。二是大脑模型路线,基于视觉语言模型(VLM)开发,但普遍缺乏记忆机制,容易产生物理幻觉,难以支撑人形机器人的复杂操作。 RynnBrain的创新在于融合了时空记忆和物理世界推理两项核心能力。时空记忆让机器人能在完整历史记忆中精确定位物体和目标区域,甚至预测运动轨迹。这意味着机器人被打断执行其他任务后,仍能准确回到原始状态继续工作。物理空间推理采用文本与空间定位交错的策略,使推理紧密贴近物理环境,大幅降低传统纯文本推理中的幻觉问题。 从技术指标看,RynnBrain基于通义千问3训练,采用自研RynnScale架构优化,训练速度提升两倍,数据规模超过2000万对。在16项具身开源评测中达到最新技术水平,性能超越谷歌Gemini Robotics ER 1.5、英伟达Cosmos Reason 2等国际模型。 此次开源的RynnBrain全系列包含7个模型,涵盖基础模型与专有模型。其中业界首个MoE架构的30B具身模型表现突出,仅需3B激活参数就能超越72B模型效果,使机器人动作执行更快更流畅。达摩院同步开源了完整的推理与训练代码,降低了开发者门槛。 为填补行业评测空白,达摩院还开源了RynnBrain-Bench评测基准,专门用于评测时空细粒度具身任务,为行业提供统一的评估标准。 从应用看,RynnBrain具有良好的可扩展性,能快速训练出导航、规划、动作等多种具身模型。以具身规划模型为例,基于RynnBrain微调仅需数百条数据就能超越Gemini 3 Pro的效果。这表明RynnBrain有望成为具身智能领域的基础模型。 达摩院具身智能实验室负责人赵德丽表示,RynnBrain首次实现了大脑对物理世界的深度理解与可靠规划,为通用具身智能迈出了关键一步。达摩院在具身智能领域的布局已相当完整,先后开源了WorldVLA、RynnEC等具身模型,以及业界首个机器人上下文协议RynnRCP,形成了较为完善的生态。
RynnBrain的问世标志着我国在人工智能基础研究领域取得重要进展,为实体产业智能化转型提供了关键技术支撑。未来需要产学研各方协同发力,加快构建从实验室创新到产业应用的完整生态链。