数万次远程真机测试描绘具身智能能力边界 RoboChallenge发布年度评测报告

大语言模型和视觉语言模型感知、认知和推理上取得了显著进展，但如何将这些能力转化为机器人在复杂物理环境中的实际操作能力，仍是学界和业界的核心难题；问题的根源在于真机测试长期面临的困境。传统机器人评估主要在仿真环境或受限场景中进行，存在难以复现、缺乏统一标准、成本高昂等问题。这导致模型在真实世界中的表现难以量化评判，成为制约具身智能发展的瓶颈。为解决该问题，原力灵机与Hugging Face联合推出RoboChallenge平台，建立开放、公正、可大规模复现的真实评测体系。自2025年10月15日上线以来，平台已部署包含UR5、Franka Panda、ARX5、ALOHA等四款主流机型在内的20台真机，形成了稳定多元的远程物理测试网络。为推进评测的规范化，原力灵机与Hugging Face联合智源研究院、智元机器人、Qwen等业界力量成立RoboChallenge组委会。年度报告首次提供了大规模、标准化、可复现的真机测试数据。报告显示，具身智能技术呈现明显的分化特征。基础任务已趋于成熟，"叠碗"和"物体移入盒子"等简单操作的成功率较高，成为多数模型的验证首选。相比之下，复杂任务仍面临严峻挑战。"整理纸杯"、"制作三明治"等涉及多步骤决策、长期规划和精细操作的任务，对所有参测模型都极具难度，成功率处于低位，部分接近零。即使在Table30评测集上表现最佳的模型，整体成功率也仅在50%左右。这充分说明，尽管模型在基础感知和简单决策上已有进步，但在通用能力特别是复杂多步骤任务执行上，仍有巨大提升空间。报告数据显示，参测模型虽能理解指令语义，但在精细操作任务中的成功率不足15%，反映出从"理解"到"执行"的转化环节存在明显短板。值得关注的是，平台积累的大量真机失败数据成为了宝贵的公开"错题集"。这些失败案例为模型迭代提供了关键参考，帮助研发人员精准识别系统薄弱环节，推动技术进步。这种开放共享的理念表明了学界与产业界的合作精神，有利于形成良性的技术创新生态。 RoboChallenge平台已明确了发展方向。平台将引入更多机器人类型，拓展更多元化、更贴近实际工业和家庭需求的场景评测，设计更具挑战性的任务。同时探索分布式真机评测机制，继续扩大测试规模与效率。这些举措将形成更加完整全面的具身智能能力评估体系。

RoboChallenge报告如同一面镜子，既映照出人工智能与物理世界融合的现实困境，也指向技术突破的可能方向。这份基于海量实证数据的"体检报告"为科研攻关提供了精准参考，更表明人机协作新时代的到来需要建立在更扎实的物理智能基础之上。如机器人学理论所言：让机器理解世界相对容易，使其改变世界才是真正的挑战——这正是当代科技工作者必须跨越的分水岭。