小米与北大联合提出ARL-Tangram资源管理系统解决智能体强化学习训练“高耗低效”难题

一、算力闲置影响智能体训练效率随着大规模语言模型向具身智能和自主决策方向发展，智能体强化学习成为研究热点；但现有训练框架资源调度上存明显不足。罗福莉团队研究发现，传统智能体训练中CPU利用率仅为47%，超过一半算力长期闲置。这是由于传统调度机制以"任务"为单位分配资源，无法识别任务内部各步骤的实际需求，导致资源锁定时间远超实际使用时间。在算力成本攀升、训练规模扩大的情况下，这种资源浪费给研发机构带来压力，也制约了智能体技术的发展速度。二、调度机制与任务需求不匹配问题的核心在于调度方式与智能体任务特性不符。智能体强化学习任务特点是异步、多步骤交替，不同操作对计算、存储等资源的需求差异很大。传统"任务级调度"将整个任务视为不可分割单元，启动后锁定全部资源直到任务结束。这种方式适合简单计算任务，但面对智能体训练的复杂场景时，会造成大量资源空转。此外，现有框架缺乏对外部资源的统一管理，更加剧了资源碎片化问题。三、ARL-Tangram实现动作级调度针对这些问题，罗福莉团队开发了ARL-Tangram系统。该系统创新性地以"动作"而非"任务"为调度单元，只在操作需要时才分配资源，完成后立即释放，实现多任务间的细粒度资源共享。该机制显著减少了资源空转，大幅提升算力利用率。测试显示，ARL-Tangram使智能体训练效率提升1.5倍，外部资源成本降低71.2%。目前该系统已应用于小米MiMo系列模型的训练。四、推动训练基础设施精细化发展 ARL-Tangram的发布反映了大模型训练领域的重要趋势：从粗放式资源堆叠转向精细化管理。在当前国际科技竞争下，如何在有限算力下提升训练效率成为关键课题。这项研究表明，通过优化框架底层逻辑，可以在不增加硬件投入的情况下提高研发效率，为国内企业在算力受限环境中保持竞争力提供了新思路。五、人才与技术共同推进研究布局需要指出，论文通讯作者罗福莉去年11月加入小米，此前曾在阿里达摩院和DeepSeek团队工作，具有丰富的大模型研发经验。ARL-Tangram是她加入小米后的第二项研究成果，显示出小米AI实验室在人才引进和成果转化上的进展。从更广视角看，国内科技企业正在加速布局智能体等前沿领域，高水平人才的集聚效应逐渐显现。

这项产学研合作不仅说明了国内科技企业对基础研究的投入，也揭示了人工智能发展的新趋势——从追求参数规模转向优化系统效率。在全球算力紧张的背景下，这类突破性技术的价值将持续释放，值得业界关注。

小米与北大联合提出ARL-Tangram资源管理系统 解决智能体强化学习训练“高耗低效”难题

小米与北大联合提出ARL-Tangram资源管理系统解决智能体强化学习训练“高耗低效”难题