小米与北大联合提出ARL-Tangram资源管理系统 解决智能体强化学习训练“高耗低效”难题

一、算力闲置影响智能体训练效率 随着大规模语言模型向具身智能和自主决策方向发展,智能体强化学习成为研究热点;但现有训练框架资源调度上存明显不足。罗福莉团队研究发现,传统智能体训练中CPU利用率仅为47%,超过一半算力长期闲置。这是由于传统调度机制以"任务"为单位分配资源,无法识别任务内部各步骤的实际需求,导致资源锁定时间远超实际使用时间。 在算力成本攀升、训练规模扩大的情况下,这种资源浪费给研发机构带来压力,也制约了智能体技术的发展速度。 二、调度机制与任务需求不匹配 问题的核心在于调度方式与智能体任务特性不符。智能体强化学习任务特点是异步、多步骤交替,不同操作对计算、存储等资源的需求差异很大。传统"任务级调度"将整个任务视为不可分割单元,启动后锁定全部资源直到任务结束。这种方式适合简单计算任务,但面对智能体训练的复杂场景时,会造成大量资源空转。 此外,现有框架缺乏对外部资源的统一管理,更加剧了资源碎片化问题。 三、ARL-Tangram实现动作级调度 针对这些问题,罗福莉团队开发了ARL-Tangram系统。该系统创新性地以"动作"而非"任务"为调度单元,只在操作需要时才分配资源,完成后立即释放,实现多任务间的细粒度资源共享。该机制显著减少了资源空转,大幅提升算力利用率。 测试显示,ARL-Tangram使智能体训练效率提升1.5倍,外部资源成本降低71.2%。目前该系统已应用于小米MiMo系列模型的训练。 四、推动训练基础设施精细化发展 ARL-Tangram的发布反映了大模型训练领域的重要趋势:从粗放式资源堆叠转向精细化管理。在当前国际科技竞争下,如何在有限算力下提升训练效率成为关键课题。这项研究表明,通过优化框架底层逻辑,可以在不增加硬件投入的情况下提高研发效率,为国内企业在算力受限环境中保持竞争力提供了新思路。 五、人才与技术共同推进研究布局 需要指出,论文通讯作者罗福莉去年11月加入小米,此前曾在阿里达摩院和DeepSeek团队工作,具有丰富的大模型研发经验。ARL-Tangram是她加入小米后的第二项研究成果,显示出小米AI实验室在人才引进和成果转化上的进展。从更广视角看,国内科技企业正在加速布局智能体等前沿领域,高水平人才的集聚效应逐渐显现。

这项产学研合作不仅说明了国内科技企业对基础研究的投入,也揭示了人工智能发展的新趋势——从追求参数规模转向优化系统效率。在全球算力紧张的背景下,这类突破性技术的价值将持续释放,值得业界关注。