(问题)大语言模型智能体加速走向工具化、应用化的背景下,如何让智能体像人类一样形成可积累、可迁移的“经验”,已成为强化学习训练中的关键难题。研究指出,许多现有方法主要依赖任务成败等终局信号进行优化,过程中关键决策点和可复用线索往往被忽略,导致训练成本高、收敛慢。更突出的是,智能体在某一任务中获得的有效经验,常常难以在后续相似任务中稳定调用,出现“学过仍像没学过”的情况,限制了持续进化能力。 (原因)研究团队分析认为,经验难以沉淀与复用的深层原因在于经验管理机制过于“静态”。现有做法即便引入记忆库或历史轨迹检索,也多依赖固定规则、固定表征和固定筛选标准,难以随智能体能力变化动态调整。随着训练推进,智能体的行为分布、任务理解与推理能力不断变化,早期经验可能变得粗糙甚至产生误导;而过晚引入门槛更高的经验又可能超出当前能力范围,造成“经验不匹配”。最终,经验库可能从助力变为负担,引发性能波动或训练不稳定。 (影响)此问题不仅拖慢训练效率,也影响智能体在真实业务场景中的可靠性与可控性:一上,若主要依赖终局奖励,智能体很难从失败路径中提炼可执行的改进线索;另一方面,若经验无法跨情境迁移,智能体在多任务、多轮交互中就难以形成稳定的能力增长。在算力与数据成本上升、应用对稳定性要求提高的背景下,能否实现“经验可用,且越用越准”,正成为智能体强化学习从实验走向规模化部署的一道门槛。 (对策)针对上述瓶颈,研究团队借鉴神经科学中的互补学习系统理论,提出“互补强化学习”(Complementary Reinforcement Learning)框架,并构建两个相互耦合的核心组件:一是与环境交互并完成任务的策略智能体,二是对历史轨迹进行提炼、筛选与供给的经验提取器。与传统“单向检索”不同,该框架强调两者共同进化:策略智能体依据任务奖励改进行为;经验提取器则根据其提供的经验是否确实提升任务成功率获得反馈并自我校正,使经验质量与有关性随训练同步提升。 在训练机制上,研究将策略智能体的数据采样分为“使用经验指导”和“不使用经验指导”两条路径,并通过对比式学习信号,降低智能体对外部经验过度依赖的风险,确保基础策略能力持续增强。同时,经验提取器依据“经验是否带来可验证收益”获得正负反馈,形成可淘汰、可更新的筛选机制,提高经验供给的精度与适配度。为支撑双系统并行优化,团队还设计异步训练架构,通过集中式经验管理模块协调存储、检索与更新,避免经验处理阻塞策略交互,从而提升整体训练吞吐与稳定性。 (前景)业内人士认为,“经验系统与策略系统协同演化”的思路,为智能体从“会做一次”走向“会做一类、越做越熟”提供了可行方向。面向复杂任务规划、工具调用、多轮对话决策等场景,若经验能以更结构化、可验证的方式沉淀,并随能力提升持续迭代,有望在降低训练成本的同时,提高智能体在长链路任务中的一致性与可解释性。同时,相关方法仍需在更大规模任务集、开放环境与安全约束下接受系统检验,包括经验偏差控制、错误经验传播抑制以及跨域迁移稳健性等问题,仍是后续研究重点。
从“只看结果的强化学习”走向“能沉淀、会调用的经验学习”,表明了智能体训练范式的变化:不只追求更高得分,也更重视可解释的过程信息与可复用的知识结构。让经验系统与能力成长同步演化——既能提升训练效率——也为构建更可靠的智能体迈出关键一步。