科研新突破:威斯康星大学团队破解大模型训练效率瓶颈 记忆机制革新推动人工智能发展

问题——强化学习训练遭遇“能力天花板” 近年来,大模型在对话生成等任务上进展显著,但在需要长程推理、策略规划的场景中,基于强化学习的训练方法常出现“越练越慢、提升趋缓”的现象;威斯康星大学麦迪逊分校研究团队在2026年3月发布的预印本(arXiv:2603.19987v1)指出,这类停滞并非单纯由算力或数据规模决定,更可能与训练时采用的“记忆方式”有关。研究认为,若训练机制要求系统在每一步决策时都携带并处理从起点到当前的全部交互历史,将在效率与可学习性上形成结构性阻碍。 原因——过度“背历史”导致状态空间膨胀 研究将问题归因于当前不少训练范式对“历史轨迹”的依赖:系统把对话或操作过程中的全部内容作为决策依据,等同于每走一步都要回顾此前所有步骤。团队指出,传统强化学习在棋类等任务中之所以高效,关键在于“马尔可夫状态”表征——即用能够概括当前局势、足以支持最优决策的状态信息替代冗长历史。简言之,决策需要的是“当下足够的信息”,而非“从头到尾的回放”。 为直观展示差异,研究设计了“密码锁”任务:按正确顺序输入十位数字才能成功。采用马尔可夫状态表征的训练方法可在约3万次尝试内学会策略;而依赖完整历史记录的方式即使达到80万次尝试仍难以成功。研究认为,这反映出两类方法在“可覆盖的有效状态”与“探索效率”上的量级差距:历史越长,状态组合越多,学习信号被稀释,导致策略难以稳定收敛。 影响——效率、成功率与泛化能力出现分化 在继续实验中,团队选取数独、推箱子、不等式填空等具有清晰状态定义的逻辑类任务进行验证。这些任务每一步操作都会生成明确的“当前局面”,适合检验不同记忆机制的优劣。

从记录全过程到提取关键状态,该转变不仅是技术调整,更触及强化学习的核心效率问题。在算力成本持续攀升的背景下,如何通过更智能的状态表达提升学习效率,将成为大模型训练方法突破的关键。