我国科学家在智能认知领域取得重大突破 首次揭示注意力机制双通道原理

(问题)智能问答、长文阅读、检索摘要等应用中,如何让大模型“把注意力放在该放的地方”,并且“真正读懂被强调的内容”,一直是影响效果与可控性的关键难题;现实交流中,人们可以通过语气、停顿、手势等方式突出重点;但在机器学习系统里,即使借助提示词、标注或外部引导来强调要点,模型仍可能出现关注点偏移、被干扰信息带偏、只抓住关键词却理解不深等情况,进而影响输出质量与可靠性。 (原因)研究团队指出,现有不少注意力引导技术更侧重“引导看哪里”,相对忽略“看进去多少”。关键原因在于对注意力内部信息流的理解不足:注意力机制不仅负责选择与分配,也承担信息传递与表达。团队通过实验观察提出,注意力中至少存在两条相对独立的通道:一是“路由通道”,决定注意力分配方向,类似分拣与导航;二是“内容通道”,决定被关注内容能够携带并传递多少有效信息,类似通行能力与载荷。研究显示,两条通道在不同层次的侧重并不一致:中间层更偏向完成“路由”,后期层则更依赖“内容”提升表达与决策质量。这意味着,如果只在单一维度调控注意力,可能出现“指向正确但信息不足”或“信息充足但指向漂移”的结构性问题。 (影响)该成果为理解大模型内部机理提供了可验证的分析框架,也为可控生成与高质量阅读理解提供了新的切入点。一上,长文本任务中,信息密集且干扰因素多,仅靠“指向”难以保证模型对关键证据的充分吸收;若能同时提升关键信息的承载与传递效率,有望提高摘要压缩、证据对齐、复杂问答等场景的稳定性。另一上,将注意力通道拆分分析,也有助于解释不同模型家族能力表现的差异:研究提到,部分模型随规模增大表现出更强的信息承载与传递能力,而另一些模型不同层次保持更强的路由特征。这些差异可为后续结构设计、训练策略选择与评测指标完善提供线索。 (对策)基于上述认识,团队提出新的注意力引导方法PRISM,尝试将“路由调控”和“内容增强”纳入同一套可操作框架。其路径强调通过对比提取“真正与任务涉及的的注意力模式”,尽量减少无关特征混入。具体做法是构造不同的输入环境:在保持原始文本不变的基础上,分别加入与任务相关的引导信息,以及加入无关的干扰信息;再比较模型在不同环境下的差异,识别对完成任务真正有贡献的注意力结构,并据此实现更细的引导。该思路反映了从“通用引导”转向“差分提纯”:不追求一套特征覆盖所有场景,而是借助对照机制剥离噪声、提炼有效信号,从而同时提升“聚焦”与“增益”。 (前景)业内人士认为,随着大模型应用进入更强调可靠性与可控性的阶段,注意力机制的可解释与可调控将成为基础能力。面向政务服务、教育科研、工业知识管理等对准确性要求较高的场景,未来相关研究可在三上继续推进:其一,针对不同任务类型建立更系统的通道评测体系,明确“路由优先”与“内容优先”的适用边界;其二,将通道调控与检索增强、工具调用、长上下文架构等技术协同设计,提高跨模块的信息对齐效率;其三,在更多开源模型与真实业务数据上验证方法的稳健性,并关注安全合规与偏差控制,避免“强化重点”被用于放大错误或偏见。

从“让模型看见”到“让模型看懂并抓住重点”,关键不在于提示技巧的堆叠,而在于对内部机制的深入理解与可验证的控制方法。面向大模型应用走向深入,能否在复杂信息中保持聚焦、在关键内容上强化表达,将直接影响技术对科研、产业与社会治理的支撑效果。以机制洞察推动方法创新,是提升智能系统可靠性与可控性的关键路径。