问题:从“慢思考”到“快给答案”,复杂语境触发推理退化; Yandex研究院研究人员在4月1日发布的预印本论文(arXiv:2604.01161v1)中指出一个需要关注的现象:面对同一道数学推理任务,当问题被放进更长的文本、连续对话或更复杂任务链的子环节时,多款推理大模型会自发缩短推理过程,表现为“少验算、少回溯、少自检”的倾向。研究覆盖Qwen-3.5-27B、GPT-OSS-120B、Gemini 3 Flash Preview、Kimi K2 Thinking等模型。结果显示——在部分设置下——推理文本长度可缩短到原先约一半,同时正确率出现不同程度下降。 原因:不是“看不懂题”,而是“谨慎机制”被抑制。 研究更分析认为,模型通常仍能区分关键信息与干扰内容,并非简单被噪声带偏。更关键的变化是:在复杂语境中,模型更倾向于采用省步骤的解题策略,减少多路径尝试与结果复核。可能的原因包括:其一,当前“思维链”能力多通过强化学习与偏好对齐获得,而训练样本往往更“干净”,模型在整洁输入中形成的审慎习惯未必能迁移到信息密度更高的真实语境;其二,长上下文提高了信息整合成本,在有限生成预算与效率偏好影响下,模型更可能压缩中间推理;其三,复杂任务往往包含多目标约束,模型可能把资源优先用于“尽快完成任务”,而不是“把过程做得更可核验”。 影响:真实应用场景更复杂,推理退化或放大风险。 业内人士指出,大模型落地常见于检索问答、办公协同、编程辅助、智能体工作流等场景,输入往往混杂历史对话、工具返回内容、制度条款以及用户临时插入的信息。如果模型在这类环境中系统性减少核验步骤,轻则带来计算错误或条件遗漏,重则在金融、医疗、政务等高要求领域引发决策偏差,削弱用户对“可解释、可追溯”能力的信任。同时,依赖“长思维链”来提升性能的评测方式也面临挑战:在理想化测试集上表现突出的模型,未必能在复杂场景中保持同等水平。 对策:以更贴近真实的训练与评测补齐短板。 研究建议从数据、训练、产品与评测四个层面同步改进:一是扩大“复杂语境”训练覆盖,引入长文末尾提问、跨轮对话插题、任务链中嵌套子问题等样式,并进行针对性强化学习,让审慎策略在噪声与多目标条件下也能稳定触发;二是建立鲁棒性评测基线,将“推理长度变化、复核次数、错误类型迁移”等纳入指标,避免只用单次准确率衡量;三是在应用侧引入外部校验机制,如关键步骤用工具计算、结果一致性复核、对高风险答案要求给出可核验的中间量;四是优化交互设计,通过结构化提问、信息分段,以及明确要求“先验算再给结论”等方式,降低语境复杂度对推理的抑制。 前景:从追求“更聪明”走向“更可靠”,将成下一阶段竞争焦点。 多位研究者认为,推理大模型的重点正在从“会解题”转向“在复杂环境中仍能保持稳定、可验证的解题习惯”。随着长上下文、多工具协同与智能体应用加速发展,“复杂语境下的推理一致性”可能成为模型能力评估的重要分界线。未来,行业或将推动更统一的鲁棒性测试集与公开对照实验,促使模型在更贴近真实世界的输入分布下实现可控、可测的可靠推理。
推理模型能否在复杂语境中持续保持审慎、完整的推导与自检,决定了它能走多远、能用在何处。把“在理想题面下能做对”扩展为“在真实环境中也能做稳”,需要训练方法、产品设计与评测标准协同迭代。对该问题的持续研究和工程化改进,将是推动技术走向可信应用的关键环节。