阿里前千问核心成员发文复盘大模型演进：推理能力之后竞逐“智能体时代”

问题——大模型竞争为何从“模型比拼”走向“系统比拼” 随着大模型文本生成、代码辅助、知识问答等场景快速落地，行业关注点正从“参数规模、榜单分数”转向“可交付能力与可持续迭代”。林俊旸在文章中提出，近两年业界对模型的评估方式发生明显变化：用户不再满足于“看起来合理”的回答，而更看重在可验证任务中稳定给出正确结果、并能在复杂流程中完成多步骤任务的能力。由此，围绕“思考能力是否可以训练、如何规模化交付”的讨论升温，并继续引出下一阶段“智能体化”竞争：模型不只要会回答，还要能规划、调用工具、执行并在反馈中自我修正。原因——推理强化学习推动“为正确而优化”，同时抬升工程门槛文章将2024—2025年概括为“推理式思考”阶段，关键在于把“思考”从隐性过程变为可训练、可对外提供的能力。在数学、代码等可验证领域，通过强化学习等方法引入更确定的反馈，促使模型的训练目标从“为合理而优化”转向“为正确而优化”。这个变化带来两上影响：一是推理能力更容易形成可度量、可迭代的训练闭环；二是对算力、验证体系与训练管线提出更高要求。推理强化学习不再只是轻量级“后处理”，而更接近需要大规模部署与高吞吐验证的系统工程，涉及数据构造、评测标准、自动化验证与服务协同等多环节能力建设。影响——推理与指令两种模式难以“一刀切”，产业需求决定产品形态文章进一步讨论“思考模式”与“指令模式”融合的现实挑战。推理模式更擅长复杂问题的多步求解，但成本更高、时延更长，且输出过程更难控制；指令模式强调稳定、可控与性价比，更适配批量调用、标准化流程与成本敏感型业务。林俊旸结合对应的产品实践指出，在尝试融合后，部分版本仍以独立形态面向用户，背后反映的是市场分层：不少企业客户在大规模生产调用中，需要的是高确定性、可预测的指令行为，而不是每次都进行深度推理。这也说明，大模型商业化落地不仅取决于“能力上限”，同样取决于“可控性、成本与工程可用性”的综合平衡。对策——从“训练更强模型”转向“建设更强环境”，强化训练—服务一体化围绕下一阶段“智能体式思考”，文章认为核心变化在于训练对象从模型本身扩展为“模型—环境”系统，更强调“为行动而思考”。智能体需要解决推理模型较少面对的问题：何时行动、调用何种工具、如何应对不确定环境反馈、如何在失败后修订计划、如何在多轮交互中保持任务连贯与目标一致。由此，竞争优势将更多体现为三类系统能力：一是环境设计能力。环境的稳定性、真实性、反馈丰富度以及抗过拟合能力，会影响智能体学到的策略是否可迁移、可泛化。环境不再只是测试场，而将成为决定训练效率与上限的关键要素。二是训练与服务的一体化能力。智能体的学习与部署高度耦合，离线训练、在线反馈、工具链接入与安全约束需要协同设计，才能在真实业务中改进，同时控制成本与风险。三是协同工程能力。多智能体组织架构被视为提升系统智能的重要路径，通过规划者、领域专家与执行单元的分工协作，提高复杂任务的完成度与稳定性，同时减少单一模型在长链路任务中的误差累积。前景——智能体时代或将重塑产业竞争要素与研发组织方式从产业趋势看，“智能体化”有望把大模型从“内容生成工具”推向“任务执行系统”，推动企业应用从单点试用走向流程再造。但同时，智能体的可靠性、安全性与可审计性将成为必须跨越的门槛：工具调用引入外部风险，环境反馈存在噪声，多轮交互容易偏航，组织协同也需要清晰的责任边界。未来一段时期，行业或将围绕标准化工具接口、可验证环境构建、端到端评测体系，以及面向业务的合规治理展开竞争。谁能在“系统工程能力”上形成可复制的方法论，谁就更可能在新一轮应用扩张中占据先机。

林俊旸的技术洞察不仅总结了过去的发展，也为AI的下一步演进提供了参考。在全球科技竞争加剧的背景下，行业正从单一模型性能比拼转向系统化智能体生态建设，该变化可能重塑竞争格局。机会与挑战并存：企业需要更扎实的工程能力、数据与算力体系，以及更清晰的产品与战略取舍。能否抓住范式切换的关键窗口，将在很大程度上影响各参与方在未来AI竞赛中的位置。