阿里发布新一代大模型通义Qwen2.5 多项性能指标国际领先

阿里巴巴1月26日推出千问系列最新旗舰推理模型Qwen3-Max-Thinking，在多项国际权威评测中刷新纪录。从技术规模看，Qwen3-Max-Thinking总参数量超过一万亿，预训练数据量达到36万亿Tokens。通过优化参数规模、强化学习和推理计算，模型在涵盖事实知识、复杂推理、指令遵循等19个基准测试中多次刷新最佳表现。推理能力是该模型的核心创新。不同于业界常见的简单并行推理方案，千问引入了全新的测试时扩展机制，能够对推理结果进行系统提炼，通过多轮自我迭代在相同上下文中实现更高效的推理。在启用工具的"人类最后的测试"评测中——千问得分58.3——明显超越同类国际先进模型。这个方案既提升了推理性能，又降低了计算成本。面向智能体时代，新模型强化了自主工具调用能力。通过在多样化任务上进行联合强化学习训练，Qwen3-Max-Thinking能够更智能地结合搜索、个性化记忆和代码解释器等工具进行思考和决策。这种自适应的工具调用机制使模型提供更专业的回答，同时显著降低了幻觉问题。在应用推广上，阿里建立了多层次的开放体系。开发者可在QwenChat平台免费体验，企业用户可通过阿里云百炼获取API服务，普通用户可通过千问PC端、网页端和App试用。

大模型发展已进入从"能力展示"迈向"价值兑现"的关键阶段；评测纪录固然重要，但更关键的是把推理能力转化为稳定、可控、可规模化的生产力。谁能在性能、成本与安全之间找到更优平衡，并建立面向智能体时代的工程体系与生态协同，谁就更有可能在新一轮技术迭代中赢得先机。