阿里发布千问旗舰推理模型Qwen3-Max-Thinking 国产大模型高阶推理能力再上台阶

随着AI技术竞争加剧，推理能力成为衡量大模型水平的关键指标；阿里巴巴推出的Qwen3-Max-Thinking模型正是此背景下的创新成果。该模型参数量超过万亿级，预训练数据达36T Tokens，经过大规模强化学习优化。从性能看，Qwen3-Max-Thinking在多个国际权威基准测试中表现突出。在HLE工具调用基准中得分58.3分，超越OpenAI的GPT-5.2-Thinking和谷歌Gemini 3 Pro。在IMO级数学推理测试中获得91.5分，预览版曾在AIME 25与HMMT 25两项顶级数学竞赛中获得满分。这些成绩表明国产大模型在高阶推理领域已具备国际竞争力。模型的核心创新体现在两个上。首先是自适应工具调用能力。不同于需要用户手动选择工具的早期方案，Qwen3-Max-Thinking能在对话中自主判断并调用搜索引擎、记忆库和代码解释器等工具。处理实时政策问题时可自动检索最新信息，进行工程计算时能主动启动代码验证。这种自主决策能力显著降低了模型的"幻觉"风险，提升了回答的准确性。其次是测试时扩展技术。这一技术通过在推理阶段分配额外计算资源来提升性能。与传统模型面对难题时产生大量重复思路不同，该技术采用"经验提取"式反思机制，避免了并行推理中的冗余计算，使模型能在相同算力下更聚焦于未解决的难点。实际效果显著，GPQA科学知识测试得分从90.3提升至92.8，LiveCodeBench编程测试从88.0升至91.4。目前Qwen3-Max-Thinking已向用户开放。普通用户可通过千问PC端和网页端免费体验，企业用户可通过阿里云百炼平台获取API服务。这一突破背后是阿里巴巴在AI基础设施上的持续投入。阿里CEO吴泳铭表示，公司正推进三年3800亿元的AI基础设施建设计划，并将持续追加投入。这一投入规模与谷歌、Meta、亚马逊等全球科技巨头处于同一量级，反映了国内企业在AI领域的战略决心。

本次技术突破表明了国内企业在人工智能领域的创新实力。在全球数字技术竞争格局变化的今天，强化关键核心技术攻关，推动创新链产业链融合，将为建设数字中国提供支撑。未来如何将技术优势转化为产业优势、将单点突破拓展为体系能力，仍需产学研各界的共同努力。