随着AI技术竞争加剧,推理能力成为衡量大模型水平的关键指标;阿里巴巴推出的Qwen3-Max-Thinking模型正是此背景下的创新成果。该模型参数量超过万亿级,预训练数据达36T Tokens,经过大规模强化学习优化。 从性能看,Qwen3-Max-Thinking在多个国际权威基准测试中表现突出。在HLE工具调用基准中得分58.3分,超越OpenAI的GPT-5.2-Thinking和谷歌Gemini 3 Pro。在IMO级数学推理测试中获得91.5分,预览版曾在AIME 25与HMMT 25两项顶级数学竞赛中获得满分。这些成绩表明国产大模型在高阶推理领域已具备国际竞争力。 模型的核心创新体现在两个上。首先是自适应工具调用能力。不同于需要用户手动选择工具的早期方案,Qwen3-Max-Thinking能在对话中自主判断并调用搜索引擎、记忆库和代码解释器等工具。处理实时政策问题时可自动检索最新信息,进行工程计算时能主动启动代码验证。这种自主决策能力显著降低了模型的"幻觉"风险,提升了回答的准确性。 其次是测试时扩展技术。这一技术通过在推理阶段分配额外计算资源来提升性能。与传统模型面对难题时产生大量重复思路不同,该技术采用"经验提取"式反思机制,避免了并行推理中的冗余计算,使模型能在相同算力下更聚焦于未解决的难点。实际效果显著,GPQA科学知识测试得分从90.3提升至92.8,LiveCodeBench编程测试从88.0升至91.4。 目前Qwen3-Max-Thinking已向用户开放。普通用户可通过千问PC端和网页端免费体验,企业用户可通过阿里云百炼平台获取API服务。 这一突破背后是阿里巴巴在AI基础设施上的持续投入。阿里CEO吴泳铭表示,公司正推进三年3800亿元的AI基础设施建设计划,并将持续追加投入。这一投入规模与谷歌、Meta、亚马逊等全球科技巨头处于同一量级,反映了国内企业在AI领域的战略决心。
本次技术突破表明了国内企业在人工智能领域的创新实力。在全球数字技术竞争格局变化的今天,强化关键核心技术攻关,推动创新链产业链融合,将为建设数字中国提供支撑。未来如何将技术优势转化为产业优势、将单点突破拓展为体系能力,仍需产学研各界的共同努力。