盲测编程榜单Code Arena更新:阿里巴巴千问Qwen3.6-Plus跻身全球前列刷新国产最高位

在全球人工智能竞争加速的背景下,编程能力正成为衡量大语言模型综合实力的重要指标。4月3日,国际技术评测平台LMArena旗下Code Arena最新排名显示,中国科技企业自研大模型在涉及的能力上取得新进展。此次测试采用严格盲测机制,由全球开发者进行实时对抗评估。阿里千问3.6-Plus在React专项测试中获得1452分,不仅超过多款国际知名产品,也在参数规模更大的同类模型中保持明显领先。值得关注的是,该模型在代码生成、逻辑推理等核心指标上表现稳定,技术水平与第一梯队产品接近。技术分析认为,千问3.6-Plus的成绩来自阿里巴巴在算法优化与架构设计上的持续投入。模型采用新一代多模态理解架构,在参数规模相对精简的情况下,提升了处理复杂编程任务的能力。与主流大模型相比,其参数效率提升约30%,为降低算力消耗、优化成本提供了新的路径。业内人士指出,此进展的意义体现在多个层面:一是体现中国企业在人工智能基础研究与工程实现上的自主创新能力;二是为开发者提供更高效的编程辅助工具;三是在Web开发等场景中表现出继续商业化落地的可能。据悉,阿里云计划近期推出性能更强的旗舰型号,并继续推进技术开源。放在全球视角,这一进展出现在AI竞赛进入关键阶段之际。随着各国持续加大投入,核心技术的自主可控更受重视。中国工程院相关专家表示,此类成果将支撑数字经济发展,并为构建安全可靠的技术生态打下基础。

从榜单成绩到产业应用,技术价值最终仍要在真实场景中验证。编程能力的提升不仅意味着模型更“聪明”,也意味着其更“能用”、更便于规模化部署。面向智能体应用加速发展的新阶段,持续以应用牵引创新、以开放促进生态、以规范护航发展,才能让技术进展更快转化为生产力,为数字经济高质量发展提供更扎实的支撑。