智谱这次把GLM-5推出来了,报告里说用了四个新招数来让性能暴涨,还顺带给七大国产芯片都配齐了。虽然赶上春节扎堆发布,大家都在盯着看,不过GLM-5靠着那股冲劲还是成了大家的关注点。这个模型的参数有7440亿,比之前的GLM-4.X扩大了快一倍,编程和当智能体的本事都变强了。外面的博主测试说,它干代理编程这事能排第一,综合编程能力也排第三,连Opus 4.5都干不过它,还能跟上Opus 4.6和Gemini 3 Pro。虽然刚发出来因为太火把算力给挤爆了,让用户体验有点波动,官方赶紧发声明道歉还想办法补偿,但这反而证明大家还是很认这个技术的实力。 技术上它是靠这四样东西撑起来的。第一个是DSA稀疏注意力机制,能把注意力资源动态分配一下,在懂长文章的同时把训练和推理的开销给压下来了。这个机制让模型能涨到7440亿的规模,还把数据量吃到了28.5万亿Token,打下了处理复杂任务的基础。在强化学习这块儿,团队弄了个异步RL的底子,把生成和训练彻底分开了。因为是在老框架基础上优化的,GPU用起来更舒服了,能支持好多智能体去探索轨迹,把传统那种同步模式卡住效率的问题给解决了。 为了提高智能体做决定的水平,团队还搞了个异步Agent RL算法。这东西打破了那种自己折腾自己的老样子,让模型能在很长时间的互动中不断学习,特别是在那种变来变去的环境里规划和纠错更在行。这可是GLM-5在真正写代码时表现那么好的关键。 至于适配国产硬件方面,GLM-5把底层代码和推理框架全都改了一遍,把华为昇腾、摩尔线程、海光这些七大国产平台全给通吃了。实测发现,用一台国产算力卡就能顶得上国外两套GPU集群用了,在处理长句子时的成本降了50%,这对咱们国内的AI生态来说可是个好例子。