3月24日这天,谷歌那边推出了一个叫TurboQuant的内存压缩算法,说能把AI推理时用到的KV Cache内存占用量降到原来的六分之一。好家伙,消息一出,全球的存储芯片龙头股都吓了一跳,市值蒸发了整整6200亿元,够让整个行业缓过劲儿来的了。 不过阿里云的李彬在三天后的CFMS|MemoryS 2026大会上指出,大模型对存储的胃口只会越来越大。毕竟模型的参数和上下文长度都在成倍增长,大模型正从“Chatbox”转向“General Agent”,变成7×24小时不停歇的智能体。这就把过去那种白天用、晚上歇的算力模式给打破了。 从应用层来看,像问答用的Chatbox和代码辅助的Copilot都属于白天干活晚上睡觉的类型,但General Agent就不一样了,它能规划任务、记长期记忆、远程执行命令,“龙虾”这个样例甚至能24小时不间断干活。AI不睡觉了,存储的负载也跟着变平稳了,那种利用率低、经常闲置的旧架构肯定得淘汰。 技术上也是双管齐下。Qwen模型的数据量从2T暴涨到45T,参数多了不少,对存储速度的要求更是高得吓人。虽然MoE这种混合专家模型能帮着省算力,但却把更多的参数塞到了显存和存储端。想要跑TB级甚至10TB级的大模型就得用海量显存;Flash这种辅助显存的端侧推理方案让边缘设备也能用上大模型;而像KV Cache压缩技术就是现在唯一能迅速解决问题的办法。 还有全模态融合这块儿也很有潜力。在自动驾驶或者具身智能场景下,原本没人看的监控视频和行车记录仪都变成了宝贝数据。而且AI生成的短视频、短剧比例特别高,每生成一次都会产生新数据还得反复编辑训练形成一个“黑洞”式的循环。 最后李彬总结说,光靠算法压缩只是缓兵之计,真正的解药是得把整个存储架构都升级一遍。从容量到带宽再到速度,AI每往前走一步都会给存储提出新要求。谁能先把技术瓶颈突破了,谁就能在大模型的红利期里分最大的一杯羹。