大模型对存储的胃口只会越来越大

3月24日这天，谷歌那边推出了一个叫TurboQuant的内存压缩算法，说能把AI推理时用到的KV Cache内存占用量降到原来的六分之一。好家伙，消息一出，全球的存储芯片龙头股都吓了一跳，市值蒸发了整整6200亿元，够让整个行业缓过劲儿来的了。不过阿里云的李彬在三天后的CFMS｜MemoryS 2026大会上指出，大模型对存储的胃口只会越来越大。毕竟模型的参数和上下文长度都在成倍增长，大模型正从“Chatbox”转向“General Agent”，变成7×24小时不停歇的智能体。这就把过去那种白天用、晚上歇的算力模式给打破了。从应用层来看，像问答用的Chatbox和代码辅助的Copilot都属于白天干活晚上睡觉的类型，但General Agent就不一样了，它能规划任务、记长期记忆、远程执行命令，“龙虾”这个样例甚至能24小时不间断干活。AI不睡觉了，存储的负载也跟着变平稳了，那种利用率低、经常闲置的旧架构肯定得淘汰。技术上也是双管齐下。Qwen模型的数据量从2T暴涨到45T，参数多了不少，对存储速度的要求更是高得吓人。虽然MoE这种混合专家模型能帮着省算力，但却把更多的参数塞到了显存和存储端。想要跑TB级甚至10TB级的大模型就得用海量显存；Flash这种辅助显存的端侧推理方案让边缘设备也能用上大模型；而像KV Cache压缩技术就是现在唯一能迅速解决问题的办法。还有全模态融合这块儿也很有潜力。在自动驾驶或者具身智能场景下，原本没人看的监控视频和行车记录仪都变成了宝贝数据。而且AI生成的短视频、短剧比例特别高，每生成一次都会产生新数据还得反复编辑训练形成一个“黑洞”式的循环。最后李彬总结说，光靠算法压缩只是缓兵之计，真正的解药是得把整个存储架构都升级一遍。从容量到带宽再到速度，AI每往前走一步都会给存储提出新要求。谁能先把技术瓶颈突破了，谁就能在大模型的红利期里分最大的一杯羹。