一、问题:推理瓶颈制约大模型规模化落地 当前,AI产业竞争的焦点正从模型能力本身转向规模化推理能力;随着大语言模型企业场景中的广泛应用,推理系统的响应速度、资源利用率和成本成为了AI商业化的关键指标。 在这个过程中,KV缓存问题日益凸显。KV缓存是Transformer架构推理阶段的核心数据结构,存储注意力机制的中间计算结果,直接影响推理效率。以DeepSeek-R1为代表的新一代模型已支持超过10万词元的超长上下文处理,这大幅提升了模型的任务处理能力,但也导致KV缓存占用的GPU显存线性增长,存储瓶颈问题日益突出。如何高效管理KV缓存,已成为制约大模型推理系统规模化部署的关键难题。 二、原因:存储能力滞后于算力发展 长期以来,AI基础设施建设的重心集中在算力层面,存储系统的配套能力相对滞后。在实际推理部署中,GPU显存容量有限,难以承载超长上下文场景下的KV缓存数据;而现有存储软件架构多为通用设计,缺乏针对推理场景的优化,导致数据读写延迟高、吞吐量不足,深入拖累推理性能。 此外,行业内缺乏统一的AI存储测试规范与评估体系,技术研发与产业应用之间存在壁垒,不同厂商的存储产品难以横向比较,也不利于行业标准化建设。 三、影响:评测体系建立推动行业规范化 为系统评估算力中心的存储能力,打通技术研发与产业应用的壁垒,开放数据中心委员会(ODCC)在英伟达、美团、三星、Solidigm等企业的支持下,正式成立AI存储实验室。实验室针对大模型推理场景中的KV缓存存储管理问题,启动存储软硬件的专项协同测试,旨在构建适配推理场景的KV缓存存储解决方案及测试规范,推动AI存储技术的标准化和规模化落地。 此次首批评测结果的发布,标志着国内AI存储领域在测试体系建设上取得重要进展,对于引导产业资源配置、促进技术路线收敛很重要。 四、对策:多级缓存架构破解存储瓶颈 在本次评测中,焱融科技自主研发的YRCache推理存储系统参与首批测试并取得突出成绩。YRCache专为大规模推理场景设计,通过构建涵盖GPU显存、主机内存、本地NVMe固态硬盘及分布式文件存储的多级KV缓存架构,显著扩展了KV缓存的可用空间,有效缓解了显存容量不足问题。 测试数据显示,与原生推理框架相比,集成YRCache后的系统在关键指标上实现大幅提升:首词元延时(TTFT)降低97%,每个输出词元的生成时间(TPOT)降低97%,词元吞吐量提升22倍,单词元推理成本随之等比例下降。 更重要的是,在YRCache的支持下,搭载中端GDDR显存的GPU在推理性能上已接近高端HBM显存GPU的水平,投入产出比提升达14倍。这意味着企业无需大规模采购高端硬件,即可获得接近顶配的推理能力,为降低AI基础设施建设门槛提供了可行的技术路径。 五、前景:存储能力将成AI竞争新维度 本次测试基于DeepSeek-R1-0528-FP4模型(6710亿参数,FP4量化,支持12.8万词元上下文),在200Gbps、400Gbps、800Gbps三种网络带宽配置下开展,测试环境基于英伟达计算与网络平台,具有较强的代表性。随着ODCC AI存储实验室测试规范完善,更多存储产品将纳入评测体系,行业标准有望逐步形成。
这场由产业协同推动的技术革新表明——在AI发展中——基础设施层面的创新往往能带来突破性进展;当行业聚焦于模型参数竞赛时,存储技术的进步正在改变算力经济的底层逻辑。这种"以软补硬"的创新思路,有望重塑AI产业的价值链,为技术普惠开辟新的可能。