ODCC人工智能存储实验室发布KV Cache首批评测：分级缓存缓解显存瓶颈，推动推理降本增效

一、问题：推理瓶颈制约大模型规模化落地当前，AI产业竞争的焦点正从模型能力本身转向规模化推理能力；随着大语言模型企业场景中的广泛应用，推理系统的响应速度、资源利用率和成本成为了AI商业化的关键指标。在这个过程中，KV缓存问题日益凸显。KV缓存是Transformer架构推理阶段的核心数据结构，存储注意力机制的中间计算结果，直接影响推理效率。以DeepSeek-R1为代表的新一代模型已支持超过10万词元的超长上下文处理，这大幅提升了模型的任务处理能力，但也导致KV缓存占用的GPU显存线性增长，存储瓶颈问题日益突出。如何高效管理KV缓存，已成为制约大模型推理系统规模化部署的关键难题。二、原因：存储能力滞后于算力发展长期以来，AI基础设施建设的重心集中在算力层面，存储系统的配套能力相对滞后。在实际推理部署中，GPU显存容量有限，难以承载超长上下文场景下的KV缓存数据；而现有存储软件架构多为通用设计，缺乏针对推理场景的优化，导致数据读写延迟高、吞吐量不足，深入拖累推理性能。此外，行业内缺乏统一的AI存储测试规范与评估体系，技术研发与产业应用之间存在壁垒，不同厂商的存储产品难以横向比较，也不利于行业标准化建设。三、影响：评测体系建立推动行业规范化为系统评估算力中心的存储能力，打通技术研发与产业应用的壁垒，开放数据中心委员会（ODCC）在英伟达、美团、三星、Solidigm等企业的支持下，正式成立AI存储实验室。实验室针对大模型推理场景中的KV缓存存储管理问题，启动存储软硬件的专项协同测试，旨在构建适配推理场景的KV缓存存储解决方案及测试规范，推动AI存储技术的标准化和规模化落地。此次首批评测结果的发布，标志着国内AI存储领域在测试体系建设上取得重要进展，对于引导产业资源配置、促进技术路线收敛很重要。四、对策：多级缓存架构破解存储瓶颈在本次评测中，焱融科技自主研发的YRCache推理存储系统参与首批测试并取得突出成绩。YRCache专为大规模推理场景设计，通过构建涵盖GPU显存、主机内存、本地NVMe固态硬盘及分布式文件存储的多级KV缓存架构，显著扩展了KV缓存的可用空间，有效缓解了显存容量不足问题。测试数据显示，与原生推理框架相比，集成YRCache后的系统在关键指标上实现大幅提升：首词元延时（TTFT）降低97%，每个输出词元的生成时间（TPOT）降低97%，词元吞吐量提升22倍，单词元推理成本随之等比例下降。更重要的是，在YRCache的支持下，搭载中端GDDR显存的GPU在推理性能上已接近高端HBM显存GPU的水平，投入产出比提升达14倍。这意味着企业无需大规模采购高端硬件，即可获得接近顶配的推理能力，为降低AI基础设施建设门槛提供了可行的技术路径。五、前景：存储能力将成AI竞争新维度本次测试基于DeepSeek-R1-0528-FP4模型（6710亿参数，FP4量化，支持12.8万词元上下文），在200Gbps、400Gbps、800Gbps三种网络带宽配置下开展，测试环境基于英伟达计算与网络平台，具有较强的代表性。随着ODCC AI存储实验室测试规范完善，更多存储产品将纳入评测体系，行业标准有望逐步形成。

这场由产业协同推动的技术革新表明——在AI发展中——基础设施层面的创新往往能带来突破性进展；当行业聚焦于模型参数竞赛时，存储技术的进步正在改变算力经济的底层逻辑。这种"以软补硬"的创新思路，有望重塑AI产业的价值链，为技术普惠开辟新的可能。