近年来,随着大语言模型参数规模迈向千亿乃至万亿级,训练与推理成本持续攀升,硬件资源特别是GPU高带宽内存(HBM)容量不足,成为制约模型继续“做大做强”的关键瓶颈之一。
业内普遍面临的现实是:模型越大,需要在显存中容纳的权重、激活与缓存越多;输入上下文越长,推理过程中的中间状态占用越高。
显存不足不仅推高计算开销,也可能迫使模型在推理深度、上下文长度和并行效率之间做艰难取舍。
针对这一痛点,DeepSeek创始人梁文锋与北京大学研究人员近日联合发布论文《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》,提出名为“Engram”的条件记忆技术,核心思路是将“计算”与“存储”进行更明确的功能分离,让模型在需要某类基础信息时以“可扩展查找”的方式调用,而非在每一步都以密集计算方式反复“生成式检索”。
研究人员认为,传统做法在一定程度上消耗了本可用于高层推理的序列深度,进而限制复杂推理能力的进一步释放。
从原因看,显存瓶颈并非单一环节导致,而是算法范式、工程实现与硬件供给共同作用的结果。
一方面,当前主流大模型多以密集结构为主,计算路径固定,信息在网络中“反复计算”是常态;另一方面,长上下文场景要求模型在更大窗口内保持信息一致性与可追溯性,缓存与状态带来更高显存压力。
与此同时,HBM等高端存储器件供给格局与产业差距,使得部分国家和地区在高性能AI硬件上更容易获得规模化资源。
论文及相关报道也提及,HBM能力被视为部分地区与国际先进水平之间的重要差距点之一。
从影响看,“条件记忆”提供了一条不同于单纯堆叠参数和算力的扩展路线:通过更高效的“查找—调用”,让模型在不成比例增加计算量的情况下实现能力提升。
研究团队在约270亿参数模型上验证该方法,称其在多个行业基准测试上获得了几个百分点的提升,更重要的是为模型腾挪出可用于复杂推理的计算预算。
这意味着,在同等硬件条件下,模型可能获得更好的长文本处理与多步推理能力;在同等目标效果下,训练与部署成本也有望下降,从而提升技术的可及性与工程落地速度。
从对策路径看,面向显存与成本约束,行业正呈现“软硬协同、以软补硬”的趋势:一是通过结构稀疏化、检索增强、专家混合等方法减少不必要的计算;二是通过内存管理、并行策略、算子融合等工程手段提升硬件利用率;三是推动关键器件与系统级生态的持续完善,补齐高端存储、互联与软件栈能力短板。
此次论文将“稀疏性”扩展到条件记忆维度,等同于在模型设计工具箱中新增一种可复用的构件,有望与既有的混合专家等路线形成互补。
研究人员也将其潜在影响类比为此前在业界广泛应用的相关稀疏化技术路径,显示其希望该方法能成为下一代稀疏模型的重要基础组件。
从前景判断看,长上下文与复杂推理被视为大模型迈向“可用、好用、能落地”的关键门槛之一,尤其在面向真实业务的智能体、工具调用、代码与数据分析等任务上,对推理深度、稳定性与成本控制提出更高要求。
若条件记忆类方法能够在更大规模模型、更复杂任务和更严格工程约束下持续验证收益,并形成可复现的训练与推理范式,未来可能推动模型扩展从“算力主导”转向“效率主导”,在资源约束环境中释放更强创新动能。
与此同时,围绕模型结构变化带来的安全性、可控性、评测体系与产业标准,也需要同步跟进,避免“指标提升”与“实际可用”之间出现落差。
在全球科技竞争格局深度调整的背景下,此次内存优化技术的突破,既是我国科研人员面向国家重大需求攻坚克难的生动写照,也为后发国家在关键技术领域实现"非对称超越"提供了实践样本。
当技术创新不再简单追随"规模扩张"的赛道,而是立足国情开辟"效率优先"的新路径,中国人工智能产业正书写着属于自己的发展方程式。