paperweekly和星弧科研觉醒ai 前沿讲座

（引）3月21日，UW-Madison的胡俊杰教授将带来一场以大模型“记忆”机制为主题的直播。这一次的PaperWeekly和星弧科研觉醒AI前沿讲座特别邀请了这位卡内基梅隆大学博士，助理教授来分享他的研究成果。这次直播定于2026年3月21日，周六的早上10点到11点，大家可以通过腾讯会议或VooV参与，ID是402 005 530。胡教授将从记忆的角度去解析Transformer大模型的工作原理。（过渡）众所周知，在大语言模型（LLMs）进行推理的时候，它们高度依赖Key-Value（KV）Cache来存储注意力上下文。我们可以把这个Cache看成是模型的短期记忆。虽然这个Cache对提升模型性能至关重要，但它的容量会随着上下文长度的增加而线性增长。当处理长提示或者复杂的链式思维推理任务时，这个Cache很快就成了占用内存和延长推理延迟的主要瓶颈。（观点）本报告从记忆的视角对Transformer大语言模型进行了分析。研究团队发现了上下文重要性分布的规律以及KV Cache中冗余积累的现象。基于这些发现，他们提出了两种旨在提高推理效率的解决方案。（方案一）PyramidKV是COLM 2025上提出的一种方法。它利用了金字塔式信息汇聚技术实现动态KV Cache的压缩机制。这种方法不仅能保留关键的结构化信息，还能让模型在理解长上下文时更快更高效地运行。（方案二）R-KV是NeurIPS 2025上发表的另一种技术。它通过感知信息冗余的方式来压缩KV Cache，有效地去除不断累积的冗余条目。这项工作主要是为了缓解长链式思维推理过程中的内存压力。（总结）这项研究提供了一个新的视角来分析和优化大语言模型的“记忆机制”。通过这一研究，实际部署中的推理速度能得到显著提升，内存开销也能大大降低。