科研团队突破智能计算带宽瓶颈 “双路径”架构提升AI系统效率

一、问题：多轮对话导致上下文快速膨胀，数据搬运成为系统瓶颈当前智能体应用越来越多地涉及多轮对话、工具调用和长链路任务，显示出"轮次多、上下文长、单轮增量小"的特点。系统的压力不再主要来自计算本身，而是频繁调取历史上下文缓存。实际观察表明，GPU经常处于等待数据的状态，推理吞吐和响应时延受到严重制约，数据传输带宽成为影响用户体验和运营成本的关键瓶颈。二、原因：KV Cache高复用率导致重复加载，传统架构下资源配置失衡从实际智能体交互看，历史注意力计算结果以KV Cache形式被复用，命中率通常超过95%。以编程任务为例，单个任务平均交互轮次可达百轮以上，上下文长度达数万tokens，但每轮新增token仅为数百量级。这意味着系统每轮推理需要重复加载大量已有的KV Cache，而真正需要新增计算的内容很少。在主流的"预填充—解码解耦"架构中，预填充侧虽然被视为计算密集——但在多轮智能体场景下——它需要不断重建完整注意力输入并从存储加载海量KV Cache，导致存储和网络接口长期处于高负荷状态；而解码侧的资源利用未必同步饱和。加上算力增长往往快于网络和存储带宽演进，这种失衡被继续放大。为精确描述这种"带宽主导"的负载特征，业界提出"缓存计算比"指标，衡量每单位计算需要搬运的缓存数据量。比值越高，系统越受带宽限制而非算力限制，优化方向也需从单点加速转向数据移动和集群协同。三、影响：推理成本上升、时延增加，系统架构面临新挑战 "算力充足但数据不足"的现象直接抬升推理成本并延长端到端时延，在长任务、强交互、频繁调用工具的场景中尤为明显。对企业而言，相同硬件条件下可服务的并发数下降；对用户而言，表现为响应变慢、交互卡顿；对产业而言，需要从系统架构层面重新审视数据路径、缓存策略和网络调度。更深层的变化是，智能体应用的竞争重心从"模型能力"转向"系统工程"：当推理越来越像持续运行的复杂工作流，集群资源的精细化调度能力将成为规模化落地的关键因素。四、对策：DualPath通过双路径机制重构数据流，把单点压力转化为集群可调度资源针对预填充侧KV Cache加载压力集中的问题，DualPath提出双路径机制来分摊数据读取压力：KV Cache既可直接读入预填充引擎，也可先加载到解码引擎，再通过高带宽RDMA网络转发至预填充引擎。核心思路是把原本集中在单点的存储读取瓶颈，转化为可在集群范围内调度和再分配的能力，使预填充侧快速获得完整KV Cache并进入计算状态，减少"等待数据"的空转时间。这种数据流重构带来新的工程挑战：一是需要更细粒度的数据传输以实现与计算的无缝重叠，提升整体吞吐；二是要隔离额外的KV Cache流与集合通信流，降低相互干扰；三是需要自适应的动态负载均衡，根据实时资源和拥塞状态快速选择最优路径。系统通过推理引擎、流量管理器和请求调度器等组件协同工作，完成路径选择、流量治理和任务编排，实现更高效的集群资源利用。不容忽视的是，该方案在既有硬件条件下实现优化，通过较小规模的核心代码改动与主流技术栈对齐，提升了在产业侧推广的可行性，并已在生产环境中验证。五、前景：从"堆算力"转向"优调度"，系统创新成为关键随着智能体交互更长、工具链更复杂、上下文更广，推理系统的瓶颈将更频繁地出现在内存和网络层面。行业需要建立更贴近真实工作负载的度量体系，持续识别"缓存复用—数据搬运—算力利用"之间的矛盾，并在集群架构、网络通信、存储层次和编排调度上形成系统化方案。 DualPath所代表的方向具有启示意义：当算力扩张遭遇带宽约束，仅升级单点硬件不足以解决问题，更需要通过数据路径优化和集群协同调度，把"等待"变为"并行"，把"拥塞"变为"可控"。这将推动推理基础设施进入软硬件协同的新竞争阶段。

DualPath推理系统的推出反映了人工智能产业的深层挑战：在算力增长与基础设施演进不对称的时代，系统优化的重点正从单纯追求计算速度转向全局资源协调。这种架构层面的创新不仅为智能体应用的规模化部署扫清了障碍，更为行业提供了重要启示——当芯片性能提升遭遇物理极限，通过软硬件协同设计来突破系统瓶颈，已成为推动人工智能发展的关键路径。