北京大学博士生吴永彤和DeepSeek系统组一起,给北大清华开发出了一个叫DualPath的推理框架,专门用来给智能体加速。现在聊天越来越长,上下文也越来越多,老的方法跑不动了。大家发现,只要KV-Cache命中率超过了95%,最卡的地方就不是算得慢,而是数据来回搬运太费劲儿了。 实验数据显示,传统的预填充和解码分开干的架构有问题。干填充的那一端经常把网卡带宽挤爆,导致解码那边的带宽闲着没用,两边资源不匹配,效率就低下来了。 这个DualPath的架构挺巧妙的,由三个东西一起干活。推理引擎专门管填充和计算这两个活儿,每块GPU都有自己专属的引擎;流量管理器专门负责在设备之间搬数据;中央调度器则是大脑,看谁忙、谁有空,再把任务智能分配过去。这样既把专业的活儿干好了,又能让资源用得更满。 为了防止两条路同时走的时候打架,研究团队想了两个办法。硬件方面让所有数据都得走GPUDirect RDMA这条路,并且通过虚拟层技术给推理通信留出99%的带宽优先级;软件方面让调度器一直盯着磁盘队列长度和Token处理情况,优先把任务分给那些磁盘压力小、计算任务少的节点。 这个研究的负责人是吴永彤,他现在在DeepSeek搞系统开发。这段一边上学一边搞产业的经历让他特别清楚系统优化的痛点和规模化部署的难处。