南京大学的李猛博士和他的团队,通过南京大学鲲鹏昇腾科教创新孵化中心提供的算力支持,把华为昇腾人工智能计算平台当成他们攻关的“试验田”。他们没有光在软件层面优化,而是把注意力放到了混合专家模型(MoE)和昇腾芯片底层特性的协同上。 大家都知道,大语言模型越来越大,动不动就有上千亿甚至上万亿的参数量,普通硬件根本吃不消。这种混合专家模型虽然能在容量和效率之间找平衡,但因为显存占用太高,必须频繁在内存和显存之间来回搬运数据,推理延迟特别严重。为了打破这个僵局,团队拿出了一个硬家伙——MoE-Ascend推理加速引擎。 这套系统用了四种硬核技术: 一是设计了一个三层流水线的并行架构。它把参数加载、CPU的计算和GPU或者NPU的推理这些环节巧妙地重叠起来,大大缓解了数据传输的带宽压力。 二是打破了传统的静态路由方式。研究人员给专家分了类:高重要性、中等重要性和可以替代的低重要性。系统优先把核心的高重要性专家留在显存里,要是遇到低重要性的没加载,就直接用等价的专家顶上。 三是搞出了一个共享专家引导的预取机制。这种预取不需要依赖耗时的离线训练,而是直接在推理过程中就能实时预测下一步需要什么参数,并提前加载好。 四是开发了一种双指针动态负载均衡算法。它能根据任务的大小和特性,智能地把工作分配给不同的计算单元,避免小批量任务时出现的等待或延迟问题。 实测下来效果非常好。在保证精度不变的前提下,这套方案把显存消耗给压低了50%以上,推理速度比以前快了两倍还多,缓存的命中率也达到了70%以上。这不仅让模型跑得更快更稳,还降低了对高端硬件显存的依赖。 为了让更多人受益,团队决定把这次攻关成果做成开源工具链,放到昇腾社区、DeepModeling社区和GitHub上跟大家分享。 这次突破给了我们一个很大的启示:在人工智能发展的新阶段,光靠硬件堆参数是不行的,必须得搞软硬件协同设计。有了MoE-Ascend这个引擎作为技术基座,未来AI云推理、智能客服、智能语音生成这些场景就能跑得更顺畅。它还为人工智能往边缘侧和端侧拓展铺平了道路,展现了咱们国家在关键核心技术自主创新上的实力。