这两天大家都在聊大模型,参数量都快上万亿了,这就让混合专家(MoE)架构变得特别火,毕竟它能在保模型容量的同时提升效率。华为这次在昇腾平台上搞了个突破,直接把MoE模型的显存占用给砍了一半。这事是南京大学李猛博士他们干的,他们和南大的鲲鹏昇腾科教创新孵化中心一起做的。 这个团队在硬件特性和CANN软件栈的基础上,弄了个叫MoE-Ascend的异构推理加速引擎。这个引擎不光能管好专家的路由,还能提前把参数预取过来,特别聪明。李猛团队用了三级流水线架构,把CPU的计算和GPU的并行推理深度重叠在一起,让数据不用来回跑。他们还根据专家的等价性把专家分成了高、中、低分的几类,优先把核心的专家存起来,这样就能减少很多不必要的传输和占用。 更绝的是他们弄了个共享专家引导的预取机制,不需要离线训练也能猜到后面要用哪些专家。还有个双指针动态负载均衡算法,能根据任务的大小自动把CPU和GPU的算力分配好。有了这些技术的加持,显存缓存的命中率直接冲到了70%以上,速度也比同类方案快了一倍多。 这套工具链最后会开源到昇腾社区、DeepModeling社区还有GitHub上,让大家都能用。以后咱们做AI推理平台、智能客服或者语音生成的时候,就可以直接用这个来优化了。这个项目主要就是想解决大模型在边缘侧部署时的卡顿问题,为咱们国家的自主NPU,比如昇腾,提供更好的支持。