华为搞了个突破，直接把moe 模型的显存占用给砍了一半

这两天大家都在聊大模型，参数量都快上万亿了，这就让混合专家（MoE）架构变得特别火，毕竟它能在保模型容量的同时提升效率。华为这次在昇腾平台上搞了个突破，直接把MoE模型的显存占用给砍了一半。这事是南京大学李猛博士他们干的，他们和南大的鲲鹏昇腾科教创新孵化中心一起做的。这个团队在硬件特性和CANN软件栈的基础上，弄了个叫MoE-Ascend的异构推理加速引擎。这个引擎不光能管好专家的路由，还能提前把参数预取过来，特别聪明。李猛团队用了三级流水线架构，把CPU的计算和GPU的并行推理深度重叠在一起，让数据不用来回跑。他们还根据专家的等价性把专家分成了高、中、低分的几类，优先把核心的专家存起来，这样就能减少很多不必要的传输和占用。更绝的是他们弄了个共享专家引导的预取机制，不需要离线训练也能猜到后面要用哪些专家。还有个双指针动态负载均衡算法，能根据任务的大小自动把CPU和GPU的算力分配好。有了这些技术的加持，显存缓存的命中率直接冲到了70%以上，速度也比同类方案快了一倍多。这套工具链最后会开源到昇腾社区、DeepModeling社区还有GitHub上，让大家都能用。以后咱们做AI推理平台、智能客服或者语音生成的时候，就可以直接用这个来优化了。这个项目主要就是想解决大模型在边缘侧部署时的卡顿问题，为咱们国家的自主NPU，比如昇腾，提供更好的支持。