华为在3月20日的中国合作伙伴大会上,举办了昇腾AI合作伙伴峰会,展示了新款Atlas 350技术型AI加速卡。这家OEM厂商把Atlas 350加速卡设计成专门用来跑AI和机器学习任务的产品。作为动力核心,华为给它配上了自家的Ascend 950PR芯片组。这款AI半导体是昇腾950系列的一部分,主要负责做预填充分推理与推荐任务。早在去年9月,它就作为华为未来三年AI半导体路线图的一部分亮相了,如今终于正式量产。性能上,Ascend 950PR比美国制造的英伟达H20芯片强了近2.87倍。它能跑到1.56 PFLOPS的算力,内存带宽高达1.4TB/s,热设计功耗(TDP)是600W,差不多是英伟达H20的1.5倍。除了性能猛增,它还成为国内唯一支持FP4低精度推理的产品。 作为对比,英伟达H20的HBM容量只有大约9.5GB,而Atlas 350的HBM容量约为11GB,多出了约6%。为了提升小算子的效率,华为把内存访问粒度从512字节降到了128字节。这个改动让小型算子的内存访问效率提高了四倍。这些提升不光是在数字上好看,还实实在在地把多模态吞吐量给推高了60%。这种综合性能与能效远超英伟达H20的表现,被认为是给中国构建自主AI生态系统打下了更坚实的基础。