摩尔线程发布花港架构双芯片 国产GPU技术实现重大突破

问题——随着大模型训练、行业智能化与图形内容生产加速融合,算力需求呈现两条并行上升曲线:一方面,训练与推理从“分工”走向“协同”,对通用计算、张量计算、内存带宽与高速互联提出更高要求;另一方面,游戏、数字孪生、工业设计与视效制作等场景对实时渲染、光线追踪与能效比的要求不断提高。

算力供给如何在“规模化”“高效率”“可用性”之间取得平衡,成为产业链关注的关键。

原因——需求变化的背后,是应用侧对“更低成本、更快迭代、更高质量”的一致诉求:训练侧希望通过混合精度、算子优化与互联扩展降低单位算力成本;推理侧强调吞吐与时延,要求在不同精度与不同模型结构下保持稳定性能;渲染侧则在内容制作周期缩短、互动式体验兴起的推动下,迫切需要硬件级光追与更加智能的渲染流水线。

同时,软件栈的成熟度决定了硬件能力能否被开发者真正用起来,生态竞争正从“单点性能”延伸到“软硬协同、工具链与开发体验”。

影响——本次发布的“花港”架构及两款芯片,体现了企业在“AI计算”与“图形计算”两条主航道上的分工布局与协同思路。

面向AI训练与推理一体化的“华山”芯片,在浮点算力、访存带宽与容量、以及片间互联带宽等方面作出强化,并引入异步编程相关能力,意在提升并行执行与线程协作效率。

在计算单元上,“华山”配备新一代张量计算引擎,覆盖TF32、FP16、INT8等矩阵运算能力,并通过混合低精度计算等技术路线指向大模型训练常用的低精度场景;在系统扩展上,其面向更大规模集群的互联与以太协议适配能力,被用于支撑“超十万卡级”AI工厂的规模化构想。

若上述能力在工程落地中实现稳定可用,将有助于提升国产算力集群在训练与推理融合任务中的供给弹性。

“庐山”芯片则把重点放在高性能图形渲染。

依托新一代指令集,“庐山”提出算力密度提升与能效强化,并配置生成式渲染架构、光追硬件加速引擎以及对主流图形接口的支持,同时提供与多类着色器互联的AI计算加速路径,强调任务分配与同步优化。

对内容生产和实时可视化场景而言,渲染链路的效率提升往往直接对应更短的制作周期、更高的画面复杂度上限以及更稳定的交互体验。

与此同时,“花港”架构中的光线追踪硬件加速引擎也给出了相对明确的性能增幅指标,释放出企业在图形计算领域持续投入的信号。

对策——从产业推进角度看,硬件发布只是第一步,关键在于“软件可用、生态可扩、场景可落地”。

此次同步升级MUSA 5.0全栈软件,指向的正是开发者工具链与全栈适配能力。

面向大模型训练推理,建议在算子库覆盖、编译器与并行策略优化、分布式通信与容错机制等方面继续强化,并围绕典型行业模型与工作负载建立可复现的性能与稳定性基准;面向图形渲染,则需要在驱动与图形接口兼容、内容工具链适配、以及与引擎厂商和开发者社区的联动上加快进度。

对用户侧而言,选型不再仅看峰值算力,更看“可部署、可运维、可迁移、可持续升级”的综合能力。

前景——在智能化转型持续深化、算力基础设施加快建设的背景下,国产算力企业围绕训练推理一体化、低精度混合计算、以及规模化互联等方向的探索,有望为更多行业提供多样化选择。

与此同时,图形计算与生成式技术的融合趋势正在形成新需求:从AIGC辅助制作到实时渲染与数字内容资产生产,渲染与AI计算的边界不断交汇。

值得关注的是,摩尔线程表示搭载“华山”和“庐山”的全新硬件产品将于明年亮相。

届时产品在量产节奏、软件生态成熟度、以及在典型场景中的稳定性与成本表现,将成为外界评估其竞争力的重要观察点。

此次芯片技术的突破不仅体现了我国科技企业的创新实力,更为关键领域核心技术自主可控提供了新的解决方案。

在全球数字化进程加速的今天,持续加强基础研发投入、完善产业生态建设,将成为推动国产芯片实现从追赶到引领的关键所在。

未来,随着更多创新成果的落地应用,中国芯片产业有望在全球价值链中占据更加重要的位置。