英伟达Blackwell Ultra架构能效突破 每兆瓦吞吐量较前代提升50倍

在全球人工智能计算需求持续爆发的背景下,芯片性能与能耗之间的矛盾日益凸显。

据行业分析,当前AI数据中心能耗已占全球电力消耗的2%-3%,且随着大模型应用普及,这一数字仍在快速增长。

如何提升计算能效、降低运营成本,成为制约AI产业可持续发展的关键瓶颈。

英伟达此次发布的Blackwell Ultra架构,通过三大技术突破实现能效飞跃。

首先是创新的多芯片互联方案,采用第五代NVLink技术将72个GPU构建为统一计算单元,互联带宽较前代提升16倍,达130TB/s。

其次是引入NVFP4新型计算精度,在保证计算质量前提下大幅降低能耗。

第三是通过TensorRT-LLM等软件栈优化,使混合专家模型(MoE)的推理效率在四个月内提升5倍。

这些技术创新带来显著经济效益。

测试数据显示,新架构在处理代码维护等长上下文任务时,注意力机制速度翻倍,单次推理电力成本仅为前代的1/35。

OpenRouter市场报告印证了这一进步的现实意义:过去一年中,涉及软件编程的AI查询占比从11%激增至50%,这类应用对实时响应和复杂上下文处理的要求极高。

行业观察人士指出,Blackwell Ultra的推出将产生多重影响。

从产业层面看,AI服务商的运营成本压力将得到缓解,有助于推动AI应用商业化进程。

技术层面则可能重塑行业竞争格局,目前英伟达在AI加速芯片市场的占有率已超过90%,此次技术迭代将进一步巩固其领先地位。

据悉,该公司下一代Rubin平台研发已启动,目标是将能效比再提升10倍。

面对全球算力竞赛的持续升温,中国工程院院士李明认为:"芯片能效提升不应仅是单一指标的突破,更需要构建从硬件架构到软件生态的协同创新体系。

"值得注意的是,在英伟达公布新技术路线图的同时,国内外多家企业也加大了在存算一体、光子计算等新型架构的研发投入,预示着行业将步入多元技术路径并行的新阶段。

大模型产业的下一阶段竞争,本质上是“算力质量”与“规模化交付能力”的竞争。

能效提升与成本下降不仅关乎技术指标,更将决定应用创新的边界与产业扩张的速度。

面对快速迭代的硬件路线与不断变化的业务负载,只有把系统工程、软件优化与场景落地紧密结合,才能在新一轮算力变革中把“指标优势”转化为可持续的产业动能。