英伟达推出新一代计算平台 大幅降低AI算力成本引发行业变革

近两年,大模型从"可用"阶段进入"规模化应用"阶段,产业界普遍面临三大挑战:首先,推理调用量激增,虽然单次交互成本低,但高并发场景下总成本显著上升;其次,智能体应用需要更长的上下文支持和更强的工具调用能力,对系统的低延迟和稳定吞吐提出更高要求;第三,数据中心能耗和供电问题日益突出,算力增长与能效、成本之间的矛盾加剧。,芯片、互联、软件和存储的系统级升级成为推动产业发展的关键。 英伟达最新发布的Vera Rubin平台正是针对这些挑战的系统性突破。新一代NVL72机架采用NVLink6互联技术,整合72块Rubin GPU和36块Vera CPU,通过更高带宽和更紧密的异构协同提升整体效率。相比上一代Blackwell平台,在混合专家(MoE)大模型训练中,所需GPU数量可减少75%;在推理上,每瓦吞吐量最高提升10倍,显著降低了使用成本。该平台将单Token成本压缩至原来的十分之一,使同等预算下能支持更高频次的交互请求,为规模化服务提供了更经济的解决方案。 智能体应用既要求算力强大,又需要响应稳定。Vera CPU机架的256块液冷CPU设计,运行效率比传统方案提升一倍,速度提高50%,能够更好地支持低延迟、长上下文管理和复杂任务编排。同时,英伟达还发布了面向推理场景的加速机架方案,集成256个专用处理器单元,与Vera Rubin平台协同工作后,每兆瓦推理吞吐量最高可提升35倍。此突破有望推动实时客服、工业巡检、个性化推荐等高并发推理场景的发展。 智能体应用还面临存储和调用的挑战。大模型推理产生的大量键值(KV)缓存给存储和网络带来压力。为此,英伟达推出BlueField-4 STX机架和DOCA Memos框架,优化KV缓存数据的调度管理,最高可提升5倍推理吞吐量并降低能耗。业内人士指出,从GPU到CPU、从互联到存储的全链路优化,有助于将峰值性能转化为持续吞吐能力,这对智能体的生产级应用至关重要。 系统级平台的迭代将加速数据中心升级,带动液冷、供电、机柜等基础设施需求。对云服务商和大型企业来说,下一阶段不仅要获取算力,更要建立模型架构、推理调度和成本控制的一体化能力。中小企业和开发者则能受益于更低的试错成本,推动更多垂直场景的产品化落地。 展望未来,随着大模型从内容生成转向任务执行,智能体对实时性、可靠性的要求将不断提高。算力平台的竞争将从芯片性能扩展到系统工程和生态协同能力。能效与成本仍是规模化应用的关键指标,而工具调用、安全边界等软硬件协同能力将成为行业应用的分水岭。预计未来会出现更多以推理为中心基础设施设计,推动智能体从演示走向实际应用。

智能体时代的关键在于降低成本、提升响应速度和系统可靠性。虽然算力平台的进步为产业带来新机遇,但真正的突破仍取决于对业务需求的精准把握、数据安全的保障以及工程化能力的持续投入。只有当技术红利与管理能力同步提升时,智能体才能从概念演示转化为稳定的生产力。