英伟达推出新一代计算平台大幅降低AI算力成本引发行业变革

近两年，大模型从"可用"阶段进入"规模化应用"阶段，产业界普遍面临三大挑战：首先，推理调用量激增，虽然单次交互成本低，但高并发场景下总成本显著上升；其次，智能体应用需要更长的上下文支持和更强的工具调用能力，对系统的低延迟和稳定吞吐提出更高要求；第三，数据中心能耗和供电问题日益突出，算力增长与能效、成本之间的矛盾加剧。，芯片、互联、软件和存储的系统级升级成为推动产业发展的关键。英伟达最新发布的Vera Rubin平台正是针对这些挑战的系统性突破。新一代NVL72机架采用NVLink6互联技术，整合72块Rubin GPU和36块Vera CPU，通过更高带宽和更紧密的异构协同提升整体效率。相比上一代Blackwell平台，在混合专家（MoE）大模型训练中，所需GPU数量可减少75%；在推理上，每瓦吞吐量最高提升10倍，显著降低了使用成本。该平台将单Token成本压缩至原来的十分之一，使同等预算下能支持更高频次的交互请求，为规模化服务提供了更经济的解决方案。智能体应用既要求算力强大，又需要响应稳定。Vera CPU机架的256块液冷CPU设计，运行效率比传统方案提升一倍，速度提高50%，能够更好地支持低延迟、长上下文管理和复杂任务编排。同时，英伟达还发布了面向推理场景的加速机架方案，集成256个专用处理器单元，与Vera Rubin平台协同工作后，每兆瓦推理吞吐量最高可提升35倍。此突破有望推动实时客服、工业巡检、个性化推荐等高并发推理场景的发展。智能体应用还面临存储和调用的挑战。大模型推理产生的大量键值（KV）缓存给存储和网络带来压力。为此，英伟达推出BlueField-4 STX机架和DOCA Memos框架，优化KV缓存数据的调度管理，最高可提升5倍推理吞吐量并降低能耗。业内人士指出，从GPU到CPU、从互联到存储的全链路优化，有助于将峰值性能转化为持续吞吐能力，这对智能体的生产级应用至关重要。系统级平台的迭代将加速数据中心升级，带动液冷、供电、机柜等基础设施需求。对云服务商和大型企业来说，下一阶段不仅要获取算力，更要建立模型架构、推理调度和成本控制的一体化能力。中小企业和开发者则能受益于更低的试错成本，推动更多垂直场景的产品化落地。展望未来，随着大模型从内容生成转向任务执行，智能体对实时性、可靠性的要求将不断提高。算力平台的竞争将从芯片性能扩展到系统工程和生态协同能力。能效与成本仍是规模化应用的关键指标，而工具调用、安全边界等软硬件协同能力将成为行业应用的分水岭。预计未来会出现更多以推理为中心基础设施设计，推动智能体从演示走向实际应用。

智能体时代的关键在于降低成本、提升响应速度和系统可靠性。虽然算力平台的进步为产业带来新机遇，但真正的突破仍取决于对业务需求的精准把握、数据安全的保障以及工程化能力的持续投入。只有当技术红利与管理能力同步提升时，智能体才能从概念演示转化为稳定的生产力。

英伟达推出新一代计算平台 大幅降低AI算力成本引发行业变革

英伟达推出新一代计算平台大幅降低AI算力成本引发行业变革