随着大模型从基础生成能力向复杂推理和执行能力演进,产业对算力基础设施提出了更高要求。一方面,模型规模持续扩大,混合专家等架构使训练与调度更加复杂;另一方面,企业生产场景中的推理任务需要更低延迟、更高吞吐和更稳定的系统性能。尤其客服、研发、运维等关键领域引入“代理式”应用后,系统不仅需要高效计算,还需在大规模并发下保持成本可控和工程可追溯性。 该趋势下,仅靠提升单芯片性能已无法满足需求,算力竞争正转向平台化和系统化。英伟达最新发布的Vera Rubin平台,通过整合Vera CPU、Rubin GPU、NVLink 6交换技术、ConnectX-9高速网络接口、BlueField-4数据处理单元及Spectrum-6以太网交换等组件,构建“超级计算机式”数据中心能力。其核心目标是通过计算、网络与数据路径的一体化设计,提升训练与推理效率,同时降低大规模集群的运维复杂度。公司创始人兼CEO黄仁勋称,该平台是一次“代际跃升”,将为AI各阶段提供动力,并认为“代理式”应用正迎来关键拐点。 从技术指标看,平台强调以更少资源完成更高强度任务。例如,Vera Rubin NVL72机架集成72个Rubin GPU和36个Vera CPU,通过高带宽互联与网络组件协同提升效率。相比上一代Blackwell平台,新机架在训练混合专家模型时可用更少GPU完成相同任务,并在推理吞吐、能效和单位成本上实现显著优化。这一改进对云服务商意味着单位电力与空间可承载更多算力;对企业用户而言,推理成本降低将直接减少大模型应用门槛;对开发者来说,更高并发与更短响应时间有助于复杂工作流的产品化和规模化。 平台还强化了CPU能力。基于MGX架构的Vera CPU机架集成256个CPU,采用液冷等高密度设计,适用于大规模调度、数据预处理及代理式系统的高频交互场景。英伟达表示,Vera在效率与速度上优于传统CPU平台,并能与以太网协同减少异构系统的瓶颈与抖动。 此外,英伟达推出面向低延迟推理的LPU机架,优化“训练—推理—交付”链路。LPU提供大容量片上存储与高带宽扩展能力,适用于大上下文、低延迟的代理式推理场景,通过与GPU协作提升解码效率,加快输出速度。多处理器形态的并行发展,反映了大模型落地对确定性、稳定性与成本可控的需求增长,推理基础设施正从通用计算向任务导向加速演进。 产业链反馈显示,平台化升级正推动上层应用迭代。Anthropic负责人指出,企业对复杂推理与关键任务的需求增长,需要更匹配的基础设施保障安全性与可靠性。OpenAI负责人也认为,更强的基础设施将支持更大规模模型与代理运行,提供更快速稳定的服务。这些观点表明,头部模型企业与芯片厂商正加强工程协同,以满足从研发到落地的全链路需求。 面对新一轮算力升级,业内建议从三上着手:一是以系统工程优化替代单点硬件堆叠,实现计算、网络、存储与安全的协同设计;二是针对能耗与散热限制,强化液冷、高密度机架及能效管理;三是完善软硬件适配与运维体系,推动训练、推理的统一调度与可观测性建设,降低大规模部署难度。 长期来看,代理式应用的普及可能带来两大变化:一是推理需求增速或超过训练,行业竞争将聚焦“每瓦吞吐、每token成本、端到端可靠性”;二是数据中心向“工厂化”演进,平台化供给更强调标准化机架与可扩展互联。基于此,Vera Rubin平台的发布不仅是技术迭代,更是对大规模交付能力的战略布局,其成败将取决于生态适配、供应能力及实际场景中的成本回收效率。
从大模型到代理式智能体,产业竞争已从算法转向系统工程与基础设施能力。以Vera Rubin为代表的新一代平台化方案,凸显了计算、网络与数据协同的重要性。能否以更低能耗和成本实现可靠的大规模推理与训练——将决定新应用的潜力——并重塑全球数字产业的竞争格局。