从“缺芯”到“缺网”：万卡智算集群扩张下，高速互联成算力利用率新门槛

问题——从“缺芯少卡”到“协同受限”，新瓶颈浮出水面过去一段时间，算力基础设施建设的主要矛盾集中在高端芯片与加速卡供给紧张，行业普遍围绕单卡性能与规模采购展开布局；随着各地智算中心、算力平台加快建设，万卡级集群逐步从规划走向落地，新的约束因素随之显现：当集群规模迈向更高量级，决定训练效率与算力利用率的，不再仅是单卡性能与数量，而是跨节点、跨机柜的高速互联网络能力。工信部数据显示，国内已建成万卡级智算集群42个，智能算力规模超过1590 EFLOPS。业内认为，在大模型训练等场景中，集群规模越大，参数同步、梯度通信等数据交换越频繁；若网络带宽、时延与拥塞控制能力不足，算力将难以“跑满”，甚至出现“卡多不等于快”的现象。原因——大规模并行训练对网络提出更高要求，关键环节长期依赖高端方案业内分析指出，万卡协同的本质是“计算—通信”协同优化。大模型训练普遍采用数据并行、张量并行、流水并行等策略，通信开销在总训练时间中的占比会随规模扩大而上升，网络一旦出现拥塞、丢包或时延抖动，整体效率会被显著拉低。同时，高速互联网络不仅是交换机端口速率的堆叠，还涉及端到端无损传输、RDMA能力、拥塞控制算法、网络操作系统与调度等系统工程。业内认为，此领域技术门槛高、生态粘性强，部分关键能力长期由国际头部厂商及其软硬件体系占据优势，客观上增加了超大规模集群在建设、运维和持续扩容中的不确定性。影响——关系算力“有效供给”，也关系产业安全与成本结构网络瓶颈首先影响的是算力“有效供给”。同样的装机规模，如果通信效率偏低，训练迭代速度与资源利用率会下降，等价于以更高资本开支换取更低产出，进而推高单位算力成本与模型训练成本。其次，网络互联能力将影响产业链协同与技术路线选择。若高端互联方案受限，部分场景可能被迫缩小并行规模、调整模型结构或延长训练周期，影响应用落地节奏。第三，网络作为“系统底座”，其自主可控水平关系到智算中心稳定运行与持续演进能力。业内认为，算力基础设施已成为数字经济的关键基础设施之一，软硬件体系的可替代性、可验证性与可持续供给能力，将在更长周期内影响产业竞争力。对策——以系统工程思维补齐短板，推进“算—网—存—调”一体化优化多位业内人士建议，提升万卡协同效率，需要从“建卡”转向“建体系”，推动计算、网络、存储与调度的协同设计。一是加快关键网络技术攻关和工程化落地，围绕400G/800G互联、原生无损传输、RDMA能力、拥塞控制与故障快速收敛等方向形成可规模部署的产品与方案。近期，国产全栈自研的400G原生无损RDMA网络方案发布，被业内视为补齐万卡协同关键拼图的积极进展。二是强化标准与验证体系建设。通过建立面向大规模训练的网络压测、可靠性评估与互操作测试，推动不同厂商设备与软件栈的兼容，降低集群扩容与运维复杂度。三是推动产业生态协同。鼓励芯片、服务器、交换机、网卡、系统软件与框架厂商联合优化，通过软硬件协同提升端到端性能，减少“堆硬件、低效率”的结构性浪费。四是完善算力调度与资源管理能力。面向多租户、多任务并发场景，加强网络感知的调度策略与作业编排能力，提升资源利用率与服务稳定性。前景——从规模扩张迈向效率竞争，网络能力或成智算中心核心指标业内判断，未来智算中心竞争将从“算力规模”逐步转向“综合效率”，网络能力有望成为与能效、可靠性同等重要的核心指标。随着训练任务更大、并行策略更复杂、集群规模更高，低时延、高带宽、可预测的网络将直接决定算力能否转化为高质量的模型产出。同时，国产高速互联方案若能在性能、稳定性与生态适配上实现持续突破，将有助于提升我国算力基础设施的韧性与自主可控水平，并带动涉及的产业链在交换芯片、光模块、网卡及系统软件等领域的迭代升级。业内预计，在政策引导与市场需求双重驱动下，“算—网—存—调”协同优化将成为下一阶段智算中心建设的重要方向。

从单点突破到系统创新，中国算力产业的这次跃迁揭示了一个更直接的事实：关键技术的瓶颈往往不在某一个部件，而在系统协同。当数字经济成为全球竞争焦点，这场围绕算力效能的攻坚，检验的不只是硬件能力，更是体系化创新与工程落地能力。