问题——从“缺芯少卡”到“协同受限”,新瓶颈浮出水面 过去一段时间,算力基础设施建设的主要矛盾集中在高端芯片与加速卡供给紧张,行业普遍围绕单卡性能与规模采购展开布局;随着各地智算中心、算力平台加快建设,万卡级集群逐步从规划走向落地,新的约束因素随之显现:当集群规模迈向更高量级,决定训练效率与算力利用率的,不再仅是单卡性能与数量,而是跨节点、跨机柜的高速互联网络能力。 工信部数据显示,国内已建成万卡级智算集群42个,智能算力规模超过1590 EFLOPS。业内认为,在大模型训练等场景中,集群规模越大,参数同步、梯度通信等数据交换越频繁;若网络带宽、时延与拥塞控制能力不足,算力将难以“跑满”,甚至出现“卡多不等于快”的现象。 原因——大规模并行训练对网络提出更高要求,关键环节长期依赖高端方案 业内分析指出,万卡协同的本质是“计算—通信”协同优化。大模型训练普遍采用数据并行、张量并行、流水并行等策略,通信开销在总训练时间中的占比会随规模扩大而上升,网络一旦出现拥塞、丢包或时延抖动,整体效率会被显著拉低。 同时,高速互联网络不仅是交换机端口速率的堆叠,还涉及端到端无损传输、RDMA能力、拥塞控制算法、网络操作系统与调度等系统工程。业内认为,此领域技术门槛高、生态粘性强,部分关键能力长期由国际头部厂商及其软硬件体系占据优势,客观上增加了超大规模集群在建设、运维和持续扩容中的不确定性。 影响——关系算力“有效供给”,也关系产业安全与成本结构 网络瓶颈首先影响的是算力“有效供给”。同样的装机规模,如果通信效率偏低,训练迭代速度与资源利用率会下降,等价于以更高资本开支换取更低产出,进而推高单位算力成本与模型训练成本。 其次,网络互联能力将影响产业链协同与技术路线选择。若高端互联方案受限,部分场景可能被迫缩小并行规模、调整模型结构或延长训练周期,影响应用落地节奏。 第三,网络作为“系统底座”,其自主可控水平关系到智算中心稳定运行与持续演进能力。业内认为,算力基础设施已成为数字经济的关键基础设施之一,软硬件体系的可替代性、可验证性与可持续供给能力,将在更长周期内影响产业竞争力。 对策——以系统工程思维补齐短板,推进“算—网—存—调”一体化优化 多位业内人士建议,提升万卡协同效率,需要从“建卡”转向“建体系”,推动计算、网络、存储与调度的协同设计。 一是加快关键网络技术攻关和工程化落地,围绕400G/800G互联、原生无损传输、RDMA能力、拥塞控制与故障快速收敛等方向形成可规模部署的产品与方案。近期,国产全栈自研的400G原生无损RDMA网络方案发布,被业内视为补齐万卡协同关键拼图的积极进展。 二是强化标准与验证体系建设。通过建立面向大规模训练的网络压测、可靠性评估与互操作测试,推动不同厂商设备与软件栈的兼容,降低集群扩容与运维复杂度。 三是推动产业生态协同。鼓励芯片、服务器、交换机、网卡、系统软件与框架厂商联合优化,通过软硬件协同提升端到端性能,减少“堆硬件、低效率”的结构性浪费。 四是完善算力调度与资源管理能力。面向多租户、多任务并发场景,加强网络感知的调度策略与作业编排能力,提升资源利用率与服务稳定性。 前景——从规模扩张迈向效率竞争,网络能力或成智算中心核心指标 业内判断,未来智算中心竞争将从“算力规模”逐步转向“综合效率”,网络能力有望成为与能效、可靠性同等重要的核心指标。随着训练任务更大、并行策略更复杂、集群规模更高,低时延、高带宽、可预测的网络将直接决定算力能否转化为高质量的模型产出。 同时,国产高速互联方案若能在性能、稳定性与生态适配上实现持续突破,将有助于提升我国算力基础设施的韧性与自主可控水平,并带动涉及的产业链在交换芯片、光模块、网卡及系统软件等领域的迭代升级。业内预计,在政策引导与市场需求双重驱动下,“算—网—存—调”协同优化将成为下一阶段智算中心建设的重要方向。
从单点突破到系统创新,中国算力产业的这次跃迁揭示了一个更直接的事实:关键技术的瓶颈往往不在某一个部件,而在系统协同。当数字经济成为全球竞争焦点,这场围绕算力效能的攻坚,检验的不只是硬件能力,更是体系化创新与工程落地能力。