问题:算力规模快速扩张,互联系统成为效率“闸门” 当前,算力基础设施建设从“拼算力”走向“拼系统”。
当集群规模由万卡向十万卡跃升,决定训练与推理效率的不仅是芯片性能,更取决于如何把数以万计的加速卡高效连接与协同调度。
业内人士指出,集群规模越大,通信开销越突出;一旦网络出现拥塞、抖动或故障,整体利用率将被显著拉低,甚至影响任务稳定性与交付周期。
在此背景下,“网络可靠性与可扩展性”被视作下一阶段集群建设的核心指标之一。
原因:从“纵向堆叠”到“横向互联”,网络压力呈倍增趋势 大规模集群通常包含两层扩展路径:一是纵向扩展,即在单机或单机柜内集成更多加速卡,通过高速互联形成更强的计算节点;二是横向扩展,即将大量节点通过数据中心高速网络连成更大集群。
近年来,围绕“超节点”卡数的竞争不断升温,背后既有技术演进的推动,也有现实约束下的工程选择:在制造工艺和单芯片性能提升节奏存在差异的情况下,通过增加节点内卡数提升总体算力,成为部分厂商的可行路线。
与此同时,节点内卡数越多,节点间同步与参数交换越频繁,对横向网络提出更高带宽与更低时延要求,网络端口数量与链路规模随之快速增长。
影响:高速网络用量显著提升,产业链短板与供给约束更受关注 随着集群训练的通信密度提升,高性能网络从“配套设施”转为“关键底座”。
企业端反馈显示,与传统数据中心相比,面向大规模训练场景的高速网络部署量出现数量级增长,端口增量尤为明显。
这既带动交换机、网卡、线缆与管理软件等环节需求扩张,也放大了高性能网络核心技术与关键器件的供给约束风险。
在技术路径上,支撑高效横向扩展的关键之一是RDMA(远程直接内存访问),其通过绕开传统CPU与操作系统数据搬运路径,降低通信时延,对大模型训练的并行效率与收敛速度具有直接影响。
当前业界主要有两条实现路线:其一是原生支持RDMA的InfiniBand,在高性能计算与大规模训练中长期被视作高性能网络标杆;其二是RoCE,即在以太网上实现RDMA能力,成本与生态开放性更突出,但要实现接近“无损网络”的效果,往往需要更复杂的工程调优与网络治理能力。
现实层面,InfiniBand相关关键供应长期高度集中,使得国内在高端算力集群建设中面临一定的外部不确定性。
对策:自研高速互联方案加速落地,补齐“互联短板”并强化可靠性 针对上述痛点,中科曙光近期发布高速网络方案ScaleFabric,瞄准的正是横向扩展环节的高性能互联需求。
企业方面表示,超大规模集群能否实现效率随规模线性扩展,核心在于互联系统的能力边界与工程可靠性。
与更多厂商倾向以RoCE为主的路线不同,该方案强调借鉴InfiniBand技术理念,结合高性能计算领域经验,提升网络低时延、可扩展与稳定运行能力,尝试补上国内产业链在高性能网络环节的长期短板。
从产业发展角度看,推动自研互联方案,一方面有助于形成与计算节点协同优化的系统能力,减少“算力强、网络弱”导致的资源浪费;另一方面也有利于在关键环节形成可持续供给与技术迭代,提升面对复杂国际环境时的韧性与安全边界。
前景:竞争将从“算力峰值”转向“系统效率”,生态与标准协同成胜负手 可以预见,面向十万卡级集群,行业竞争焦点将更强调系统工程:包括网络协议栈、交换架构、拥塞控制、运维可观测性、故障隔离与自动化恢复等综合能力。
谁能在稳定性、规模扩展效率与生态兼容之间取得更优平衡,谁就更有可能在下一轮算力基础设施建设中占据主动。
与此同时,开放生态与标准化也将成为关键变量——只有在软硬件适配、应用迁移与跨厂商互通方面形成合力,高性能网络的规模化推广才能真正落地见效。
高速网络互联能力的竞争反映了AI产业发展的深层逻辑——当单一芯片性能的竞争日益白热化时,系统级的协同效率成为新的决胜点。
中科曙光等国内厂商在这一领域的探索,不仅是对产业链缺失环节的补齐,更是对国产AI基础设施自主可控的务实推进。
随着相关技术的不断成熟和应用的深化,自研高速网络方案有望成为国内大规模算力集群建设的重要支撑,进而推动整个产业向更加独立自主的方向发展。
这一转变虽然面临技术积累和市场认可的双重考验,但对于维护产业链安全、实现技术自立自强的意义深远。