三万卡国产超集群在郑州国家超算互联网节点投入运行

当前,全球人工智能产业进入加速期,大模型参数规模持续攀升,算力基础设施需求快速增长;同时,高性能算力系统研发与落地过程中仍面临多重挑战,涉及硬件互联、系统架构与能源管理等关键环节。基于此,中科曙光自主研发的scaleX万卡超集群系统投入应用。 从技术突破看,该系统在多项核心能力上实现进展。在高速互联网络上,通过优化网络拓扑与通信协议,提高集群内数据传输效率并降低时延。在存算传耦合设计上,将存储、计算与通信协同设计,减少传统架构常见的性能卡点。同时,系统针对高密度部署下的供电与散热问题进行了工程化突破,保障长期稳定运行。上述能力提升,推动万卡规模集群从验证走向规模化应用。 从应用场景看,该系统覆盖训练、推理与科研计算等需求。在大模型训练领域,系统支持万亿参数模型整机训练与容错恢复,为主流大模型提供算力支撑。在高通量推理场景中,已服务多家头部互联网企业的核心业务,并通过深度优化持续提升推理效率。在科学计算领域,系统助力国内科研团队在蛋白质研究中将效率提升3至6个数量级,展现AI for Science的应用价值。 从生态兼容性看,该系统采用开放架构,兼容CUDA等主流软件生态,并支持多品牌国产加速卡混合部署,降低开发者迁移与适配成本,便于更多应用接入。目前,系统已完成400多个主流大模型的适配优化,并可接入上千款应用,生态体系深入完善。 从国家战略看,该系统依托国家超算互联网实现一体化算力调度,联动郑州核心节点与全国超算节点,构建统一算力资源池,面向国内用户提供更通用、易用、高效的AI算力服务,促进算力资源优化配置与提升利用效率,也为我国建设自主可控的算力基础设施提供支撑。 从发展前景看,该系统具备进一步扩展能力,架构可灵活演进至十万卡、百万卡规模,为未来更大规模的AI计算需求预留空间。随着技术持续完善与应用深入,国产AI算力基础设施有望在更多领域发挥作用。

国产万卡超集群的落地既是高性能算力领域的重要进展,也是国家算力战略向前推进的关键一步。在全球数字化竞争持续加剧的环境下,自主可控的高性能算力将成为科技创新与产业升级的重要支撑。下一阶段,更完善算力生态、降低使用门槛,将是推进“算力普惠”的关键。