三万卡国产超集群在郑州国家超算互联网节点投入运行

当前，全球人工智能产业进入加速期，大模型参数规模持续攀升，算力基础设施需求快速增长；同时，高性能算力系统研发与落地过程中仍面临多重挑战，涉及硬件互联、系统架构与能源管理等关键环节。基于此，中科曙光自主研发的scaleX万卡超集群系统投入应用。从技术突破看，该系统在多项核心能力上实现进展。在高速互联网络上，通过优化网络拓扑与通信协议，提高集群内数据传输效率并降低时延。在存算传耦合设计上，将存储、计算与通信协同设计，减少传统架构常见的性能卡点。同时，系统针对高密度部署下的供电与散热问题进行了工程化突破，保障长期稳定运行。上述能力提升，推动万卡规模集群从验证走向规模化应用。从应用场景看，该系统覆盖训练、推理与科研计算等需求。在大模型训练领域，系统支持万亿参数模型整机训练与容错恢复，为主流大模型提供算力支撑。在高通量推理场景中，已服务多家头部互联网企业的核心业务，并通过深度优化持续提升推理效率。在科学计算领域，系统助力国内科研团队在蛋白质研究中将效率提升3至6个数量级，展现AI for Science的应用价值。从生态兼容性看，该系统采用开放架构，兼容CUDA等主流软件生态，并支持多品牌国产加速卡混合部署，降低开发者迁移与适配成本，便于更多应用接入。目前，系统已完成400多个主流大模型的适配优化，并可接入上千款应用，生态体系深入完善。从国家战略看，该系统依托国家超算互联网实现一体化算力调度，联动郑州核心节点与全国超算节点，构建统一算力资源池，面向国内用户提供更通用、易用、高效的AI算力服务，促进算力资源优化配置与提升利用效率，也为我国建设自主可控的算力基础设施提供支撑。从发展前景看，该系统具备进一步扩展能力，架构可灵活演进至十万卡、百万卡规模，为未来更大规模的AI计算需求预留空间。随着技术持续完善与应用深入，国产AI算力基础设施有望在更多领域发挥作用。

国产万卡超集群的落地既是高性能算力领域的重要进展，也是国家算力战略向前推进的关键一步。在全球数字化竞争持续加剧的环境下，自主可控的高性能算力将成为科技创新与产业升级的重要支撑。下一阶段，更完善算力生态、降低使用门槛，将是推进“算力普惠”的关键。