我国超算领域实现新突破 曙光新型架构破解大规模集群可靠性难题

当前,大模型产业的竞争焦点正从单纯追求算力规模转向提升有效算力;实践表明,随着训练参数、数据量及集群规模不断扩大,系统稳定性和可维护性已成为影响训练效率和成本的关键因素。在长周期预训练过程中,一次中断就可能引发任务回滚、检查点重载等若干连锁反应,大幅消耗宝贵的计算时间。

算力规模的扩大凸显了基础设施可靠性的重要性。要在下一阶段竞争中取得优势,关键在于实现从峰值算力到持续有效算力的高效转化。这需要硬件创新与软件优化的联合推进。