问题——大模型快速发展对算力提出更高要求。近年来,人工智能大模型训练与推理需求持续增长,推动算力从“单点高性能”转向“集群化、工程化”。随之而来的现实挑战是:复杂工况下如何保持稳定运行、提升软硬件协同效率、降低能耗成本。同时,关键软硬件长期依赖外部供给所带来的不确定性,也促使产业加快推进自主可控与国产化替代。 原因——技术与产业双重驱动催生“深圳样本”。深圳此次发布的万卡级智算集群,以全栈自主可控为突出特征,覆盖底层芯片、整机与集群、互连网络、系统软件、调度与运维等关键环节,表明了以系统工程方法推动国产算力能力提升的路径。一上,算力基础设施正成为数字经济的重要底座,深圳产业链配套、应用场景密集、研发资源集聚诸上具备优势;另一方面,“东数西算”、绿色低碳等战略背景下,数据中心需要在扩容速度与能效约束之间取得平衡,液冷、自然冷源等节能技术也因此加速落地。深圳的探索反映出“以应用牵引迭代、以工程化促成熟”的发展思路。 影响——从单项突破走向体系能力,带动生态完善。根据深圳上披露,该集群可靠性、训练效率与能耗控制等上给出了一组具有对标意义的工程指标,例如较低的日故障率、较高的大模型训练线性度,显示国产软硬件大规模并行训练场景下的协同能力正在增强。其影响主要体现在三上:其一,为国产算力在关键行业的规模化部署提供可复制的工程经验,降低“规模上去就不稳定”的运维风险;其二,液冷等绿色节能方案的应用,为数据中心在能耗约束下实现低PUE运行提供参考路径;其三,面向大模型训练与推理的系统软件、编译优化、调度与容错体系深入完善,有助于扩大开发者与应用生态,推动更多企业在国产平台上进行模型训练、行业微调与应用部署。 对策——以“标准化+开放协同”夯实产业链韧性。业内人士认为,智算中心从“建起来”到“用得好”,关键在于提升全生命周期能力:一是加强关键软硬件适配与验证,围绕算子、编译器、通信库、调度系统等提升,沉淀可复用的工程能力;二是完善绿色数据中心技术体系,建立液冷可靠性验证、能耗计量与运维规范,让节能效果从“实验指标”变为“稳定可用”;三是以开放生态促进创新扩散,通过算力服务、模型服务与数据要素合规流通,降低中小企业使用门槛,扩大应用供给;四是强化安全与韧性建设,完善多级容灾、供应链管理与应急响应机制,提升应对外部不确定性的能力。 前景——国产算力将与应用深度耦合,进入“以用促强”新周期。随着多地加快智算中心布局,算力供给正从“增量扩张”转向“质量竞争”。未来一段时期,竞争重点将更多落在系统级工程能力、能效水平、软件生态成熟度,以及面向行业场景的交付能力上。深圳万卡级全栈自主可控智算集群落地,意味着国产算力正在形成从芯片到平台、从设施到服务的更完整链条。面向制造、金融、政务、医疗、教育等行业,随着更多可落地的模型与应用出现,算力基础设施有望与城市治理、产业升级协同演进,推动人工智能从“能力展示”走向“生产力工具”。
算力之争,本质是体系能力之争;万卡级智算集群的价值不只在规模,更在于能否以稳定、绿色、可持续的方式,把技术能力转化为产业动能。面向新一轮科技革命和产业变革,只有坚持自主创新与开放协同并重、建设与应用并行、规模与效率兼顾,才能让算力真正成为支撑高质量发展的关键底座。