深圳点亮全国首个全栈自主可控万卡级智算集群 夯实国产大模型算力底座

(问题)当前,人工智能技术迭代加速,大模型从研发走向规模化应用,智能体等新形态不断涌现,带动训练与推理算力需求快速增长。此外,算力底座的安全可控、供给成本、能耗约束以及供需匹配效率,正成为影响产业发展的关键因素。如何确保安全可靠的前提下,持续提供高质量、可扩展、可运营的算力供给,成为各地布局人工智能产业必须面对的现实课题。 (原因)深圳依托电子信息产业基础和创新生态,持续完善人工智能软硬件体系建设。此次点亮的11000P智能算力集群,与去年先期投入运行的3000P算力共同构成14000P规模,标志着深圳在构建自主可控算力底座上取得阶段性进展。据介绍,该集群为全国首个万卡级、全栈自主可控智算集群,全部采用国产先进芯片,并形成“昇腾+CANN”软硬件生态,旨从底层增强关键技术的自主供给能力,提升算力基础设施对国产大模型的适配与支撑水平。项目同步推进节能与运维优化,通过自然冷源利用、智算设备全液冷、一体化电源等方案,并结合机房能耗调优,提升能效比、降低长期运营成本。 (影响)从运行表现看,项目在稳定性与训练效率上传递出积极信号。一期3000P集群实测智算设备天平均故障率为0.3‰,有助于提升持续训练与生产业务的稳定性;训练效率方面,大模型训练线性度达到93.12%,对提高算力利用率、缩短研发周期具有直接意义。更重要的是,万卡级集群落地,使深圳承接大模型研发、行业应用落地和生态培育上具备更扎实的基础能力,有利于促进算法、芯片、框架、工具链与应用场景协同迭代,带动产业链关键环节形成正向循环。 (对策)运营层面,项目以市场化方式提升资源配置效率。集群投入使用后,受到本地人工智能与机器人企业广泛关注,一期算力资源实现快速消纳;围绕二阶段算力供给,近50家企业、高校及科研机构已签署算力合作框架协议,两期项目整体去化率达92%。这种“需求牵引、头部带动、生态协同”的路径,有助于在算力扩张的同时保持较高利用率,降低闲置风险,并推动行业用户在真实业务中检验软硬件生态的成熟度。面向不断增长的训推一体需求,运营单位表示将加快资源统筹与扩容,完善多算力综合纳管平台,推进优质语料数据汇聚与运营,以“算力一张网、统筹一体化、调度一站式”提升供给效率与服务能力。 深圳在加快重大训推基础设施建设的同时,也通过政策工具降低企业创新成本,持续加大“算力券”“训力券”支持力度,惠及人工智能和机器人等企业。企业反馈显示,对应的支持在降低研发成本、提升实验效率上效果明显。业内人士建议,后续可优化政策适配性、加强边缘侧算力与高速网络协同各上持续推进,打通“算力—网络—数据”链路闭环,更好支撑机器人等终端应用向家庭和更广泛场景延伸。 (前景)从更大范围看,万卡级全栈自主可控智算集群的点亮,不仅是基础设施的扩容升级,也是一项面向新一轮科技与产业变革的系统布局。随着全国一体化算力网络建设加快,算力将从“资源供给”继续走向“公共能力”,并在制造、金融、政务、医疗、教育、城市治理等领域释放乘数效应。未来,随着国产软硬件生态持续完善、运维与能效优化、数据要素流通与合规体系更趋健全,算力底座有望降低大模型训练门槛,推动更多行业形成可复制、可推广的应用范式,使人工智能更高水平服务实体经济与社会治理现代化。

从芯片到系统、从硬件到软件,深圳万卡级智算集群的建设实践表明,自主创新有能力在关键环节实现突破。在全球科技竞争加速的背景下,这种以应用牵引创新、以生态促进发展的路径,为我国提升科技自立自强水平提供了可参考的经验。随着更多城市加入自主可控算力建设行列,中国人工智能产业有望打开更广阔的发展空间。