深圳点亮全国首个全栈自主可控万卡级智算集群夯实国产大模型算力底座

（问题）当前，人工智能技术迭代加速，大模型从研发走向规模化应用，智能体等新形态不断涌现，带动训练与推理算力需求快速增长。此外，算力底座的安全可控、供给成本、能耗约束以及供需匹配效率，正成为影响产业发展的关键因素。如何确保安全可靠的前提下，持续提供高质量、可扩展、可运营的算力供给，成为各地布局人工智能产业必须面对的现实课题。（原因）深圳依托电子信息产业基础和创新生态，持续完善人工智能软硬件体系建设。此次点亮的11000P智能算力集群，与去年先期投入运行的3000P算力共同构成14000P规模，标志着深圳在构建自主可控算力底座上取得阶段性进展。据介绍，该集群为全国首个万卡级、全栈自主可控智算集群，全部采用国产先进芯片，并形成“昇腾+CANN”软硬件生态，旨从底层增强关键技术的自主供给能力，提升算力基础设施对国产大模型的适配与支撑水平。项目同步推进节能与运维优化，通过自然冷源利用、智算设备全液冷、一体化电源等方案，并结合机房能耗调优，提升能效比、降低长期运营成本。（影响）从运行表现看，项目在稳定性与训练效率上传递出积极信号。一期3000P集群实测智算设备天平均故障率为0.3‰，有助于提升持续训练与生产业务的稳定性；训练效率方面，大模型训练线性度达到93.12%，对提高算力利用率、缩短研发周期具有直接意义。更重要的是，万卡级集群落地，使深圳承接大模型研发、行业应用落地和生态培育上具备更扎实的基础能力，有利于促进算法、芯片、框架、工具链与应用场景协同迭代，带动产业链关键环节形成正向循环。（对策）运营层面，项目以市场化方式提升资源配置效率。集群投入使用后，受到本地人工智能与机器人企业广泛关注，一期算力资源实现快速消纳；围绕二阶段算力供给，近50家企业、高校及科研机构已签署算力合作框架协议，两期项目整体去化率达92%。这种“需求牵引、头部带动、生态协同”的路径，有助于在算力扩张的同时保持较高利用率，降低闲置风险，并推动行业用户在真实业务中检验软硬件生态的成熟度。面向不断增长的训推一体需求，运营单位表示将加快资源统筹与扩容，完善多算力综合纳管平台，推进优质语料数据汇聚与运营，以“算力一张网、统筹一体化、调度一站式”提升供给效率与服务能力。深圳在加快重大训推基础设施建设的同时，也通过政策工具降低企业创新成本，持续加大“算力券”“训力券”支持力度，惠及人工智能和机器人等企业。企业反馈显示，对应的支持在降低研发成本、提升实验效率上效果明显。业内人士建议，后续可优化政策适配性、加强边缘侧算力与高速网络协同各上持续推进，打通“算力—网络—数据”链路闭环，更好支撑机器人等终端应用向家庭和更广泛场景延伸。（前景）从更大范围看，万卡级全栈自主可控智算集群的点亮，不仅是基础设施的扩容升级，也是一项面向新一轮科技与产业变革的系统布局。随着全国一体化算力网络建设加快，算力将从“资源供给”继续走向“公共能力”，并在制造、金融、政务、医疗、教育、城市治理等领域释放乘数效应。未来，随着国产软硬件生态持续完善、运维与能效优化、数据要素流通与合规体系更趋健全，算力底座有望降低大模型训练门槛，推动更多行业形成可复制、可推广的应用范式，使人工智能更高水平服务实体经济与社会治理现代化。

从芯片到系统、从硬件到软件，深圳万卡级智算集群的建设实践表明，自主创新有能力在关键环节实现突破。在全球科技竞争加速的背景下，这种以应用牵引创新、以生态促进发展的路径，为我国提升科技自立自强水平提供了可参考的经验。随着更多城市加入自主可控算力建设行列，中国人工智能产业有望打开更广阔的发展空间。

深圳点亮全国首个全栈自主可控万卡级智算集群 夯实国产大模型算力底座

深圳点亮全国首个全栈自主可控万卡级智算集群夯实国产大模型算力底座