问题——算力“升温”带来散热瓶颈。近年大模型参数规模从千亿级迈向万亿级,训练所需算力集群持续扩容,高密度机柜成为常态。业内普遍反映,单机柜功耗已从过去10千瓦级跃升至40千瓦甚至更高,数据中心“热管理”压力明显加大。散热不再只是机房运维的配套环节,而是关系服务器稳定运行、算力释放效率乃至建设投资回报的关键因素。一旦热量不能及时导出,芯片可能触发降频保护,造成性能下降、训练周期拉长,并更推高综合成本。 原因——风冷接近边界、能效约束叠加。传统风冷依靠空气对流带走热量,成本较低、部署方便,低功率密度阶段优势明显。但当机柜功率进入40千瓦以上区间,空气介质的换热能力难以应对芯片局部热点的快速集中,散热系统往往需要更大风量和更强制冷投入,能耗随之上升。另外,节能降碳要求持续收紧。国家发展改革委等部门印发的《数据中心绿色低碳发展专项行动计划》提出,到2025年底,新建及改扩建大型和超大型数据中心PUE降至1.25以内,国家枢纽节点数据中心项目PUE不得高于1.2。指标约束叠加算力快速增长,使“以更高能效支撑更高功率密度”成为行业必须直面的课题。 影响——散热成为“算力账本”的核心项。散热能力不足不仅影响设备可靠性,也会改变数据中心的能源结构与经济测算。PUE升高意味着更多电力消耗在制冷等非计算环节,运营成本被持续推高。对运营商与云服务企业而言,这将影响机柜上架密度、机房扩建节奏以及对外服务能力;对产业链而言,散热与供配电、机柜与管路、运维与监测等系统需要同步升级,推动数据中心竞争从“拼规模”转向“拼效率”。市场机构预测也从侧面印证这个趋势:服务器冷却市场未来数年有望保持较快增长,液冷渗透率提升空间明显。 对策——液冷从“补充选项”走向“基础能力”。液冷以液体替代空气作为主要冷却介质,通过循环更高效地导出热量。业内人士表示,相比风冷,液冷的热交换效率更高,有助于降低制冷能耗,使数据中心PUE更接近1的理想区间。实践层面,部分企业已形成相对完整的技术路线布局,包括冷板式、浸没式以及风液协同等方案,以适配不同机房条件与改造需求。在山东济南,浪潮通信信息系统有限公司涉及的实验室研发的液冷散热系统近期在北京某运营商数据机房改造项目中落地应用。据介绍,改造后单机柜承载能力明显提高,并实现年度节电4468兆瓦时。类似案例表明,在既有机房空间受限、供配电能力趋紧的情况下,通过更高效的散热体系提升单位面积算力产出,正在成为一条可行路径。 前景——液冷产业链有望加速成熟,标准与运维能力需同步跟进。随着算力需求持续增长、能耗管控趋严,液冷应用有望从重点场景扩展到更广范围。下一阶段,行业竞争的关键不仅在于“能不能冷”,更在于“冷得稳、冷得省、冷得易维护”。一上,液冷涉及管路密封、材料兼容、泄漏监测、冗余设计等工程细节,可靠性与全生命周期运维能力将成为规模化推广的前提;另一方面,数据中心规划建设也需要与液冷适配的供配电、机柜形态与监控体系协同优化。业内预计,随着技术迭代和规模效应显现,液冷成本结构有望改进,推动其在高功率密度AI集群中的渗透率持续提升,并带动数据中心向绿色低碳、高效集约方向升级。
液冷技术的走强,本质上是算力密度提升与能耗政策约束共同作用下的必然选择,也是数据中心能力升级的重要信号。当AI算力需求持续攀升与绿色低碳要求日益严格形成叠加效应时,谁能掌握更先进、更可靠的散热技术,谁就更有机会在新一轮产业竞争中占据主动。国内企业的前瞻布局与技术突破,不仅为数据中心高效运营提供支撑,也为全球AI产业的可持续发展提供了可借鉴的路径。