标签

算力高温正迫使AI“停摆”

发布时间:2026-06-07 20:31来源:微信阅读:2

从手机发烫到数据中心“泡澡”,散热已成为比机器本身更紧迫的瓶颈

你是否经历过躺在床上刷视频,手机提示“温度过高,停止充电”,背部感觉像在煎蛋。

手机过热只是阻止充电;AI机房过热可能会让数十亿美元的GPU停摆。原因很简单:无论数字世界跑得多快,物理定律都不会让步。

一个“土”气的事故,唤醒了一群“高”端人士

去年感恩节周末,芝加哥郊区的一个数据中心冷却系统故障导致全球最大的衍生品交易所之一CME的交易平台停摆近十个小时。

事后分析很令人惊讶:不是黑客攻击,也不是模型崩溃,而是冷却塔操作不当 -> 冷水机组连锁停机 -> 机房温度失控 -> 保护系统拉闸以防止损坏。

没有高科技崩溃,只有物理世界热量的威力。

散热曾经是后勤部门,现在正在成为生产部门。

三年前我们吹风扇,现在我们需要其他方法。

几个数字说明了一切:云计算时代,一个机柜大约 10–20kW,空调+风道基本能处理。对于今天的AI训练集群,英伟达GB200/NVL72方案公开口径约为 120–140kW;头部机房的每个机柜已稳定超过 100kW。

展望未来,行业路线图正在认真讨论向单机柜“兆瓦级(MW级)”迈进,这意味着供电和散热都需要重建。

这就像把上千台家用空调外机塞进衣柜,并命令它们24小时不降频运行。

这时候还指望风扇?空气导热系数约为 0.026,天生就像“保温层”。一旦热量密度增加,芯片就会热节流。几周的训练会导致“忽快忽慢”,而不仅仅是偶尔卡顿,而是真正的效率崩溃。

两条路:贴“退烧贴”和“泡澡”

风冷没有完全消失,但正变成补丁;真正处理高密度的只有两条路:

① 冷板式直接液冷(目前最主流)

给GPU安装一块中空金属冷板,冷却液流经其中,热量在冒头前就被抽出。不需要把机房变成游泳池,改造成本相对可控,是目前新建AI中心的首选路径。

② 浸没式液冷(仅用于极限密度)

将整块主板浸入绝缘冷却液中,液体全方位带走热量,效率碾压风冷。但运维、密封、介质管理和回收更加复杂,许多老机房“想改但手还在抖”。

反常识细节:冷板回路可以使用较高温度的“温水”来带热(接近45°C的想法),这使我们有机会抛弃传统的大型冷机,依靠室外干冷塔/自然冷,从而节省电力。AI散热正变得越来越像锅炉房工程,而不是电脑城。

真正阻碍我们的不是原理,而是“交付”。

许多人认为AI瓶颈=买不到卡。

现在更隐蔽的瓶颈是:即使你买到了卡,电力和散热系统也可能让你无法点亮系统。

看资金流向就知道了;云厂商最近的资本支出正越来越多地从“购买设备”转向“建设基础设施”:变电站扩容、配电、冷却系统、土木工程和机架交付;这些事情没有快递发货,耽搁至少半年。

冷却侧的关键部件(冷板、分配单元、快速接头、泵阀管路、绝缘介质等)普遍面临同样的问题:关键设备和基础设施的交付周期明显延长,供应商在手订单/积压持续上升,需求超过了产能。

这意味着一条简单的产业规律:当某一环节从“锦上添花”变为“准入门槛”时,它就更容易获得资源、产线优先权和长期合作协议。

在散热链条中,最值钱的不是某个酷炫的名称,而是系统可靠性和交付能力(零泄漏容忍、长期稳定运行、工程实施经验)。

碎片里的逻辑

当我们谈论AI时,总是围绕模型、参数和“谁更聪明”转。

但对机房建设者来说,许多日子是在争夺另一件事:如何持续、稳定且低成本地将兆瓦级热量搬出去。

再强的算力,一旦被自己的热量按在椅子上,也无法计算。

AI最大的敌人有时不是算法,而是温度。

碎片里的逻辑:解读实时科技与产业热点。

所有内容仅用于产业观察和个人观点,不构成任何建议。

昨夜对岸那阵风过后,答案在铁皮钱箱里

信源参考:NVIDIA GB200/Rubin技术公开材料 · CyrusOne/CME冷却故障复盘(彭博/金十) · 数据中心冷却基础设施厂商公开财报/业绩交流 · IDC与中国信通院液冷市场综述