AI机架功耗激增,光互连与液冷成关键
近期关注AI硬件领域时,常会将CPO、硅光技术及液冷方案分别讨论:有的像光模块热点,有的像散热概念,还有的像是展会新品的炒作题材。
但如果站在数据中心的角度看问题,这些其实都在解决同一个核心问题:随着GPU堆叠越来越密集,如何更快地传输数据,更稳定地带走热量。
B200单芯片TDP已达到1000W,Rubin平台的功耗还在持续上升。
Lightcounting预测,基于硅光的光模块市场份额将从2024年的33%提升至2026年超过50%。
IDC数据显示,中国液冷服务器市场2024年同比增速达67.0%,2024-2029年复合年增长率预计为46.8%。
这三组数据放在一起,并不意味着又多了两个炒作热点,而是说明AI基础设施已经发展到需要在机架级别同时提升带宽和散热能力的阶段。
最容易误解的地方在于,把光和冷当作两个独立热点去追逐。实际上,变化发生在同一台AI机架内部:带宽不断提升,功耗持续抬高,旧有方案正被推到极限。
原因很直观。GPU越集中,彼此交换的数据越多,机柜内产生的热量也越集中。如果数据搬不动,算力就会卡住;热量压不住,算力也无法稳定运行。
因此,光互连和液冷并非两条互不相关的投资主线。它们都被机架级AI系统所驱动,一个负责数据搬运效率,一个处理功耗与稳定性。
一、AI扩容开始受限于机架内部
过去看AI基建,第一反应是算力是否充足;现在更重要的是,当算力集中到机架后,数据能否顺畅搬运,热量能否有效控制。
海外云厂商和国内互联网公司仍在加大AI资本支出,谷歌、亚马逊、阿里、字节等都已明确表示将持续高额投入或订单承诺。
这些资金并未停留在“买芯片”层面,而是进一步投入到数据中心内的服务器、交换设备、互联技术、机柜、温控和供电系统。
关键变化来自机架级AI系统。更多GPU被集成进高密度计算单元,导致单卡通信带宽和单机柜功率密度同步上升。
算力越集中,GPU间数据交换频率越高,机柜单位面积产热也越大。至此,AI扩容已从芯片采购推进到整套基础设施承载能力的考验。
这也是CPO和液冷可以放在同一条逻辑链上分析的原因:前者缩短数据路径、降低互联损耗,后者增强热量带走能力。
一个解决“算力之间如何连接更快”,一个解决“算力堆上去后如何运行更稳”。要继续扩大机架级系统规模,必须同时解决这两个问题。
二、带宽瓶颈推动光互连规格升级
AI训练和推理都依赖高效的数据搬运。模型越大、集群越密,瓶颈越容易从单颗GPU性能转向GPU之间、机架之间及数据中心内部的互联效率。
这也是1.6T、硅光、CPO和OCS重新受到关注的原因。
800G之后,速率继续提升,单纯提高链路速度已不够,还需控制功耗、损耗和集成难度。
硅光技术解决的是高速场景下的成本、功耗与集成度平衡问题。CPO则是将光引擎贴近交换芯片,减少板级电信号走线损耗。
OCS对应更灵活的光层调度。在产业层面,AI网络正从单个模块提速,走向整套系统互联升级;能进入客户部署节奏的方案,才更容易从技术名词转化为订单。
高速光模块会向上牵引DSP、EML/CW光芯片和光引擎,向下牵引MPO、FAU等高密度连接器件。
这些环节还会与交换设备、CPO、OCS等方案一起进入客户导入流程。名词热度只能说明方向被看见,量产出货和收入确认,才决定这条链能走多远。
接下来三件事最关键:1.6T产品放量,CPO/OCS从样机走向小批量部署,硅光方案份额继续提升。
这些信号接上,光互连才算从主题预期走向业务兑现。
三、热密度将液冷推向必选项
另一条约束来自热量。H100到B200,再到Rubin和后续平台,单芯片功耗持续上升;谷歌TPU v7接近千瓦级,v8P进一步上升,也说明高功耗不是单一厂商现象。
当单机柜功率密度突破60kW并继续向更高水平迈进时,传统风冷会越来越接近极限。
液冷此时不再只是为了节能好看,而是为了让高密度算力继续稳定运行。冷板、CDU、管路、机房温控和AIDC建设,开始从配套设施变成算力交付能力的一部分。
这里和光互连的承接是同源的:同一套机架级AI系统,一边要求更多GPU之间低延迟互联,一边把热密度推到风冷边界附近。
前面是数据路径变短、速率变高,后面是热路径变短、带走效率变高。
中国液冷服务器市场2024年同比增长67.0%,2024到2029年复合增速46.8%。这组数字说明渗透率正在往上走,但它不是脱离服务器需求单独成立的增长曲线。
但液冷最终还要和AI服务器出货、高功率机柜建设、数据中心PUE约束一起看。
液冷这边最硬的两个信号:AI服务器继续放量,液冷方案在新建或改造数据中心里的配置比例提升。两者一起出现,液冷才更像基础设施门槛,而不是单纯的节能升级。
四、代表环节要按兑现层级看
沿着这条链拆开,环节排序比公司名单更重要。
光模块、硅光、CPO/OCS、连接器和液冷各自卡在不同位置:有的已经进入客户导入,有的还在规格切换,有的要等量产订单继续坐实。
表里的重点不是把产业链铺满,而是把交付顺序捋直:光互连解决数据怎么更快流动,液冷解决热量怎么稳定带走。
上游器件的弹性,最后落在规格和客户项目上。DSP、光芯片、MPO/FAU如果跟着1.6T、CPO和高密度连接进入导入清单,弹性就更扎实;如果只停在供需想象里,波动会更大。
两条线都有硬数字支撑,但还要继续过量产、出货、渗透率和收入确认这些关口。短期词条热度会变,应该持续更新的是带宽、功耗、订单、交付和渗透率。
五、出货和渗透率要接上
第一层,是Rubin等机架级平台推进。
如果平台节奏顺利,带宽和功耗门槛会继续抬高,1.6T、硅光、CPO/OCS、液冷都会有更明确的落地场景。
第二层,是AI服务器出货和机柜形态。
光互连和液冷都不是脱离服务器存在的独立需求。
如果服务器出货低于预期,或者高功率机柜占比提升慢,模块、器件、冷板、CDU和机房温控的节奏都会被拖慢。
第三层,是量产、部署和收入确认。
1.6T和CPO要从样品展示走向客户导入,OCS要从方案讨论走向部署验证,液冷也要从项目储备走向订单交付。
能支撑行业继续重估的,还是订单交付、出货放量、渗透率提升和财务端确认。
风险也很明确:AI服务器出货不及预期,Rubin平台推进慢于预期,1.6T/CPO量产不顺,或者液冷渗透率没有跟着高功率机柜上来,光和液冷的双主线都要降温。
六、光和冷,最后都要回到交付
这一轮AI基建,算力更多只是起点,数据搬得动、热量压得住同样重要。
CPO、硅光和液冷之所以能放在一起看,是因为它们背后都是机架级AI系统带来的带宽和功耗约束。
高速光互连对应1.6T放量和CPO/OCS部署,上游器件对应新规格导入,液冷温控对应配置率和订单交付。
概念热度可以走得很快,但产业落地不会跳过Rubin平台、AI服务器出货、液冷配置率和收入确认。
光和冷要走得更远,前提是算力扩容继续落到机架、机柜和数据中心建设里。
只要这条交付链能接上,它们就不是孤立题材,而是AI基础设施扩容里的两条硬约束;如果交付链接不上,短期热度也很难单独支撑太久。
复盘这条线时,机架平台、服务器出货和液冷配置率,比概念轮动更有含金量。
我整理了一份「AI算力基础设施跟踪表」,按带宽、功耗、订单、交付和渗透率拆了跟踪项。
需要的话,可以点左下角「阅读原文」领取。