AI算力关键不只芯片,超级集群靠基建落地
AI芯片完成封装之后会走向GPU,GPU再与CPU搭配成服务器形态,多块GPU与CPU协同起来就形成超节点,超节点进一步规模化后便对应超级算力集群。xAI打造的Colossus1,是一套配备22万张H100的超算集群。
当这么多卡汇聚在同一系统中时,并不是把硬件堆到位就能立刻投入使用。它本质上是一项高度复杂的系统工程,目标在于把海量、离散的计算资源整合成一个像巨型计算机一样高效、可靠、可协同运转的整体。
GPU可以说是集群的“筋骨”,但最终能跑出怎样的效果,关键却在于把这些“肌肉”连起来的“神经”,以及让系统持续运转的“生命系统”。
其中最先需要打牢的模块,是以高速互联网络为中心的通信子系统。
依据中国信息通信研究院的测算,在训练万亿参数级大模型时,通信耗时占比可达到50%至70%,网络能力已成为释放算力的最大制约。
因此,节点内部要通过英伟达的NVLink或华为的灵衢等方式,实现高带宽、低延迟的卡间互联。
而在节点之间,则需要借助英伟达的InfiniBand或华为的UBoE等高速网络,完成大规模、无阻塞的通信。
其次是由高带宽存储(HBM)和分布式存储系统共同构成的存储子系统,用来支撑训练过程里海量数据的快速吞吐。
第三部分是高效散热与供电的基础设施。万卡级集群的功耗非常可观,单靠传统风冷很难满足要求,浸没式液冷或冷板式液冷因此成为标配。
同时还能把电源使用效率PUE压到1.1以下:也就是为核心设备提供1度电的同时,总耗费约1.1度电。
第四是集群管理与调度的软件栈。它要完成资源的智能分配、任务调度、故障监测与恢复,保证数万张卡在长时间里稳定协同。
因此,决定超级集群表现的,除了计算卡的算力以外,更核心的是网络互联的带宽与延迟、存储系统的吞吐能力、散热系统的能效比PUE,以及软件栈的并行效率与可靠性。
衡量集群效率时最常用的指标“线性加速比”和“模型算力利用率MFU”,也会被上述因素直接牵制。
建设一套AI超级集群,需要经历从规划、设计、集成到调优的完整链路。
首先要从清晰的业务场景与算力需求出发,建立算力建模,明确模型规模、训练周期与预算边界。
随后进入架构设计阶段:计算、网络、存储的拓扑都要提前规划,例如通过超节点架构来提升通信效率。
接着是基础设施的准备,对数据中心在电力、冷却、承重、空间等维度进行系统性的改造。
然后展开硬件集成与部署,把服务器、交换机、存储设备、液冷机组等上万台设备完成物理安装与互联连接。
最后是系统联调与软件优化。包括安装操作系统、驱动、并行计算框架,并对通信库、任务调度等环节做深度调校,让表现尽可能逼近理论算力。
整个过程高度依赖外部配套的基础设施能力:需要提供数十乃至上百兆瓦级别的稳定电力供给,以及相应的变电与配电体系。
同时还要建设能够承载巨大热负荷的液冷机房,并配套室外冷却塔完成余热处理。
此外,数万根高速光纤也要通过精密走线系统完成铺设与连接。
还必须具备抗震、防洪以及满足高安全等级要求的物理建筑条件。
从某种角度看,打造超算集群的难度并不比开发AI芯片低。即便是英伟达自家在做超算集群建设,也往往会把工程部分外包交付。
最关键的难点在于超大规模条件下的系统可靠性:万卡级集群中任一组件出现问题,都可能让训练中断,因此故障诊断与恢复会变得异常复杂。
其次是能耗与散热密度极高,对数据中心基础设施而言几乎是极限挑战。
第三在于软硬件全栈需要协同优化。要从芯片、服务器、网络到框架与算法层面进行深度适配,整体技术门槛非常高。
在全球范围内,一场围绕AI算力高地的建设竞赛正在推进。只是说到全球,真正的主要竞争者其实也集中在中美两家。
在美国,慧与HPE被选中为能源部橡树岭国家实验室建造下一代百亿亿次超级计算机,“Discovery”和AI集群“Lux”。
其中HPE是从惠普HP拆分出来的系统集成公司,在承建顶级科研与国家级超算中心方面占据了较为突出的地位。
国内类似的系统集成服务商包括为Deepseek建设数据中心的浪潮和曙光,当然也包括提供全栈方案的华为。
目前,中国在系统架构与集成能力上处于领先位置。
华为推出了支持8192张及15488张昇腾卡的Atlas SuperPoD超节点,以及算力规模达到百万卡级别的SuperCluster。
中科曙光则发布了面向全球的单机柜640卡超节点scaleX640,以及超百万卡级别的scaleX万卡超集群。
阿里云也发布了高密度磐久超节点服务器。
在关键子系统方面,曙光推出首款国产400G原生无损RDMA高速网络scaleFabric,有效补齐高速互联技术的空白。
在绿色算力方向,浸没式液冷等技术使集群PUE已接近1.04。
根据工信部的数据,2025年我国已建成万卡智算集群42个,智能算力规模超过1590 EFLOPS。
在AI超级集群建设赛道上,华为的全栈自研能力体现出明显优势,覆盖从昇腾AI芯片、鲲鹏通用处理器、Atlas服务器、数据中心网络,到集群管理软件和昇思框架的完整技术栈。
这种垂直整合有助于开展更深层的系统级优化。
过去建设5G网络积累的经验,已经并正在应用到AI集群的建设当中。
5G核心网与边缘计算涉及的大规模部署、高可靠性与低时延网络管理经验,可以直接迁移到AI集群高速互联网络的规划与运维。
5G基站面向海量设备的远程监控、升级与故障预测运维自动化平台经验,同样对管理数万张AI卡的集群至关重要。
此外,在5G时代积累的与全球运营商、企业客户开展大型基础设施项目协作的经验,也可用于AI算力中心的市场拓展与交付。
两者都是把复杂的信息技术沉淀成可依赖的基础设施,方法论层面一脉相承。
目前我们真正“卡住”的环节只在AI芯片上,而其中的关键点又集中在先进制程。换句话说,本质上仍差一台EUV光刻机。不过在封装、信息互联以及系统集成方面,我们已经走在前列。
可以说是万事俱备,只欠东风。
那么东风什么时候到来?
目前EUV光源已取得突破,预计2030年有望实现量产EUV。届时我们不只是解决卡脖子问题,毕竟其他优势已经足够明显。一旦补齐短板,就可能实现跨越式领先,也不知道未来又会卷到没几家。