AI算力关键不只芯片，超级集群靠基建落地

发布时间：2026-05-09 20:08阅读：12

AI芯片完成封装之后会走向GPU，GPU再与CPU搭配成服务器形态，多块GPU与CPU协同起来就形成超节点，超节点进一步规模化后便对应超级算力集群。xAI打造的Colossus1，是一套配备22万张H100的超算集群。

当这么多卡汇聚在同一系统中时，并不是把硬件堆到位就能立刻投入使用。它本质上是一项高度复杂的系统工程，目标在于把海量、离散的计算资源整合成一个像巨型计算机一样高效、可靠、可协同运转的整体。

GPU可以说是集群的“筋骨”，但最终能跑出怎样的效果，关键却在于把这些“肌肉”连起来的“神经”，以及让系统持续运转的“生命系统”。

其中最先需要打牢的模块，是以高速互联网络为中心的通信子系统。

依据中国信息通信研究院的测算，在训练万亿参数级大模型时，通信耗时占比可达到50%至70%，网络能力已成为释放算力的最大制约。

因此，节点内部要通过英伟达的NVLink或华为的灵衢等方式，实现高带宽、低延迟的卡间互联。

而在节点之间，则需要借助英伟达的InfiniBand或华为的UBoE等高速网络，完成大规模、无阻塞的通信。

其次是由高带宽存储（HBM）和分布式存储系统共同构成的存储子系统，用来支撑训练过程里海量数据的快速吞吐。

第三部分是高效散热与供电的基础设施。万卡级集群的功耗非常可观，单靠传统风冷很难满足要求，浸没式液冷或冷板式液冷因此成为标配。

同时还能把电源使用效率PUE压到1.1以下：也就是为核心设备提供1度电的同时，总耗费约1.1度电。

第四是集群管理与调度的软件栈。它要完成资源的智能分配、任务调度、故障监测与恢复，保证数万张卡在长时间里稳定协同。

因此，决定超级集群表现的，除了计算卡的算力以外，更核心的是网络互联的带宽与延迟、存储系统的吞吐能力、散热系统的能效比PUE，以及软件栈的并行效率与可靠性。

衡量集群效率时最常用的指标“线性加速比”和“模型算力利用率MFU”，也会被上述因素直接牵制。

建设一套AI超级集群，需要经历从规划、设计、集成到调优的完整链路。

首先要从清晰的业务场景与算力需求出发，建立算力建模，明确模型规模、训练周期与预算边界。

随后进入架构设计阶段：计算、网络、存储的拓扑都要提前规划，例如通过超节点架构来提升通信效率。

接着是基础设施的准备，对数据中心在电力、冷却、承重、空间等维度进行系统性的改造。

然后展开硬件集成与部署，把服务器、交换机、存储设备、液冷机组等上万台设备完成物理安装与互联连接。

最后是系统联调与软件优化。包括安装操作系统、驱动、并行计算框架，并对通信库、任务调度等环节做深度调校，让表现尽可能逼近理论算力。

整个过程高度依赖外部配套的基础设施能力：需要提供数十乃至上百兆瓦级别的稳定电力供给，以及相应的变电与配电体系。

同时还要建设能够承载巨大热负荷的液冷机房，并配套室外冷却塔完成余热处理。

此外，数万根高速光纤也要通过精密走线系统完成铺设与连接。

还必须具备抗震、防洪以及满足高安全等级要求的物理建筑条件。

从某种角度看，打造超算集群的难度并不比开发AI芯片低。即便是英伟达自家在做超算集群建设，也往往会把工程部分外包交付。

最关键的难点在于超大规模条件下的系统可靠性：万卡级集群中任一组件出现问题，都可能让训练中断，因此故障诊断与恢复会变得异常复杂。

其次是能耗与散热密度极高，对数据中心基础设施而言几乎是极限挑战。

第三在于软硬件全栈需要协同优化。要从芯片、服务器、网络到框架与算法层面进行深度适配，整体技术门槛非常高。

在全球范围内，一场围绕AI算力高地的建设竞赛正在推进。只是说到全球，真正的主要竞争者其实也集中在中美两家。

在美国，慧与HPE被选中为能源部橡树岭国家实验室建造下一代百亿亿次超级计算机，“Discovery”和AI集群“Lux”。

其中HPE是从惠普HP拆分出来的系统集成公司，在承建顶级科研与国家级超算中心方面占据了较为突出的地位。

国内类似的系统集成服务商包括为Deepseek建设数据中心的浪潮和曙光，当然也包括提供全栈方案的华为。

目前，中国在系统架构与集成能力上处于领先位置。

华为推出了支持8192张及15488张昇腾卡的Atlas SuperPoD超节点，以及算力规模达到百万卡级别的SuperCluster。

中科曙光则发布了面向全球的单机柜640卡超节点scaleX640，以及超百万卡级别的scaleX万卡超集群。

阿里云也发布了高密度磐久超节点服务器。

在关键子系统方面，曙光推出首款国产400G原生无损RDMA高速网络scaleFabric，有效补齐高速互联技术的空白。

在绿色算力方向，浸没式液冷等技术使集群PUE已接近1.04。

根据工信部的数据，2025年我国已建成万卡智算集群42个，智能算力规模超过1590 EFLOPS。

在AI超级集群建设赛道上，华为的全栈自研能力体现出明显优势，覆盖从昇腾AI芯片、鲲鹏通用处理器、Atlas服务器、数据中心网络，到集群管理软件和昇思框架的完整技术栈。

这种垂直整合有助于开展更深层的系统级优化。

过去建设5G网络积累的经验，已经并正在应用到AI集群的建设当中。

5G核心网与边缘计算涉及的大规模部署、高可靠性与低时延网络管理经验，可以直接迁移到AI集群高速互联网络的规划与运维。

5G基站面向海量设备的远程监控、升级与故障预测运维自动化平台经验，同样对管理数万张AI卡的集群至关重要。

此外，在5G时代积累的与全球运营商、企业客户开展大型基础设施项目协作的经验，也可用于AI算力中心的市场拓展与交付。

两者都是把复杂的信息技术沉淀成可依赖的基础设施，方法论层面一脉相承。

目前我们真正“卡住”的环节只在AI芯片上，而其中的关键点又集中在先进制程。换句话说，本质上仍差一台EUV光刻机。不过在封装、信息互联以及系统集成方面，我们已经走在前列。

可以说是万事俱备，只欠东风。

那么东风什么时候到来？

目前EUV光源已取得突破，预计2030年有望实现量产EUV。届时我们不只是解决卡脖子问题，毕竟其他优势已经足够明显。一旦补齐短板，就可能实现跨越式领先，也不知道未来又会卷到没几家。

← 上一篇：AI驱动医疗器械发展论坛在太湖湾成功举办下一篇：AI真的值得信赖吗？ →