AI服务器主板的核心组件解析
(AI 服务器主板示意图:厂家为代表性例子,不表示同一产品的完整供应链)
最核心的部件是AI 加速器 / 算力芯片。图中列出 NVIDIA、AMD、Intel、Google TPU、AWS Trainium。NVIDIA 当前仍是通用 AI 训练和推理 GPU 的主要厂商,Blackwell、Blackwell Ultra、GB300 NVL72 等平台强调 GPU、Grace CPU、NVLink 和液冷机柜的系统协同。AMD 以 Instinct MI300、MI325、MI350 系列竞争,重点在 HBM 容量、OCP 形态、Infinity Fabric 和 ROCm 软件栈。Google TPU、AWS Trainium 属于云厂商自研 ASIC,通常服务于自有云平台的大模型训练和推理,目标是降低单位 token 成本。除此之外,Microsoft Maia、Meta MTIA、华为昇腾、寒武纪等也属于 AI 加速器生态的重要组成。
与 AI 加速器直接绑定的是HBM 高带宽内存。图中标注了 SK hynix、Samsung、Micron。大模型训练和推理需要频繁读取模型权重、激活值和 KV Cache,普通 DDR 内存带宽难以满足需求,因此高端 GPU 和 ASIC 普遍采用 HBM。HBM3E 已经成为主流高端配置,HBM4 正在进入新一代平台。HBM 的容量、带宽、功耗和良率,直接决定 AI 芯片能否发挥标称算力。很多 AI 芯片的瓶颈表面上是 “算力”,实质上是 “内存带宽” 和 “封装供给”。
先进封装 / 中介层是图中另一个关键环节。AI 加速器通常需要把计算芯片、HBM 堆叠和硅中介层放在同一个封装内,通过极短连线获得高带宽。TSMC CoWoS 是当前高端 AI GPU 的重要封装技术,Intel 也在 EMIB、Foveros 等先进封装上投入,ASE、Amkor 等 OSAT 厂商参与封测环节。随着单芯片面积和制造成本上升,Chiplet、2.5D 封装、3D 封装会更加普遍。先进封装已经不是简单的后道工序,而是 AI 芯片性能、良率和交付能力的核心约束。
CPU / 主控处理器负责整机调度。图中列出 Intel Xeon、AMD EPYC、Arm Neoverse、NVIDIA Grace。CPU 通常不承担最重的矩阵乘法,但它负责操作系统、驱动、任务调度、网络协议、数据加载、虚拟化、安全隔离和存储管理。AI 训练和推理中,如果 CPU 核心数、内存带宽、PCIe/CXL 通道或 NUMA 设计不足,GPU 会等待数据,整机利用率下降。因此,CPU 在 AI 服务器中是 “控制中心” 和 “数据组织者”,不是可有可无的配件。
DDR5 系统内存主要服务 CPU 侧负载,供应商同样以 Samsung、SK hynix、Micron 为主。它承担数据预处理、缓存、向量检索、调度队列和系统服务。未来 CXL 内存扩展可能进一步提高内存池化能力,使 CPU、GPU 和加速器之间更灵活地共享大容量内存。
NVMe/eSSD 存储负责模型、数据集、日志和向量库的高速读写。代表厂商包括 Samsung、Kioxia、Solidigm、Micron。AI 训练需要持续读取大规模数据集,推理服务需要快速加载模型权重和缓存数据。单块 SSD 性能并不等于系统性能,存储还要与文件系统、数据管线、网络和调度策略配合,否则加速器仍会 “等数据”。
高速互连 / 网卡是 AI 服务器从单机走向集群的关键。图中列出 NVIDIA ConnectX、Broadcom、Marvell、Astera。单机内部依赖 PCIe、NVLink、Infinity Fabric 等互连,多机之间使用 InfiniBand、RoCE 以太网、Ultra Ethernet 等网络。NVIDIA 在 NVLink 和 InfiniBand 上优势明显,Broadcom、Marvell 等推动高速以太网和定制网络芯片,Astera 则在 PCIe/CXL 重定时器和连接芯片方面活跃。随着模型规模扩大,网络通信已经成为 AI 集群性能的决定因素之一。
供电管理 / VRM 和散热决定系统能否长期稳定运行。图中标注 Infineon、TI、MPS、Renesas。高端 AI 加速器单卡功耗已达到数百瓦到上千瓦,整机柜功耗继续上升,传统风冷难以覆盖所有场景。液冷、冷板、浸没式冷却、高压直流供电、机柜级电源管理正在成为高密度 AI 数据中心的标准方向。
整体趋势可以概括为七点。第一,AI 芯片竞争从单卡走向机柜级系统,NVL72、OCP 机柜和云厂商 Pod 形态成为主流。第二,HBM 和先进封装成为战略资源,供应能力直接影响产品出货。第三,低精度计算快速发展,FP8、FP4、INT8 等用于提高推理效率。第四,推理负载增长快于训练,长上下文、多模态和 Agent 应用推动每瓦 token 数成为核心指标。第五,互连开放化增强,Ultra Ethernet、UALink、CXL 等标准试图降低专有互连依赖。第六,软硬协同更重要,CUDA、ROCm、XLA、Neuron、CANN 等软件栈决定开发迁移成本。第七,整机厂和云厂商影响力上升,Dell、HPE、Lenovo、Supermicro、Wiwynn、Quanta、Foxconn、Inspur 以及 AWS、Google、Microsoft、Meta 等都在参与 AI 基础设施设计。
因此,AI 芯片服务器不是单一芯片产品,而是计算、存储、内存、网络、封装、供电、散热和软件共同构成的系统工程。
参考资料:
NVIDIA GB300 NVL72:https://www.nvidia.com/en-us/data-center/gb300-nvl72/
AMD Instinct MI350:https://www.amd.com/en/products/accelerators/instinct/mi350.html
Google Ironwood TPU:https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
Micron HBM4:https://www.micron.com/products/memory/hbm/hbm4
Ultra Ethernet Consortium UEC 1.0:https://ultraethernet.org/ultra-ethernet-consortium-uec-launches-specification-1-0-transforming-ethernet-for-ai-and-hpc-at-scale/