标签

算力技术体系:AI底层架构完全指南

发布时间:2026-05-11 06:28来源:微信阅读:6

基础层 · 算力底座 · 完整技术手册

序章:从AI爆发到算力底座崛起

AI芯片底层技术详解

AI服务器详解

智算中心与AI服务器的关系

IaaS详解

PaaS与MaaS的关系

中国移动MoMA MaaS详解

序章:从AI爆发到算力底座崛起

AI的发展并非线性,而是经历了三次算力需求的质变:

标志:AlexNet在ImageNet夺冠,CNN突破

算力需求:单张GTX 580就能跑

芯片:消费级GPU足够,CUDA生态初建

服务器:传统服务器+1-4张GPU外挂

基础设施:实验室级别,单机即可

标志:GPT-3(1750亿参数)、BERT、Transformer架构

算力需求:千亿参数 × 万亿Token,单卡算不了

芯片:必须数据中心级GPU(V100→A100→H100)

服务器:8卡NVSwitch互联成为标配

基础设施:千卡集群、专用智算中心开始出现

标志:GPT-4o、Claude 3.5、Sora视频生成、AI Agent

算力需求:

训练:万亿参数模型,需要万卡集群

推理:Agent每步都调API,Token消耗×100倍

多模态:视频生成算力是图片的1000倍

芯片:H100→B200→下一代,推理专用芯片崛起

服务器:64卡超节点取代8卡(浪潮元脑SD200)

基础设施:智算中心成为国家战略资源

这三次浪潮推动算力底座从"个人玩具"跃迁到"国家基建":

2012年:个人开发者用1张GTX 580跑CNN ↓ 模型参数×1000倍 2019年:企业用8卡V100服务器跑BERT ↓ 模型参数×100倍 2023年:巨头用千卡H100集群跑GPT-4 ↓ Agent+多模态爆发 2026年:国家建智算中心,单中心数万张GPU

对海风来说,理解算力底座不是为了成为硬件专家,而是为了:

目的

为什么重要

成本决策

知道API调用的钱花在哪儿(Token→模型→GPU→芯片)

技术选型

知道什么时候该用本地5090D,什么时候该上云

商业谈判

和客户聊"我们用的H100集群"时知道背后是什么

趋势判断

看懂为什么英伟达市值3万亿,为什么国产替代是国策

本文按**"从底层到上层"**的顺序组织,每一层都是上一层的支撑:

① AI芯片(原子级) → ② AI服务器(分子级) → ③ 智算中心(细胞级) ↓ 虚拟化 ④ IaaS(组织级) → ⑤ PaaS/MaaS(器官级) → 支撑上层大模型与应用(个体级)

章节

核心问题

海风关联

① AI芯片

不同芯片区别?底层算法逻辑?

5090D为什么是最优选择

② AI服务器

与传统服务器区别?解决什么问题?

海风目前不需要,但要知道

③ 智算中心

与AI服务器关系?为什么国家要建?

API调用的底层设施

④ IaaS

云计算层级中的位置?解决什么问题?

按需租用的商业模式

⑤ PaaS/MaaS

两者是同一概念吗?

海风正在使用的API层

⑥ MoMA

中国移动最新MaaS平台是什么?

Token集约化降本30%

在深入各章节之前,先记住三个核心结论:

AI芯片的本质是"通用vs专用"的取舍:训练要通用GPU(H100),推理可以专用(TPU/昇腾),端侧必须极致低功耗(NPU)

海风的最优解是混合架构:本地5090D(70-80%)+ API调用(20-30%),成本和灵活性最佳平衡

算力正在从"买"变成"租"再到"按Token买":IaaS租算力 → MaaS按Token买智能,海风不需要关心底层硬件

AI芯片之间的差异,不是"快和慢"的区别,而是"通用和专用"的取舍。

芯片类型

代表产品

设计哲学

优势场景

劣势

通用GPU

英伟达H100/B200、AMD MI300X

保留图形管线,通过张量核心加速AI

训练大模型、通用并行计算

功耗高、成本高

ASIC专用芯片

谷歌TPU v5、华为昇腾910B

抛弃图形功能,硬件级优化矩阵运算

推理、特定模型量产部署

灵活性差、生态依赖

端侧NPU

高通骁龙8 Elite、苹果M4

超低功耗、定点运算、内存紧耦合

手机实时推理、隐私计算

算力有限、模型受限

消费级GPU

RTX 5090/4090

平衡游戏+AI,显存适中

本地推理、中小模型微调

无NVLink、集群能力弱

核心运算:矩阵乘法(GEMM)

AI计算90%以上的时间都在做一件事:矩阵乘法。

Transformer的自注意力机制: Attention(Q, K, V) = softmax(Q × K^T / √d) × V 本质就是三个矩阵的连续乘法: - Q × K^T:查询矩阵乘键矩阵(N×N的相似度矩阵) - softmax后的注意力权重 × V:加权求和得到输出

矩阵乘法的计算量是O(N³),参数规模达到千亿时,这个运算量极其庞大。所以AI芯片的核心设计目标就是:让矩阵乘法尽可能快。

CUDA核心:执行通用浮点运算(FP32/FP64),类似"通用工人"

TensorCore(张量核心):专门加速矩阵乘法的专用单元,支持混合精度(FP16/FP8)

关键创新:Hopper架构的Transformer Engine,硬件级自动在FP16和FP8之间切换,训练速度提升9倍

设计:抛弃CUDA核心,整片芯片就是一个巨大的矩阵乘法阵列

脉动阵列(Systolic Array):数据像心跳一样规律流动,每个计算单元只做乘加(MAC),流水线式传递

优势:能效比极高,专为Transformer推理优化

劣势:只能做矩阵运算,其他操作极弱

DaVinci Core:每个核心内含Cube计算单元,单周期完成4096次乘加运算

3D堆叠:计算、存储、控制三维集成,减少数据搬运

动态精度:FP16/INT8自动切换,推理时INT8加速,训练时FP16保证精度

精度

位宽

用途

速度提升

FP32

32位

科学计算、训练初期

基准

FP16

16位

混合精度训练

2-4倍

FP8

8位

大模型训练/推理

4-8倍

INT8

8位整数

推理量化

8-16倍

INT4

4位整数

端侧极致量化

16-32倍

指标

H100

B200

架构

Hopper

Blackwell

制程

台积电4nm

台积电4nm

晶体管

800亿

2080亿(双芯粒)

FP16算力

1979 TFLOPS

4500 TFLOPS

显存

80GB HBM3

192GB HBM3e

内存带宽

3 TB/s

8 TB/s

专属引擎

Transformer Engine

Transformer Engine×2

指标

MI300X

架构

CDNA 3

制程

台积电5nm

晶体管

1340亿

FP16算力

1307 TFLOPS

显存

192GB HBM3

内存带宽

5.3 TB/s

特殊设计

CPU+GPU异构封装(Chiplet)

指标

昇腾910B

昇腾910C

架构

达芬奇

达芬奇(双芯粒)

制程

中芯国际7nm

中芯国际7nm

晶体管

~540亿

~1000亿(双芯粒)

FP16算力

320 TFLOPS

~800 TFLOPS

显存

32GB HBM2

64GB HBM2e

达芬奇架构核心:Cube单元专攻矩阵乘法(单周期4096次乘加),动态精度调节,稀疏计算加速。

芯片

NPU名称

算力

精度

用途

高通骁龙8 Elite

Hexagon NPU

45 TOPS

INT8/INT4

手机实时推理

苹果M4

Neural Engine

38 TOPS

INT8/INT16

Mac本地AI

联发科天玑9400

APU 890

~40 TOPS

INT8/INT4

端侧大模型

维度

5090D

H100

昇腾910B

成本

¥2-3万/卡

¥20-30万/卡

¥8-12万/卡

显存

32GB GDDR7

80GB HBM3

32GB HBM2

生态

CUDA完美兼容

CUDA

CANN(需改造)

推理能力

FP16/INT8优秀

过剩

推理优化好

本地部署

✅ 桌面级

❌ 数据中心级

❌ 数据中心级

结论:海风做的是本地推理(视频生成、TTS、图像生成),不需要训练大模型。5090D在推理场景下性价比最高,CUDA生态零迁移成本。

传统服务器= 以CPU为中心的通用计算,处理网页请求、数据库查询、文件存储AI服务器= 以GPU/加速芯片为中心的异构并行计算,专为大模型训练/推理设计

两者差异不是"跑得快和慢",而是"根本上的设计哲学不同"。

维度

传统服务器

AI服务器

计算核心

CPU(几十个核心)

GPU(数千个核心)+ CPU辅助

架构设计

串行为主,处理离散请求

并行为主,处理矩阵运算

内存

DDR4/DDR5(几百GB)

HBM3/HBM3e(几十GB~几百GB,带宽高10倍)

互联

PCIe(32GB/s)

NVLink(900GB/s)+ InfiniBand

散热

风冷

液冷(必备)

功耗

几百瓦

几千瓦~几十千瓦

用途

网站、数据库、ERP

大模型训练、推理、深度学习

┌─────────────────────────────────────────┐ │ 主板/背板 │ ├─────────────────────────────────────────┤ │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │GPU 0│ │GPU 1│ │GPU 2│ │GPU 3│ ← 4张 │ │ │H100 │ │H100 │ │H100 │ │H100 │ 上排 │ │ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │ │ └──────┴──────┴──────┘ │ │ NVSwitch互联 │ ← 无阻塞全互联 │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │GPU 4│ │GPU 5│ │GPU 6│ │GPU 7│ ← 4张 │ │ │H100 │ │H100 │ │H100 │ │H100 │ 下排 │ │ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │ │ └──────┴──────┴──────┘ │ │ NVSwitch互联 │ ├─────────────────────────────────────────┤ │ CPU(Intel Xeon / AMD EPYC)×2 │ ← 控制/调度/数据预处理 │ 系统内存:DDR5 1TB+ │ │ 存储:NVMe SSD / 高速网络存储 │ ├─────────────────────────────────────────┤ │ 网络:InfiniBand NDR / 400Gbps以太网 │ ← 集群互联 │ 电源:3000W×4 = 12000W │ ← 超高功耗 │ 散热:液冷管路(必备) │ ← 水冷/浸没式液冷 └─────────────────────────────────────────┘

训练1750亿参数GPT-3,单卡H100需要355年

方案:1024张H100集群 × 数周

NVLink 4.0带宽900GB/s,InfiniBand NDR 400Gbps

通信占比从50%降至<10%

1750亿参数FP16需要3.5TB显存

单机8卡 = 8 × 80GB = 640GB显存池

单卡H100功耗700W,单机10kW+,千卡集群1MW

液冷从"可选"变成"标配"(浪潮2022年"all in液冷")

年代

代表产品

核心特征

解决的问题

2016-2018

浪潮NF5280M4+4卡GPU

"通用服务器+GPU外挂"

深度学习初步需求

2019-2022

浪潮NF5488M5(8卡V100)

GPU中心主义+NVSwitch

大规模AI训练

2023-2025

H100 8卡服务器

Transformer Engine+液冷

大模型训练爆发

2025-2026

浪潮元脑SD200(64卡超节点)

超节点架构、统一内存

万亿参数模型+Agent高频推理

厂商

代表产品

特点

2024-2025表现

浪潮信息

元脑SD200/HC1000

中国第一、全球第二,液冷领先

营收+90%

工业富联

AI服务器代工

英伟达核心代工厂

营收+60%

超微电脑

H100/B200液冷服务器

北美市场主导

股价暴涨

华为

Atlas 800训练服务器

昇腾生态,国产替代

政府/国企市场

维度

AI服务器(数据中心级)

海风5090D(消费级/工作站级)

规模

千卡集群

单机单卡/4卡

用途

大模型训练、万并发推理

本地视频生成、TTS、图像生成

成本

¥200万+/台

¥2-3万/卡

功耗

10kW+

500W

散热

液冷系统

风冷

互联

NVLink + InfiniBand

PCIe(无NVLink)

5090D已完全满足海风需求,当客户规模突破100家且需要7×24服务时,再考虑AI服务器集群。

概念

本质

类比

AI服务器

一台机器(硬件产品)

工厂里的一台数控机床

智算中心

一座工厂(基础设施)

整座智能制造工厂

算力基础设施的完整层级: 第1层:AI芯片(H100/昇腾910B) ↓ 组装成 第2层:AI服务器(8卡/16卡/64卡服务器) ↓ 多台组成 第3层:服务器集群(机柜/机架,几十台) ↓ 配套网络+存储+供电+散热 第4层:智算中心(整座数据中心,几百~几千台服务器) ↓ 多中心互联 第5层:算力网络(区域级/国家级算力调度)

组成部分

具体内容

占比

AI服务器集群

数百~数千台AI服务器

~40%成本

高速网络

InfiniBand / 400Gbps以太网

~15%成本

存储系统

PB级并行文件存储

~15%成本

供电系统

变电站级供电,10MW~100MW

~20%成本

散热系统

液冷+冷却塔+精密空调

~10%成本

智算中心

建设方

规模

特点

阿里云 灵骏

阿里云

数万张GPU

公共云智算,按需租用

腾讯云 星脉

腾讯云

数千张GPU

面向大模型训练优化

华为云 昇腾AI

华为

数千张昇腾

国产替代,政府市场

火山引擎GPU集群

字节跳动

大规模

服务字节内部+外部

百度百舸

百度

大规模

与飞桨框架深度适配

对比维度

AI服务器

智算中心

本质

一台机器(硬件产品)

一座设施(基础设施)

规模

单机/单柜

整栋楼/整个园区

功耗

10kW(一台)

10MW~100MW(整座)

投资

¥200万/台

¥数十亿~百亿/座

交付物

可搬运的服务器设备

算力服务(PaaS/IaaS)

概念

本质

关系

智算中心

物理数据中心(硬件)

是"房子"

IaaS

基础设施即服务(商业模式)

是"租房方式"

MaaS/PaaS

平台层服务

是"房子里的装修+家具"

SaaS层(软件即服务) ↓ PaaS层(平台即服务)← MoMA MaaS就在这里 ↓ IaaS层(基础设施即服务)← 智算中心在这里 ↓ 物理层(智算中心/数据中心)

IaaS(Infrastructureas a Service,基础设施即服务)

通过互联网向用户提供虚拟化的计算资源,包括:

虚拟机(CPU/内存)

存储(云盘/对象存储)

网络(虚拟交换机/负载均衡)

安全(防火墙/安全组)

特点

说明

按需租用

按小时/按月付费,不用购买物理硬件

弹性伸缩

业务量大了自动加机器,小了自动减

自助服务

用户自己在网页上点击开通

资源池化

云厂商把成千上万台服务器虚拟化,按需分配

计量计费

精确到CPU小时、存储GB、流量GB

厂商

IaaS产品名

包含资源

阿里云

ECS(弹性计算服务)

虚拟机、云盘、公网IP

腾讯云

CVM(云服务器)

虚拟机、快照、安全组

华为云

ECS

虚拟机、EVS云硬盘、VPC

AWS

EC2

实例、EBS存储、S3对象存储

维度

自建智算中心

IaaS租用

初始投资

¥数亿

¥0

建设周期

6-12个月

分钟级

运维团队

10-20人

0人(云厂商负责)

GPU采购

排队等英伟达供货

随时可用

弹性

固定规模

按秒扩缩容

场景

是否需要IaaS

调用豆包/可灵/阿里API

❌ 不需要,直接用API

自己部署开源模型推理服务

✅ 需要租用GPU实例

微调垂类模型

✅ 需要租用GPU实例

纯本地5090D推理

❌ 不需要

当前判断:海风以API调用+本地5090D为主,暂时不需要直接在IaaS层操作。

概念

全称

层级关系

类比

PaaS

Platform as a Service(平台即服务)

大类

"电商平台"

MaaS

Model as a Service(模型即服务)

PaaS的子集

"电商平台里的AI专区"

关系:MaaS ⊂ PaaS(MaaS是PaaS的一种)

PaaS类型

代表产品

提供什么

通用应用PaaS

Heroku、Google App Engine

应用托管、自动扩缩容

数据库PaaS

AWS RDS、阿里云RDS

托管数据库服务

中间件PaaS

消息队列PaaS、缓存PaaS

Redis、Kafka托管

AI/ML PaaS

SageMaker、PAI

模型训练平台

模型PaaS(即MaaS)

MoMA、百炼、TokenHub

模型推理API服务

特征

说明

模型聚合

一个API网关接入数百个模型

按需调用

按Token计费,无需自建推理环境

智能路由

自动匹配最优模型(成本/效果平衡)

统一接口

标准化API,切换模型不改代码

产品

厂商

接入模型数

特点

MoMA

中国移动

300+

智能路由、秒级切换

百炼

阿里云

100+

与阿里生态深度集成

TokenHub

腾讯云

数十个

聚焦腾讯系模型

千帆

百度

数十个

与飞桨框架结合

火山方舟

字节跳动

数十个

豆包生态

维度

PaaS(大类)

MaaS(PaaS子集)

范围

所有平台服务

仅AI模型推理服务

服务对象

所有开发者

AI应用开发者

交付物

开发平台/运行时/中间件

模型API调用能力

计费单位

按资源使用量(CPU/内存)

按Token消耗

技术栈

应用框架、数据库、缓存

模型路由、推理引擎、Token调度

发布方:中国移动(2026移动云大会,5月8日)

名称:MoMA(移动模型服务平台)

规模:接入超300款国内主流AI大模型

定位:目前国内汇聚大模型数量最多的平台

能力

说明

统一API网关

用户一次接入,即可调用平台全部模型资源

Token集约化运营

首创词元集约化运营模式

智能路由引擎

自动分析用户需求,动态匹配最优模型

三种策略

成本优先 / 效果优先 / 均衡优先

秒级故障切换

模型超时/限流/故障时,自动秒级切换

接入模型

九天(自研)+ DeepSeek + 通义千问 + 豆包 + Kimi + GLM

单位Token成本降低约30%

资源占用率减少50%以上

日均调用量超千亿级

MoMA平台背后的基础设施依赖链: MoMA(PaaS) ↓ 调用 智算中心(IaaS)—— 中国移动自有智算中心 ↓ 包含 AI服务器集群 —— 浪潮/华为等厂商提供 ↓ 包含 GPU芯片 —— 英伟达H100 / 华为昇腾910B

关键点:

MoMA是软件平台,智算中心是硬件设施

MoMA运行在智算中心的服务器上

智算中心可以运行多个PaaS平台(MoMA只是其中之一)

产品

厂商

特点

百炼

阿里云

与阿里生态深度集成

TokenHub

腾讯云

聚焦腾讯系模型

千帆

百度

与飞桨框架深度适配

火山方舟

字节跳动

豆包生态

趋势

说明

对海风的影响

模型聚合

一个API调用300+模型

海风不需要自建模型库

智能路由

自动匹配最优模型

降低选择成本

Token集约化

成本降30%

降低API调用成本

秒级切换

故障自动转移

提高服务稳定性

海风是否需要使用MaaS?

场景

建议

当前阶段

直接使用豆包/可灵/阿里等单一API即可

中期(客户规模扩大)

考虑MaaS聚合平台,降低多模型管理成本

长期

MaaS的Token集约化可进一步降低成本

┌─────────────────────────────────────────┐ │ SaaS层:应用层 │ │ 钉钉AI、飞书智能伙伴、腾讯元宝 │ ├─────────────────────────────────────────┤ │ PaaS层:平台层 │ │ ┌─────────────────────────────────┐ │ │ │ MaaS:MoMA / 百炼 / TokenHub │ │ │ └─────────────────────────────────┘ │ │ 其他PaaS:百炼/TokenHub/千帆/火山方舟 │ ├─────────────────────────────────────────┤ │ IaaS层:基础设施层 │ │ 阿里云ECS / 腾讯云CVM / 华为云ECS │ ├─────────────────────────────────────────┤ │ 智算中心(物理数据中心) │ │ 阿里云灵骏 / 腾讯云星脉 / 华为昇腾AI │ ├─────────────────────────────────────────┤ │ AI服务器集群 │ │ 浪潮NF5688M6 / 华为Atlas 800 │ ├─────────────────────────────────────────┤ │ AI芯片 │ │ H100 / 昇腾910B / MI300X / 5090D │ └─────────────────────────────────────────┘

阶段

算力策略

原因

现在

5090D本地 + API调用

验证阶段,成本最低

近期(客户<50家)

租用云智算(按需)

弹性扩展,不用自建

中期(客户50-200家)

混合:本地+租用+托管

平衡成本与性能

远期(客户>200家)

考虑自建或合作智算中心

规模效应

当前配置:

本地推理(70-80%):5090D运行CosyVoice/Wan2.1/Flux

API调用(20-30%):豆包/可灵/阿里MaaS

当前不需要:AI服务器、智算中心、IaaS直接操作

Kiwi-KK 🥝 | 整合6份技术文档 + 序章引导 | 2026-05-10