算力技术体系:AI底层架构完全指南
基础层 · 算力底座 · 完整技术手册
序章:从AI爆发到算力底座崛起
AI芯片底层技术详解
AI服务器详解
智算中心与AI服务器的关系
IaaS详解
PaaS与MaaS的关系
中国移动MoMA MaaS详解
序章:从AI爆发到算力底座崛起
AI的发展并非线性,而是经历了三次算力需求的质变:
标志:AlexNet在ImageNet夺冠,CNN突破
算力需求:单张GTX 580就能跑
芯片:消费级GPU足够,CUDA生态初建
服务器:传统服务器+1-4张GPU外挂
基础设施:实验室级别,单机即可
标志:GPT-3(1750亿参数)、BERT、Transformer架构
算力需求:千亿参数 × 万亿Token,单卡算不了
芯片:必须数据中心级GPU(V100→A100→H100)
服务器:8卡NVSwitch互联成为标配
基础设施:千卡集群、专用智算中心开始出现
标志:GPT-4o、Claude 3.5、Sora视频生成、AI Agent
算力需求:
训练:万亿参数模型,需要万卡集群
推理:Agent每步都调API,Token消耗×100倍
多模态:视频生成算力是图片的1000倍
芯片:H100→B200→下一代,推理专用芯片崛起
服务器:64卡超节点取代8卡(浪潮元脑SD200)
基础设施:智算中心成为国家战略资源
这三次浪潮推动算力底座从"个人玩具"跃迁到"国家基建":
2012年:个人开发者用1张GTX 580跑CNN ↓ 模型参数×1000倍 2019年:企业用8卡V100服务器跑BERT ↓ 模型参数×100倍 2023年:巨头用千卡H100集群跑GPT-4 ↓ Agent+多模态爆发 2026年:国家建智算中心,单中心数万张GPU
对海风来说,理解算力底座不是为了成为硬件专家,而是为了:
目的
为什么重要
成本决策
知道API调用的钱花在哪儿(Token→模型→GPU→芯片)
技术选型
知道什么时候该用本地5090D,什么时候该上云
商业谈判
和客户聊"我们用的H100集群"时知道背后是什么
趋势判断
看懂为什么英伟达市值3万亿,为什么国产替代是国策
本文按**"从底层到上层"**的顺序组织,每一层都是上一层的支撑:
① AI芯片(原子级) → ② AI服务器(分子级) → ③ 智算中心(细胞级) ↓ 虚拟化 ④ IaaS(组织级) → ⑤ PaaS/MaaS(器官级) → 支撑上层大模型与应用(个体级)
章节
核心问题
海风关联
① AI芯片
不同芯片区别?底层算法逻辑?
5090D为什么是最优选择
② AI服务器
与传统服务器区别?解决什么问题?
海风目前不需要,但要知道
③ 智算中心
与AI服务器关系?为什么国家要建?
API调用的底层设施
④ IaaS
云计算层级中的位置?解决什么问题?
按需租用的商业模式
⑤ PaaS/MaaS
两者是同一概念吗?
海风正在使用的API层
⑥ MoMA
中国移动最新MaaS平台是什么?
Token集约化降本30%
在深入各章节之前,先记住三个核心结论:
AI芯片的本质是"通用vs专用"的取舍:训练要通用GPU(H100),推理可以专用(TPU/昇腾),端侧必须极致低功耗(NPU)
海风的最优解是混合架构:本地5090D(70-80%)+ API调用(20-30%),成本和灵活性最佳平衡
算力正在从"买"变成"租"再到"按Token买":IaaS租算力 → MaaS按Token买智能,海风不需要关心底层硬件
AI芯片之间的差异,不是"快和慢"的区别,而是"通用和专用"的取舍。
芯片类型
代表产品
设计哲学
优势场景
劣势
通用GPU
英伟达H100/B200、AMD MI300X
保留图形管线,通过张量核心加速AI
训练大模型、通用并行计算
功耗高、成本高
ASIC专用芯片
谷歌TPU v5、华为昇腾910B
抛弃图形功能,硬件级优化矩阵运算
推理、特定模型量产部署
灵活性差、生态依赖
端侧NPU
高通骁龙8 Elite、苹果M4
超低功耗、定点运算、内存紧耦合
手机实时推理、隐私计算
算力有限、模型受限
消费级GPU
RTX 5090/4090
平衡游戏+AI,显存适中
本地推理、中小模型微调
无NVLink、集群能力弱
核心运算:矩阵乘法(GEMM)
AI计算90%以上的时间都在做一件事:矩阵乘法。
Transformer的自注意力机制: Attention(Q, K, V) = softmax(Q × K^T / √d) × V 本质就是三个矩阵的连续乘法: - Q × K^T:查询矩阵乘键矩阵(N×N的相似度矩阵) - softmax后的注意力权重 × V:加权求和得到输出
矩阵乘法的计算量是O(N³),参数规模达到千亿时,这个运算量极其庞大。所以AI芯片的核心设计目标就是:让矩阵乘法尽可能快。
CUDA核心:执行通用浮点运算(FP32/FP64),类似"通用工人"
TensorCore(张量核心):专门加速矩阵乘法的专用单元,支持混合精度(FP16/FP8)
关键创新:Hopper架构的Transformer Engine,硬件级自动在FP16和FP8之间切换,训练速度提升9倍
设计:抛弃CUDA核心,整片芯片就是一个巨大的矩阵乘法阵列
脉动阵列(Systolic Array):数据像心跳一样规律流动,每个计算单元只做乘加(MAC),流水线式传递
优势:能效比极高,专为Transformer推理优化
劣势:只能做矩阵运算,其他操作极弱
DaVinci Core:每个核心内含Cube计算单元,单周期完成4096次乘加运算
3D堆叠:计算、存储、控制三维集成,减少数据搬运
动态精度:FP16/INT8自动切换,推理时INT8加速,训练时FP16保证精度
精度
位宽
用途
速度提升
FP32
32位
科学计算、训练初期
基准
FP16
16位
混合精度训练
2-4倍
FP8
8位
大模型训练/推理
4-8倍
INT8
8位整数
推理量化
8-16倍
INT4
4位整数
端侧极致量化
16-32倍
指标
H100
B200
架构
Hopper
Blackwell
制程
台积电4nm
台积电4nm
晶体管
800亿
2080亿(双芯粒)
FP16算力
1979 TFLOPS
4500 TFLOPS
显存
80GB HBM3
192GB HBM3e
内存带宽
3 TB/s
8 TB/s
专属引擎
Transformer Engine
Transformer Engine×2
指标
MI300X
架构
CDNA 3
制程
台积电5nm
晶体管
1340亿
FP16算力
1307 TFLOPS
显存
192GB HBM3
内存带宽
5.3 TB/s
特殊设计
CPU+GPU异构封装(Chiplet)
指标
昇腾910B
昇腾910C
架构
达芬奇
达芬奇(双芯粒)
制程
中芯国际7nm
中芯国际7nm
晶体管
~540亿
~1000亿(双芯粒)
FP16算力
320 TFLOPS
~800 TFLOPS
显存
32GB HBM2
64GB HBM2e
达芬奇架构核心:Cube单元专攻矩阵乘法(单周期4096次乘加),动态精度调节,稀疏计算加速。
芯片
NPU名称
算力
精度
用途
高通骁龙8 Elite
Hexagon NPU
45 TOPS
INT8/INT4
手机实时推理
苹果M4
Neural Engine
38 TOPS
INT8/INT16
Mac本地AI
联发科天玑9400
APU 890
~40 TOPS
INT8/INT4
端侧大模型
维度
5090D
H100
昇腾910B
成本
¥2-3万/卡
¥20-30万/卡
¥8-12万/卡
显存
32GB GDDR7
80GB HBM3
32GB HBM2
生态
CUDA完美兼容
CUDA
CANN(需改造)
推理能力
FP16/INT8优秀
过剩
推理优化好
本地部署
✅ 桌面级
❌ 数据中心级
❌ 数据中心级
结论:海风做的是本地推理(视频生成、TTS、图像生成),不需要训练大模型。5090D在推理场景下性价比最高,CUDA生态零迁移成本。
传统服务器= 以CPU为中心的通用计算,处理网页请求、数据库查询、文件存储AI服务器= 以GPU/加速芯片为中心的异构并行计算,专为大模型训练/推理设计
两者差异不是"跑得快和慢",而是"根本上的设计哲学不同"。
维度
传统服务器
AI服务器
计算核心
CPU(几十个核心)
GPU(数千个核心)+ CPU辅助
架构设计
串行为主,处理离散请求
并行为主,处理矩阵运算
内存
DDR4/DDR5(几百GB)
HBM3/HBM3e(几十GB~几百GB,带宽高10倍)
互联
PCIe(32GB/s)
NVLink(900GB/s)+ InfiniBand
散热
风冷
液冷(必备)
功耗
几百瓦
几千瓦~几十千瓦
用途
网站、数据库、ERP
大模型训练、推理、深度学习
┌─────────────────────────────────────────┐ │ 主板/背板 │ ├─────────────────────────────────────────┤ │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │GPU 0│ │GPU 1│ │GPU 2│ │GPU 3│ ← 4张 │ │ │H100 │ │H100 │ │H100 │ │H100 │ 上排 │ │ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │ │ └──────┴──────┴──────┘ │ │ NVSwitch互联 │ ← 无阻塞全互联 │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │GPU 4│ │GPU 5│ │GPU 6│ │GPU 7│ ← 4张 │ │ │H100 │ │H100 │ │H100 │ │H100 │ 下排 │ │ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │ │ └──────┴──────┴──────┘ │ │ NVSwitch互联 │ ├─────────────────────────────────────────┤ │ CPU(Intel Xeon / AMD EPYC)×2 │ ← 控制/调度/数据预处理 │ 系统内存:DDR5 1TB+ │ │ 存储:NVMe SSD / 高速网络存储 │ ├─────────────────────────────────────────┤ │ 网络:InfiniBand NDR / 400Gbps以太网 │ ← 集群互联 │ 电源:3000W×4 = 12000W │ ← 超高功耗 │ 散热:液冷管路(必备) │ ← 水冷/浸没式液冷 └─────────────────────────────────────────┘
训练1750亿参数GPT-3,单卡H100需要355年
方案:1024张H100集群 × 数周
NVLink 4.0带宽900GB/s,InfiniBand NDR 400Gbps
通信占比从50%降至<10%
1750亿参数FP16需要3.5TB显存
单机8卡 = 8 × 80GB = 640GB显存池
单卡H100功耗700W,单机10kW+,千卡集群1MW
液冷从"可选"变成"标配"(浪潮2022年"all in液冷")
年代
代表产品
核心特征
解决的问题
2016-2018
浪潮NF5280M4+4卡GPU
"通用服务器+GPU外挂"
深度学习初步需求
2019-2022
浪潮NF5488M5(8卡V100)
GPU中心主义+NVSwitch
大规模AI训练
2023-2025
H100 8卡服务器
Transformer Engine+液冷
大模型训练爆发
2025-2026
浪潮元脑SD200(64卡超节点)
超节点架构、统一内存
万亿参数模型+Agent高频推理
厂商
代表产品
特点
2024-2025表现
浪潮信息
元脑SD200/HC1000
中国第一、全球第二,液冷领先
营收+90%
工业富联
AI服务器代工
英伟达核心代工厂
营收+60%
超微电脑
H100/B200液冷服务器
北美市场主导
股价暴涨
华为
Atlas 800训练服务器
昇腾生态,国产替代
政府/国企市场
维度
AI服务器(数据中心级)
海风5090D(消费级/工作站级)
规模
千卡集群
单机单卡/4卡
用途
大模型训练、万并发推理
本地视频生成、TTS、图像生成
成本
¥200万+/台
¥2-3万/卡
功耗
10kW+
500W
散热
液冷系统
风冷
互联
NVLink + InfiniBand
PCIe(无NVLink)
5090D已完全满足海风需求,当客户规模突破100家且需要7×24服务时,再考虑AI服务器集群。
概念
本质
类比
AI服务器
一台机器(硬件产品)
工厂里的一台数控机床
智算中心
一座工厂(基础设施)
整座智能制造工厂
算力基础设施的完整层级: 第1层:AI芯片(H100/昇腾910B) ↓ 组装成 第2层:AI服务器(8卡/16卡/64卡服务器) ↓ 多台组成 第3层:服务器集群(机柜/机架,几十台) ↓ 配套网络+存储+供电+散热 第4层:智算中心(整座数据中心,几百~几千台服务器) ↓ 多中心互联 第5层:算力网络(区域级/国家级算力调度)
组成部分
具体内容
占比
AI服务器集群
数百~数千台AI服务器
~40%成本
高速网络
InfiniBand / 400Gbps以太网
~15%成本
存储系统
PB级并行文件存储
~15%成本
供电系统
变电站级供电,10MW~100MW
~20%成本
散热系统
液冷+冷却塔+精密空调
~10%成本
智算中心
建设方
规模
特点
阿里云 灵骏
阿里云
数万张GPU
公共云智算,按需租用
腾讯云 星脉
腾讯云
数千张GPU
面向大模型训练优化
华为云 昇腾AI
华为
数千张昇腾
国产替代,政府市场
火山引擎GPU集群
字节跳动
大规模
服务字节内部+外部
百度百舸
百度
大规模
与飞桨框架深度适配
对比维度
AI服务器
智算中心
本质
一台机器(硬件产品)
一座设施(基础设施)
规模
单机/单柜
整栋楼/整个园区
功耗
10kW(一台)
10MW~100MW(整座)
投资
¥200万/台
¥数十亿~百亿/座
交付物
可搬运的服务器设备
算力服务(PaaS/IaaS)
概念
本质
关系
智算中心
物理数据中心(硬件)
是"房子"
IaaS
基础设施即服务(商业模式)
是"租房方式"
MaaS/PaaS
平台层服务
是"房子里的装修+家具"
SaaS层(软件即服务) ↓ PaaS层(平台即服务)← MoMA MaaS就在这里 ↓ IaaS层(基础设施即服务)← 智算中心在这里 ↓ 物理层(智算中心/数据中心)
IaaS(Infrastructureas a Service,基础设施即服务)
通过互联网向用户提供虚拟化的计算资源,包括:
虚拟机(CPU/内存)
存储(云盘/对象存储)
网络(虚拟交换机/负载均衡)
安全(防火墙/安全组)
特点
说明
按需租用
按小时/按月付费,不用购买物理硬件
弹性伸缩
业务量大了自动加机器,小了自动减
自助服务
用户自己在网页上点击开通
资源池化
云厂商把成千上万台服务器虚拟化,按需分配
计量计费
精确到CPU小时、存储GB、流量GB
厂商
IaaS产品名
包含资源
阿里云
ECS(弹性计算服务)
虚拟机、云盘、公网IP
腾讯云
CVM(云服务器)
虚拟机、快照、安全组
华为云
ECS
虚拟机、EVS云硬盘、VPC
AWS
EC2
实例、EBS存储、S3对象存储
维度
自建智算中心
IaaS租用
初始投资
¥数亿
¥0
建设周期
6-12个月
分钟级
运维团队
10-20人
0人(云厂商负责)
GPU采购
排队等英伟达供货
随时可用
弹性
固定规模
按秒扩缩容
场景
是否需要IaaS
调用豆包/可灵/阿里API
❌ 不需要,直接用API
自己部署开源模型推理服务
✅ 需要租用GPU实例
微调垂类模型
✅ 需要租用GPU实例
纯本地5090D推理
❌ 不需要
当前判断:海风以API调用+本地5090D为主,暂时不需要直接在IaaS层操作。
概念
全称
层级关系
类比
PaaS
Platform as a Service(平台即服务)
大类
"电商平台"
MaaS
Model as a Service(模型即服务)
PaaS的子集
"电商平台里的AI专区"
关系:MaaS ⊂ PaaS(MaaS是PaaS的一种)
PaaS类型
代表产品
提供什么
通用应用PaaS
Heroku、Google App Engine
应用托管、自动扩缩容
数据库PaaS
AWS RDS、阿里云RDS
托管数据库服务
中间件PaaS
消息队列PaaS、缓存PaaS
Redis、Kafka托管
AI/ML PaaS
SageMaker、PAI
模型训练平台
模型PaaS(即MaaS)
MoMA、百炼、TokenHub
模型推理API服务
特征
说明
模型聚合
一个API网关接入数百个模型
按需调用
按Token计费,无需自建推理环境
智能路由
自动匹配最优模型(成本/效果平衡)
统一接口
标准化API,切换模型不改代码
产品
厂商
接入模型数
特点
MoMA
中国移动
300+
智能路由、秒级切换
百炼
阿里云
100+
与阿里生态深度集成
TokenHub
腾讯云
数十个
聚焦腾讯系模型
千帆
百度
数十个
与飞桨框架结合
火山方舟
字节跳动
数十个
豆包生态
维度
PaaS(大类)
MaaS(PaaS子集)
范围
所有平台服务
仅AI模型推理服务
服务对象
所有开发者
AI应用开发者
交付物
开发平台/运行时/中间件
模型API调用能力
计费单位
按资源使用量(CPU/内存)
按Token消耗
技术栈
应用框架、数据库、缓存
模型路由、推理引擎、Token调度
发布方:中国移动(2026移动云大会,5月8日)
名称:MoMA(移动模型服务平台)
规模:接入超300款国内主流AI大模型
定位:目前国内汇聚大模型数量最多的平台
能力
说明
统一API网关
用户一次接入,即可调用平台全部模型资源
Token集约化运营
首创词元集约化运营模式
智能路由引擎
自动分析用户需求,动态匹配最优模型
三种策略
成本优先 / 效果优先 / 均衡优先
秒级故障切换
模型超时/限流/故障时,自动秒级切换
接入模型
九天(自研)+ DeepSeek + 通义千问 + 豆包 + Kimi + GLM
单位Token成本降低约30%
资源占用率减少50%以上
日均调用量超千亿级
MoMA平台背后的基础设施依赖链: MoMA(PaaS) ↓ 调用 智算中心(IaaS)—— 中国移动自有智算中心 ↓ 包含 AI服务器集群 —— 浪潮/华为等厂商提供 ↓ 包含 GPU芯片 —— 英伟达H100 / 华为昇腾910B
关键点:
MoMA是软件平台,智算中心是硬件设施
MoMA运行在智算中心的服务器上
智算中心可以运行多个PaaS平台(MoMA只是其中之一)
产品
厂商
特点
百炼
阿里云
与阿里生态深度集成
TokenHub
腾讯云
聚焦腾讯系模型
千帆
百度
与飞桨框架深度适配
火山方舟
字节跳动
豆包生态
趋势
说明
对海风的影响
模型聚合
一个API调用300+模型
海风不需要自建模型库
智能路由
自动匹配最优模型
降低选择成本
Token集约化
成本降30%
降低API调用成本
秒级切换
故障自动转移
提高服务稳定性
海风是否需要使用MaaS?
场景
建议
当前阶段
直接使用豆包/可灵/阿里等单一API即可
中期(客户规模扩大)
考虑MaaS聚合平台,降低多模型管理成本
长期
MaaS的Token集约化可进一步降低成本
┌─────────────────────────────────────────┐ │ SaaS层:应用层 │ │ 钉钉AI、飞书智能伙伴、腾讯元宝 │ ├─────────────────────────────────────────┤ │ PaaS层:平台层 │ │ ┌─────────────────────────────────┐ │ │ │ MaaS:MoMA / 百炼 / TokenHub │ │ │ └─────────────────────────────────┘ │ │ 其他PaaS:百炼/TokenHub/千帆/火山方舟 │ ├─────────────────────────────────────────┤ │ IaaS层:基础设施层 │ │ 阿里云ECS / 腾讯云CVM / 华为云ECS │ ├─────────────────────────────────────────┤ │ 智算中心(物理数据中心) │ │ 阿里云灵骏 / 腾讯云星脉 / 华为昇腾AI │ ├─────────────────────────────────────────┤ │ AI服务器集群 │ │ 浪潮NF5688M6 / 华为Atlas 800 │ ├─────────────────────────────────────────┤ │ AI芯片 │ │ H100 / 昇腾910B / MI300X / 5090D │ └─────────────────────────────────────────┘
阶段
算力策略
原因
现在
5090D本地 + API调用
验证阶段,成本最低
近期(客户<50家)
租用云智算(按需)
弹性扩展,不用自建
中期(客户50-200家)
混合:本地+租用+托管
平衡成本与性能
远期(客户>200家)
考虑自建或合作智算中心
规模效应
当前配置:
本地推理(70-80%):5090D运行CosyVoice/Wan2.1/Flux
API调用(20-30%):豆包/可灵/阿里MaaS
当前不需要:AI服务器、智算中心、IaaS直接操作
Kiwi-KK 🥝 | 整合6份技术文档 + 序章引导 | 2026-05-10