算力技术体系：AI底层架构完全指南

发布时间：2026-05-11 06:28阅读：25

基础层 · 算力底座 · 完整技术手册

序章：从AI爆发到算力底座崛起

AI芯片底层技术详解

AI服务器详解

智算中心与AI服务器的关系

IaaS详解

PaaS与MaaS的关系

中国移动MoMA MaaS详解

序章：从AI爆发到算力底座崛起

AI的发展并非线性，而是经历了三次算力需求的质变：

标志：AlexNet在ImageNet夺冠，CNN突破

算力需求：单张GTX 580就能跑

芯片：消费级GPU足够，CUDA生态初建

服务器：传统服务器+1-4张GPU外挂

基础设施：实验室级别，单机即可

标志：GPT-3（1750亿参数）、BERT、Transformer架构

算力需求：千亿参数 × 万亿Token，单卡算不了

芯片：必须数据中心级GPU（V100→A100→H100）

服务器：8卡NVSwitch互联成为标配

基础设施：千卡集群、专用智算中心开始出现

标志：GPT-4o、Claude 3.5、Sora视频生成、AI Agent

算力需求：

训练：万亿参数模型，需要万卡集群

推理：Agent每步都调API，Token消耗×100倍

多模态：视频生成算力是图片的1000倍

芯片：H100→B200→下一代，推理专用芯片崛起

服务器：64卡超节点取代8卡（浪潮元脑SD200）

基础设施：智算中心成为国家战略资源

这三次浪潮推动算力底座从"个人玩具"跃迁到"国家基建"：

2012年：个人开发者用1张GTX 580跑CNN ↓ 模型参数×1000倍 2019年：企业用8卡V100服务器跑BERT ↓ 模型参数×100倍 2023年：巨头用千卡H100集群跑GPT-4 ↓ Agent+多模态爆发 2026年：国家建智算中心，单中心数万张GPU

对海风来说，理解算力底座不是为了成为硬件专家，而是为了：

目的

为什么重要

成本决策

知道API调用的钱花在哪儿（Token→模型→GPU→芯片）

技术选型

知道什么时候该用本地5090D，什么时候该上云

商业谈判

和客户聊"我们用的H100集群"时知道背后是什么

趋势判断

看懂为什么英伟达市值3万亿，为什么国产替代是国策

本文按**"从底层到上层"**的顺序组织，每一层都是上一层的支撑：

① AI芯片（原子级） → ② AI服务器（分子级） → ③ 智算中心（细胞级） ↓ 虚拟化 ④ IaaS（组织级） → ⑤ PaaS/MaaS（器官级） → 支撑上层大模型与应用（个体级）

章节

核心问题

海风关联

① AI芯片

不同芯片区别？底层算法逻辑？

5090D为什么是最优选择

② AI服务器

与传统服务器区别？解决什么问题？

海风目前不需要，但要知道

③ 智算中心

与AI服务器关系？为什么国家要建？

API调用的底层设施

④ IaaS

云计算层级中的位置？解决什么问题？

按需租用的商业模式

⑤ PaaS/MaaS

两者是同一概念吗？

海风正在使用的API层

⑥ MoMA

中国移动最新MaaS平台是什么？

Token集约化降本30%

在深入各章节之前，先记住三个核心结论：

AI芯片的本质是"通用vs专用"的取舍：训练要通用GPU（H100），推理可以专用（TPU/昇腾），端侧必须极致低功耗（NPU）

海风的最优解是混合架构：本地5090D（70-80%）+ API调用（20-30%），成本和灵活性最佳平衡

算力正在从"买"变成"租"再到"按Token买"：IaaS租算力 → MaaS按Token买智能，海风不需要关心底层硬件

AI芯片之间的差异，不是"快和慢"的区别，而是"通用和专用"的取舍。

芯片类型

代表产品

设计哲学

优势场景

劣势

通用GPU

英伟达H100/B200、AMD MI300X

保留图形管线，通过张量核心加速AI

训练大模型、通用并行计算

功耗高、成本高

ASIC专用芯片

谷歌TPU v5、华为昇腾910B

抛弃图形功能，硬件级优化矩阵运算

推理、特定模型量产部署

灵活性差、生态依赖

端侧NPU

高通骁龙8 Elite、苹果M4

超低功耗、定点运算、内存紧耦合

手机实时推理、隐私计算

算力有限、模型受限

消费级GPU

RTX 5090/4090

平衡游戏+AI，显存适中

本地推理、中小模型微调

无NVLink、集群能力弱

核心运算：矩阵乘法（GEMM）

AI计算90%以上的时间都在做一件事：矩阵乘法。

Transformer的自注意力机制： Attention(Q, K, V) = softmax(Q × K^T / √d) × V 本质就是三个矩阵的连续乘法： - Q × K^T：查询矩阵乘键矩阵（N×N的相似度矩阵） - softmax后的注意力权重 × V：加权求和得到输出

矩阵乘法的计算量是O(N³)，参数规模达到千亿时，这个运算量极其庞大。所以AI芯片的核心设计目标就是：让矩阵乘法尽可能快。

CUDA核心：执行通用浮点运算（FP32/FP64），类似"通用工人"

TensorCore（张量核心）：专门加速矩阵乘法的专用单元，支持混合精度（FP16/FP8）

关键创新：Hopper架构的Transformer Engine，硬件级自动在FP16和FP8之间切换，训练速度提升9倍

设计：抛弃CUDA核心，整片芯片就是一个巨大的矩阵乘法阵列

脉动阵列（Systolic Array）：数据像心跳一样规律流动，每个计算单元只做乘加（MAC），流水线式传递

优势：能效比极高，专为Transformer推理优化

劣势：只能做矩阵运算，其他操作极弱

DaVinci Core：每个核心内含Cube计算单元，单周期完成4096次乘加运算

3D堆叠：计算、存储、控制三维集成，减少数据搬运

动态精度：FP16/INT8自动切换，推理时INT8加速，训练时FP16保证精度

精度

位宽

用途

速度提升

FP32

32位

科学计算、训练初期

基准

FP16

16位

混合精度训练

2-4倍

FP8

8位

大模型训练/推理

4-8倍

INT8

8位整数

推理量化

8-16倍

INT4

4位整数

端侧极致量化

16-32倍

指标

H100

B200

架构

Hopper

Blackwell

制程

台积电4nm

晶体管

800亿

2080亿（双芯粒）

FP16算力

1979 TFLOPS

4500 TFLOPS

显存

80GB HBM3

192GB HBM3e

内存带宽

3 TB/s

8 TB/s

专属引擎

Transformer Engine

Transformer Engine×2

指标

MI300X

架构

CDNA 3

制程

台积电5nm

晶体管

1340亿

FP16算力

1307 TFLOPS

显存

192GB HBM3

内存带宽

5.3 TB/s

特殊设计

CPU+GPU异构封装（Chiplet）

指标

昇腾910B

昇腾910C

架构

达芬奇

达芬奇（双芯粒）

制程

中芯国际7nm

晶体管

~540亿

~1000亿（双芯粒）

FP16算力

320 TFLOPS

~800 TFLOPS

显存

32GB HBM2

64GB HBM2e

达芬奇架构核心：Cube单元专攻矩阵乘法（单周期4096次乘加），动态精度调节，稀疏计算加速。

芯片

NPU名称

算力

精度

用途

高通骁龙8 Elite

Hexagon NPU

45 TOPS

INT8/INT4

手机实时推理

苹果M4

Neural Engine

38 TOPS

INT8/INT16

Mac本地AI

联发科天玑9400

APU 890

~40 TOPS

INT8/INT4

端侧大模型

维度

5090D

H100

昇腾910B

成本

¥2-3万/卡

¥20-30万/卡

¥8-12万/卡

显存

32GB GDDR7

80GB HBM3

32GB HBM2

生态

CUDA完美兼容

CUDA

CANN（需改造）

推理能力

FP16/INT8优秀

过剩

推理优化好

本地部署

✅ 桌面级

❌ 数据中心级

结论：海风做的是本地推理（视频生成、TTS、图像生成），不需要训练大模型。5090D在推理场景下性价比最高，CUDA生态零迁移成本。

传统服务器= 以CPU为中心的通用计算，处理网页请求、数据库查询、文件存储AI服务器= 以GPU/加速芯片为中心的异构并行计算，专为大模型训练/推理设计

两者差异不是"跑得快和慢"，而是"根本上的设计哲学不同"。

维度

传统服务器

AI服务器

计算核心

CPU（几十个核心）

GPU（数千个核心）+ CPU辅助

架构设计

串行为主，处理离散请求

并行为主，处理矩阵运算

内存

DDR4/DDR5（几百GB）

HBM3/HBM3e（几十GB~几百GB，带宽高10倍）

互联

PCIe（32GB/s）

NVLink（900GB/s）+ InfiniBand

散热

风冷

液冷（必备）

功耗

几百瓦

几千瓦~几十千瓦

用途

网站、数据库、ERP

大模型训练、推理、深度学习

┌─────────────────────────────────────────┐ │ 主板/背板 │ ├─────────────────────────────────────────┤ │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │GPU 0│ │GPU 1│ │GPU 2│ │GPU 3│ ← 4张 │ │ │H100 │ │H100 │ │H100 │ │H100 │ 上排 │ │ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │ │ └──────┴──────┴──────┘ │ │ NVSwitch互联 │ ← 无阻塞全互联 │ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ │ │GPU 4│ │GPU 5│ │GPU 6│ │GPU 7│ ← 4张 │ │ │H100 │ │H100 │ │H100 │ │H100 │ 下排 │ │ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │ │ └──────┴──────┴──────┘ │ │ NVSwitch互联 │ ├─────────────────────────────────────────┤ │ CPU（Intel Xeon / AMD EPYC）×2 │ ← 控制/调度/数据预处理 │ 系统内存：DDR5 1TB+ │ │ 存储：NVMe SSD / 高速网络存储 │ ├─────────────────────────────────────────┤ │ 网络：InfiniBand NDR / 400Gbps以太网 │ ← 集群互联 │ 电源：3000W×4 = 12000W │ ← 超高功耗 │ 散热：液冷管路（必备） │ ← 水冷/浸没式液冷 └─────────────────────────────────────────┘

训练1750亿参数GPT-3，单卡H100需要355年

方案：1024张H100集群 × 数周

NVLink 4.0带宽900GB/s，InfiniBand NDR 400Gbps

通信占比从50%降至<10%

1750亿参数FP16需要3.5TB显存

单机8卡 = 8 × 80GB = 640GB显存池

单卡H100功耗700W，单机10kW+，千卡集群1MW

液冷从"可选"变成"标配"（浪潮2022年"all in液冷"）

年代

代表产品

核心特征

解决的问题

2016-2018

浪潮NF5280M4+4卡GPU

"通用服务器+GPU外挂"

深度学习初步需求

2019-2022

浪潮NF5488M5（8卡V100）

GPU中心主义+NVSwitch

大规模AI训练

2023-2025

H100 8卡服务器

Transformer Engine+液冷

大模型训练爆发

2025-2026

浪潮元脑SD200（64卡超节点）

超节点架构、统一内存

万亿参数模型+Agent高频推理

厂商

代表产品

特点

2024-2025表现

浪潮信息

元脑SD200/HC1000

中国第一、全球第二，液冷领先

营收+90%

工业富联

AI服务器代工

英伟达核心代工厂

营收+60%

超微电脑

H100/B200液冷服务器

北美市场主导

股价暴涨

华为

Atlas 800训练服务器

昇腾生态，国产替代

政府/国企市场

维度

AI服务器（数据中心级）

海风5090D（消费级/工作站级）

规模

千卡集群

单机单卡/4卡

用途

大模型训练、万并发推理

本地视频生成、TTS、图像生成

成本

¥200万+/台

¥2-3万/卡

功耗

10kW+

500W

散热

液冷系统

风冷

互联

NVLink + InfiniBand

PCIe（无NVLink）

5090D已完全满足海风需求，当客户规模突破100家且需要7×24服务时，再考虑AI服务器集群。

概念

本质

类比

AI服务器

一台机器（硬件产品）

工厂里的一台数控机床

智算中心

一座工厂（基础设施）

整座智能制造工厂

算力基础设施的完整层级：第1层：AI芯片（H100/昇腾910B） ↓ 组装成第2层：AI服务器（8卡/16卡/64卡服务器） ↓ 多台组成第3层：服务器集群（机柜/机架，几十台） ↓ 配套网络+存储+供电+散热第4层：智算中心（整座数据中心，几百~几千台服务器） ↓ 多中心互联第5层：算力网络（区域级/国家级算力调度）

组成部分

具体内容

占比

AI服务器集群

数百~数千台AI服务器

~40%成本

高速网络

InfiniBand / 400Gbps以太网

~15%成本

存储系统

PB级并行文件存储

~15%成本

供电系统

变电站级供电，10MW~100MW

~20%成本

散热系统

液冷+冷却塔+精密空调

~10%成本

智算中心

建设方

规模

特点

阿里云灵骏

阿里云

数万张GPU

公共云智算，按需租用

腾讯云星脉

腾讯云

数千张GPU

面向大模型训练优化

华为云昇腾AI

华为

数千张昇腾

国产替代，政府市场

火山引擎GPU集群

字节跳动

大规模

服务字节内部+外部

百度百舸

百度

大规模

与飞桨框架深度适配

对比维度

AI服务器

智算中心

本质

一台机器（硬件产品）

一座设施（基础设施）

规模

单机/单柜

整栋楼/整个园区

功耗

10kW（一台）

10MW~100MW（整座）

投资

¥200万/台

¥数十亿~百亿/座

交付物

可搬运的服务器设备

算力服务（PaaS/IaaS）

概念

本质

关系

智算中心

物理数据中心（硬件）

是"房子"

IaaS

基础设施即服务（商业模式）

是"租房方式"

MaaS/PaaS

平台层服务

是"房子里的装修+家具"

SaaS层（软件即服务） ↓ PaaS层（平台即服务）← MoMA MaaS就在这里 ↓ IaaS层（基础设施即服务）← 智算中心在这里 ↓ 物理层（智算中心/数据中心）

IaaS（Infrastructureas a Service，基础设施即服务）

通过互联网向用户提供虚拟化的计算资源，包括：

虚拟机（CPU/内存）

存储（云盘/对象存储）

网络（虚拟交换机/负载均衡）

安全（防火墙/安全组）

特点

说明

按需租用

按小时/按月付费，不用购买物理硬件

弹性伸缩

业务量大了自动加机器，小了自动减

自助服务

用户自己在网页上点击开通

资源池化

云厂商把成千上万台服务器虚拟化，按需分配

计量计费

精确到CPU小时、存储GB、流量GB

厂商

IaaS产品名

包含资源

阿里云

ECS（弹性计算服务）

虚拟机、云盘、公网IP

腾讯云

CVM（云服务器）

虚拟机、快照、安全组

华为云

ECS

虚拟机、EVS云硬盘、VPC

AWS

EC2

实例、EBS存储、S3对象存储

维度

自建智算中心

IaaS租用

初始投资

¥数亿

¥0

建设周期

6-12个月

分钟级

运维团队

10-20人

0人（云厂商负责）

GPU采购

排队等英伟达供货

随时可用

弹性

固定规模

按秒扩缩容

场景

是否需要IaaS

调用豆包/可灵/阿里API

❌ 不需要，直接用API

自己部署开源模型推理服务

✅ 需要租用GPU实例

微调垂类模型

✅ 需要租用GPU实例

纯本地5090D推理

❌ 不需要

当前判断：海风以API调用+本地5090D为主，暂时不需要直接在IaaS层操作。

概念

全称

层级关系

类比

PaaS

Platform as a Service（平台即服务）

大类

"电商平台"

MaaS

Model as a Service（模型即服务）

PaaS的子集

"电商平台里的AI专区"

关系：MaaS ⊂ PaaS（MaaS是PaaS的一种）

PaaS类型

代表产品

提供什么

通用应用PaaS

Heroku、Google App Engine

应用托管、自动扩缩容

数据库PaaS

AWS RDS、阿里云RDS

托管数据库服务

中间件PaaS

消息队列PaaS、缓存PaaS

Redis、Kafka托管

AI/ML PaaS

SageMaker、PAI

模型训练平台

模型PaaS（即MaaS）

MoMA、百炼、TokenHub

模型推理API服务

特征

说明

模型聚合

一个API网关接入数百个模型

按需调用

按Token计费，无需自建推理环境

智能路由

自动匹配最优模型（成本/效果平衡）

统一接口

标准化API，切换模型不改代码

产品

厂商

接入模型数

特点

MoMA

中国移动

300+

智能路由、秒级切换

百炼

阿里云

100+

与阿里生态深度集成

TokenHub

腾讯云

数十个

聚焦腾讯系模型

千帆

百度

数十个

与飞桨框架结合

火山方舟

字节跳动

数十个

豆包生态

维度

PaaS（大类）

MaaS（PaaS子集）

范围

所有平台服务

仅AI模型推理服务

服务对象

所有开发者

AI应用开发者

交付物

开发平台/运行时/中间件

模型API调用能力

计费单位

按资源使用量（CPU/内存）

按Token消耗

技术栈

应用框架、数据库、缓存

模型路由、推理引擎、Token调度

发布方：中国移动（2026移动云大会，5月8日）

名称：MoMA（移动模型服务平台）

规模：接入超300款国内主流AI大模型

定位：目前国内汇聚大模型数量最多的平台

能力

说明

统一API网关

用户一次接入，即可调用平台全部模型资源

Token集约化运营

首创词元集约化运营模式

智能路由引擎

自动分析用户需求，动态匹配最优模型

三种策略

成本优先 / 效果优先 / 均衡优先

秒级故障切换

模型超时/限流/故障时，自动秒级切换

接入模型

九天（自研）+ DeepSeek + 通义千问 + 豆包 + Kimi + GLM

单位Token成本降低约30%

资源占用率减少50%以上

日均调用量超千亿级

MoMA平台背后的基础设施依赖链： MoMA（PaaS） ↓ 调用智算中心（IaaS）—— 中国移动自有智算中心 ↓ 包含 AI服务器集群 —— 浪潮/华为等厂商提供 ↓ 包含 GPU芯片 —— 英伟达H100 / 华为昇腾910B

关键点：

MoMA是软件平台，智算中心是硬件设施

MoMA运行在智算中心的服务器上

智算中心可以运行多个PaaS平台（MoMA只是其中之一）

产品

厂商

特点

百炼

阿里云

与阿里生态深度集成

TokenHub

腾讯云

聚焦腾讯系模型

千帆

百度

与飞桨框架深度适配

火山方舟

字节跳动

豆包生态

趋势

说明

对海风的影响

模型聚合

一个API调用300+模型

海风不需要自建模型库

智能路由

自动匹配最优模型

降低选择成本

Token集约化

成本降30%

降低API调用成本

秒级切换

故障自动转移

提高服务稳定性

海风是否需要使用MaaS？

场景

建议

当前阶段

直接使用豆包/可灵/阿里等单一API即可

中期（客户规模扩大）

考虑MaaS聚合平台，降低多模型管理成本

长期

MaaS的Token集约化可进一步降低成本

┌─────────────────────────────────────────┐ │ SaaS层：应用层 │ │ 钉钉AI、飞书智能伙伴、腾讯元宝 │ ├─────────────────────────────────────────┤ │ PaaS层：平台层 │ │ ┌─────────────────────────────────┐ │ │ │ MaaS：MoMA / 百炼 / TokenHub │ │ │ └─────────────────────────────────┘ │ │ 其他PaaS：百炼/TokenHub/千帆/火山方舟 │ ├─────────────────────────────────────────┤ │ IaaS层：基础设施层 │ │ 阿里云ECS / 腾讯云CVM / 华为云ECS │ ├─────────────────────────────────────────┤ │ 智算中心（物理数据中心） │ │ 阿里云灵骏 / 腾讯云星脉 / 华为昇腾AI │ ├─────────────────────────────────────────┤ │ AI服务器集群 │ │ 浪潮NF5688M6 / 华为Atlas 800 │ ├─────────────────────────────────────────┤ │ AI芯片 │ │ H100 / 昇腾910B / MI300X / 5090D │ └─────────────────────────────────────────┘

阶段

算力策略

原因

现在

5090D本地 + API调用

验证阶段，成本最低

近期（客户<50家）

租用云智算（按需）

弹性扩展，不用自建

中期（客户50-200家）

混合：本地+租用+托管

平衡成本与性能

远期（客户>200家）

考虑自建或合作智算中心

规模效应

当前配置：

本地推理(70-80%)：5090D运行CosyVoice/Wan2.1/Flux

API调用(20-30%)：豆包/可灵/阿里MaaS

当前不需要：AI服务器、智算中心、IaaS直接操作

Kiwi-KK 🥝 | 整合6份技术文档 + 序章引导 | 2026-05-10

← 上一篇：真正传奇无需AI造假下一篇：AI 萃取术：职场的终极熔炉 →