华为AI算力演进：底层硬件、集群互联与软件生态

发布时间：2026-04-08 06:21阅读：24

在全球人工智能算力基础设施的博弈中，地缘政治与半导体供应链的割裂正在重塑底层硬件的走向。作为非NVIDIA体系的核心代表，华为通过Ascend（昇腾）和Kunpeng（鲲鹏）构建了从单点硬件突破迈向系统级集群补偿的演进路径。本报告将深入剖析华为AI算力体系的历史脉络、当前状况及2028年未来规划。

华为AI算力的发展史，实则是极端外部压力下的架构重构实验。自2019年美国实施严厉禁令后，华为无法获得台积电的EUV工艺及CoWoS封装产能。这直接限制了其AI芯片无法沿袭NVIDIA通过堆叠晶体管和提升显存带宽的传统摩尔定律路径。

制裁前，华为分别于2018年推出边缘计算芯片Ascend 310和2019年推出云端训练芯片Ascend 910。真正扛起国产替代大旗的是迭代后的Ascend 910B。2024至2025年初，910B虽在推理任务表现尚可，但因互联带宽和内存速度限制，在大模型训练中面临挑战。

市场数据显示，尽管受限，NVIDIA仍占主导。2024年其降级版H20销量约100万颗，华为910B约45万颗。为推动生态，华为2025年上半年向高校科研机构免费赠送数万张910B卡，意在抢占开发者心智。这反映了生态迁移的阻力，企业仍倾向性能受限的NVIDIA硬件。

2025年底至2026年初，双芯片设计的Ascend 910C大规模出货。其BF16算力约780 TFLOPS，约为NVIDIA H100（约2000 TFLOPS）推断性能的60%。

Ascend 910C量产坎坷，早期良率仅20%，经优化至40%。瓶颈不在光刻而在先进封装，基板级集成损耗高，导致成品数量锐减。

2026年4月管制收紧，NVIDIA H20禁售预期下，华为推出Ascend 920填补数据中心空白。该芯片非对标Blackwell，而是卡位中高端推断与中等训练。

920采用Chiplet架构，峰值算力超900 TFLOPS，配备HBM3，带宽4TB/s。针对Transformer和MoE优化的920C变体，能效比910C提升30-40%。

华为芯片规格受制于大陆供应链的物理极限，必须在光刻、封装和HBM三方面权衡替代。

最新芯片依赖中芯国际“N+3”工艺。非真正5nm，而是7nm级N+2的极限微缩。缺EUV下，依赖DUV多重曝光，导致边缘放置误差大，良率仅35%，成本高出40-50%。

为保供应链安全，政府主导“三重输出”战略，大基金三期注资，通过大规模投片换取产出，计划2026年底将产量提高三倍。

深圳建立巨型晶圆厂集群。若良率提升至50%盈亏平衡线，硬件成本有望在2026中期下降30%。

针对高算力SoC，华为搁置3D封装（X-stacking），转攻2.5D和基础平面工艺。

原因是3D堆叠热密度大，底部散热差，结合SMIC本身功耗高，易降频。华为选择务实路线，优化平面良率。

“内存墙”决定利用率。缺高端HBM，华为下一代必须依赖本土长鑫存储（CXMT）。

CXMT 2025下半年交付16nm HBM3，2026量产。规划20%产能（6万片/月）。良率约50%，虽低但实现了从无到有。

面对NVIDIA Rubin（R100）压倒性优势，华为公布2028年路线图。策略是：受限于制程，通过FP4/4-bit低精度、本土HBM和超大规模集群互连对冲单卡不足。

950系列场景解耦：950PR做推断（Prefill/推荐），950DT做解码/训练。

950PR搭载HiBL 1.0，112GB内存，带宽1.4-1.6 TB/s，TDP 600W。原生FP4，1.56 PFLOPS。

FP4下，700亿参数模型仅需35GB显存，吞吐量达NVIDIA H20的2.8倍。

950DT搭载HiZQ 2.0，144GB内存，带宽4TB/s，互连2 TB/s。

支持FP8/MXFP4，1 PFLOPS (FP8) / 2 PFLOPS (MXFP4)。

960（2027年）算力/带宽翻倍，支持HiF4。970（2028年）算力再翻倍，带宽提1.5倍，应对万亿参数模型。

（表格内容保持结构，改写单元格内的文字）

2028年Q1推出两款Kunpeng 950处理器。高性能96核，高密度256核，优化AI主控和云原生。

随着参数量增长，集群通信成关键。华为重构底层协议，推出UnifiedBus（灵渠）对抗NVLink/UALink。

不同于传统PCIe/InfiniBand层级，UB 2.0构建扁平全互连，消除协议转换延迟。

CloudMatrix-Infer中，利用光模块织网，覆盖16机架，实现384颗910C与192颗CPU耦合，提升流水线效率。

UBoE（基于以太网的UB）优化负载均衡，比RoCE v2延迟更低，减少硬件需求。

2025年底前开源UB技术规范、硬件及CANN编译器，打造独立生态标准。

基于UB，华为构建超大规模集群。Atlas 950 SuperPoD含8192颗950DT，16 PB/s带宽，8 EFLOPS算力。

（表格内容保持结构，改写单元格内的文字）

硬件需软件赋能。华为在CANN和MindSpore上巨额投入，打破CUDA壁垒。

CANN 8.0引入200+基础算子，开发周期从2人月缩至1.5人周，支持大规模专家并行。

尽管早期有稳定性问题，华为通过成立指导委员会开源资源管理，提升兼容性。

MindSpore市场份额增长，2024年占新增份额30%。

适配DeepSeek V3等万亿参数模型，重构通信原语，高效支撑MoE。

推出openMind和Pangu 5.0，与Hugging Face等合作，建立活跃ModelZoo。

边缘侧落地是自动驾驶。华为MDC平台展示全栈闭环。

始于2013年ME909T，爆发于MDC平台。细分场景如MDC 300F（商用车）。

MDC 610采用Ascend 610 + Infineon TC397，200 TOPS INT8，120W功耗，IP67，量产于极狐/阿维塔。

2025年4月发布ADS 4.0，核心MDC 1000采用Ascend 910B架构，1000 TOPS算力。

配套3cm激光雷达、舱内激光视觉传感器等，端到端延迟降50%，效率提20%。

智能汽车业务营收450亿（+72%），2025年交付58.9万辆（+32%）。

2024年底剥离汽车BU为引望智能（估值1150亿），统筹五大业务。

2025年营收8809亿（+2.2%），净利润680亿。研发投入1923亿（21.8%）。手机夺回第一。

本土厂商占41%份额。华为出货81.2万颗，占本土近50%。

政策要求新建智算中心50%国产芯片，为华为提供市场保护与数据反馈。

单芯片性能难超NVIDIA Rubin，但系统级工程代偿弥补差距。

华为通过低精度、本土HBM和超大规模集群，在业务层稀释硬件劣势，保障供应链安全。这是一部在绝境中重构体系的史诗。

← 上一篇：AI+教育视域下小学数学智能教学助手的研发与实践下一篇：人工智能助推文旅产业高品质发展 →