华为AI算力演进:底层硬件、集群互联与软件生态
在全球人工智能算力基础设施的博弈中,地缘政治与半导体供应链的割裂正在重塑底层硬件的走向。作为非NVIDIA体系的核心代表,华为通过Ascend(昇腾)和Kunpeng(鲲鹏)构建了从单点硬件突破迈向系统级集群补偿的演进路径。本报告将深入剖析华为AI算力体系的历史脉络、当前状况及2028年未来规划。
华为AI算力的发展史,实则是极端外部压力下的架构重构实验。自2019年美国实施严厉禁令后,华为无法获得台积电的EUV工艺及CoWoS封装产能。这直接限制了其AI芯片无法沿袭NVIDIA通过堆叠晶体管和提升显存带宽的传统摩尔定律路径。
制裁前,华为分别于2018年推出边缘计算芯片Ascend 310和2019年推出云端训练芯片Ascend 910。真正扛起国产替代大旗的是迭代后的Ascend 910B。2024至2025年初,910B虽在推理任务表现尚可,但因互联带宽和内存速度限制,在大模型训练中面临挑战。
市场数据显示,尽管受限,NVIDIA仍占主导。2024年其降级版H20销量约100万颗,华为910B约45万颗。为推动生态,华为2025年上半年向高校科研机构免费赠送数万张910B卡,意在抢占开发者心智。这反映了生态迁移的阻力,企业仍倾向性能受限的NVIDIA硬件。
2025年底至2026年初,双芯片设计的Ascend 910C大规模出货。其BF16算力约780 TFLOPS,约为NVIDIA H100(约2000 TFLOPS)推断性能的60%。
Ascend 910C量产坎坷,早期良率仅20%,经优化至40%。瓶颈不在光刻而在先进封装,基板级集成损耗高,导致成品数量锐减。
2026年4月管制收紧,NVIDIA H20禁售预期下,华为推出Ascend 920填补数据中心空白。该芯片非对标Blackwell,而是卡位中高端推断与中等训练。
920采用Chiplet架构,峰值算力超900 TFLOPS,配备HBM3,带宽4TB/s。针对Transformer和MoE优化的920C变体,能效比910C提升30-40%。
华为芯片规格受制于大陆供应链的物理极限,必须在光刻、封装和HBM三方面权衡替代。
最新芯片依赖中芯国际“N+3”工艺。非真正5nm,而是7nm级N+2的极限微缩。缺EUV下,依赖DUV多重曝光,导致边缘放置误差大,良率仅35%,成本高出40-50%。
为保供应链安全,政府主导“三重输出”战略,大基金三期注资,通过大规模投片换取产出,计划2026年底将产量提高三倍。
深圳建立巨型晶圆厂集群。若良率提升至50%盈亏平衡线,硬件成本有望在2026中期下降30%。
针对高算力SoC,华为搁置3D封装(X-stacking),转攻2.5D和基础平面工艺。
原因是3D堆叠热密度大,底部散热差,结合SMIC本身功耗高,易降频。华为选择务实路线,优化平面良率。
“内存墙”决定利用率。缺高端HBM,华为下一代必须依赖本土长鑫存储(CXMT)。
CXMT 2025下半年交付16nm HBM3,2026量产。规划20%产能(6万片/月)。良率约50%,虽低但实现了从无到有。
面对NVIDIA Rubin(R100)压倒性优势,华为公布2028年路线图。策略是:受限于制程,通过FP4/4-bit低精度、本土HBM和超大规模集群互连对冲单卡不足。
950系列场景解耦:950PR做推断(Prefill/推荐),950DT做解码/训练。
950PR搭载HiBL 1.0,112GB内存,带宽1.4-1.6 TB/s,TDP 600W。原生FP4,1.56 PFLOPS。
FP4下,700亿参数模型仅需35GB显存,吞吐量达NVIDIA H20的2.8倍。
950DT搭载HiZQ 2.0,144GB内存,带宽4TB/s,互连2 TB/s。
支持FP8/MXFP4,1 PFLOPS (FP8) / 2 PFLOPS (MXFP4)。
960(2027年)算力/带宽翻倍,支持HiF4。970(2028年)算力再翻倍,带宽提1.5倍,应对万亿参数模型。
(表格内容保持结构,改写单元格内的文字)
2028年Q1推出两款Kunpeng 950处理器。高性能96核,高密度256核,优化AI主控和云原生。
随着参数量增长,集群通信成关键。华为重构底层协议,推出UnifiedBus(灵渠)对抗NVLink/UALink。
不同于传统PCIe/InfiniBand层级,UB 2.0构建扁平全互连,消除协议转换延迟。
CloudMatrix-Infer中,利用光模块织网,覆盖16机架,实现384颗910C与192颗CPU耦合,提升流水线效率。
UBoE(基于以太网的UB)优化负载均衡,比RoCE v2延迟更低,减少硬件需求。
2025年底前开源UB技术规范、硬件及CANN编译器,打造独立生态标准。
基于UB,华为构建超大规模集群。Atlas 950 SuperPoD含8192颗950DT,16 PB/s带宽,8 EFLOPS算力。
(表格内容保持结构,改写单元格内的文字)
硬件需软件赋能。华为在CANN和MindSpore上巨额投入,打破CUDA壁垒。
CANN 8.0引入200+基础算子,开发周期从2人月缩至1.5人周,支持大规模专家并行。
尽管早期有稳定性问题,华为通过成立指导委员会开源资源管理,提升兼容性。
MindSpore市场份额增长,2024年占新增份额30%。
适配DeepSeek V3等万亿参数模型,重构通信原语,高效支撑MoE。
推出openMind和Pangu 5.0,与Hugging Face等合作,建立活跃ModelZoo。
边缘侧落地是自动驾驶。华为MDC平台展示全栈闭环。
始于2013年ME909T,爆发于MDC平台。细分场景如MDC 300F(商用车)。
MDC 610采用Ascend 610 + Infineon TC397,200 TOPS INT8,120W功耗,IP67,量产于极狐/阿维塔。
2025年4月发布ADS 4.0,核心MDC 1000采用Ascend 910B架构,1000 TOPS算力。
配套3cm激光雷达、舱内激光视觉传感器等,端到端延迟降50%,效率提20%。
智能汽车业务营收450亿(+72%),2025年交付58.9万辆(+32%)。
2024年底剥离汽车BU为引望智能(估值1150亿),统筹五大业务。
2025年营收8809亿(+2.2%),净利润680亿。研发投入1923亿(21.8%)。手机夺回第一。
本土厂商占41%份额。华为出货81.2万颗,占本土近50%。
政策要求新建智算中心50%国产芯片,为华为提供市场保护与数据反馈。
单芯片性能难超NVIDIA Rubin,但系统级工程代偿弥补差距。
华为通过低精度、本土HBM和超大规模集群,在业务层稀释硬件劣势,保障供应链安全。这是一部在绝境中重构体系的史诗。