标签

华为发布昇腾950技术白皮书:自研144GB高带宽内存、性能提升4倍

发布时间:2026-06-12 11:04阅读:2

科技媒体6月11日综合报道,华为此前透露昇腾系列芯片正以年度为周期、算力倍增的节奏推进迭代,新一代昇腾950DT处理器将于8月份在华为云平台正式推出。

昇腾950系列是去年9月全连接大会上发布的全新昇腾平台首批产品,实际上包含昇腾950PR与昇腾950DT两个型号,两者采用相同的处理器内核,但配置的内存子系统存在差异,服务的目标市场也有所区别。

按照华为的说明,昇腾950PR配备昇腾950内核加HiBL 1.0内存方案,主要针对推理Prefill阶段和推荐系统应用场景,相较于价格高昂的HBM3e/4e产品,能够显著降低推理Prefill阶段和推荐业务的部署成本。

昇腾950DT则侧重于推理Decode阶段和模型训练应用,由于这些场景对互联带宽和内存访问带宽有较高要求,华为专门研发了HiZQ 2.0技术,使内存容量扩展至144GB,内存访问带宽达到4TB/s,同时将互联带宽提升至2TB/s。

华为近日公布了昇腾950的架构技术白皮书,其中包含更为详尽的架构设计细节。值得注意的是,昇腾950PR和DT各自还推出了容量缩减版本,内存容量从当前的128GB、144GB分别降至112GB、96GB,但带宽保持不变,应该是为了满足不同应用场景的差异化配置需求。

具体架构设计可参阅该白皮书的详细说明,随着昇腾950DT在未来两个月内部署上线,144GB高速内存、4TB/s带宽以及MXFP4量化技术带来的4倍性能增强,将有力推动国产大模型的进一步发展。

昇腾950系列基于华为自主研发的第三代达芬奇(DaVinci)架构打造,构建了灵活、丰富且强大的AI计算基础平台。

该架构全面支持TF32、FP16、BF16、FP8、MXFP8、HiF8、INT8及MXFP4等多种数值精度格式,能够精确匹配各类应用场景的模型计算需求。

通过支持SIMD/SIMT混合编程模式,并配备大容量L2 Cache与超高片上访存带宽,昇腾950能够最大化发挥算力性能,显著增强计算效率。

除出色的AI计算能力外,昇腾950还整合了强大的通用计算与多媒体处理功能:

通用CPU:集成华为自研的Linx816 CPU核心,支持物理双线程技术,提供强大的通用逻辑运算能力。

媒体处理:内置DVPP数字视觉预处理子系统,提供硬件级的图像预处理、编解码加速能力。

安全引擎:配备专用安全算法引擎,保障数据处理全流程的安全性。

昇腾950具备业界领先的IO扩展能力,整颗芯片集成72 Lane HiLink SerDes,划分为18个X4端口。

每个端口支持最高4×112Gbps的HiLink互联速率,使整芯片对外IO带宽峰值达到2TB/s。

在网络协议栈方面,全面支持URMA、UB Memory、PCIe 5.0及UBoE等多种先进网络协议,为大规模集群组网提供高吞吐、低延迟的连接保障。

新增精度格式:原生支持HiF8、MXFP8、FP8、MXFP4等前沿低精度格式,完美契合大模型量化需求。

算力跃升:相较于上一代BF16精度,昇腾950 MXFP4张量浮点峰值算力提升高达4倍。