昇腾超节点全系适配DeepSeek V4，华为官宣性能突破

发布时间：2026-04-24 22:33阅读：20

IT之家4月24日报道，今日早间，DeepSeek-V4模型预览版正式对外发布并开启开源。

华为官方紧接着发布声明，凭借双方在芯片与模型技术上的深度合作，昇腾超节点全系列已完成对DeepSeek V4系列模型的适配支持。

据官方介绍，昇腾950借助融合kernel与多流并行技术，有效减少了Attention机制的计算及访存成本，显著增强了推理效率，配合多样化的量化策略，达成了DeepSeek V4模型的高吞吐、低延迟部署。昇腾A3超节点系列同样完成全面适配，并针对用户快速微调需求，推出了基于该平台的训练方案示例。

IT之家了解到，在8K输入条件下，昇腾950超节点运行DeepSeek V4-Pro模型时，TPOT约20ms的情况下单卡Decode吞吐量可达4700TPS。而在8K长序列输入场景中，DeepSeek V4-Flash模型在TPOT约10ms时单卡Decode吞吐量为1600TPS（以上基准测试数据均采用离线推理模式获取，未计入Serving调度与框架负载均衡带来的开销）。

采用昇腾A3 64卡超节点配合大EP模式进行部署，在8K/1K输入输出配置下，基于vLLM推理引擎，DeepSeek V4-Flash模型单卡Decode吞吐可超过2000TPS，且仍在不断优化提升。此外，昇腾A3也已同步实现对DeepSeek V4-Pro模型的推理支持，相关性能正在持续调优。

← 上一篇：氪金新时代！36氪AI万象智造社区盛大开幕下一篇：红旗品牌全新阵容亮相北京车展，以技术革新驱动高端突破 →