标签

昇腾超节点全系适配DeepSeek V4,华为官宣性能突破

发布时间:2026-04-24 22:33来源:新浪新闻阅读:5

IT之家4月24日报道,今日早间,DeepSeek-V4模型预览版正式对外发布并开启开源。

华为官方紧接着发布声明,凭借双方在芯片与模型技术上的深度合作,昇腾超节点全系列已完成对DeepSeek V4系列模型的适配支持。

据官方介绍,昇腾950借助融合kernel与多流并行技术,有效减少了Attention机制的计算及访存成本,显著增强了推理效率,配合多样化的量化策略,达成了DeepSeek V4模型的高吞吐、低延迟部署。昇腾A3超节点系列同样完成全面适配,并针对用户快速微调需求,推出了基于该平台的训练方案示例。

IT之家了解到,在8K输入条件下,昇腾950超节点运行DeepSeek V4-Pro模型时,TPOT约20ms的情况下单卡Decode吞吐量可达4700TPS。而在8K长序列输入场景中,DeepSeek V4-Flash模型在TPOT约10ms时单卡Decode吞吐量为1600TPS(以上基准测试数据均采用离线推理模式获取,未计入Serving调度与框架负载均衡带来的开销)。

采用昇腾A3 64卡超节点配合大EP模式进行部署,在8K/1K输入输出配置下,基于vLLM推理引擎,DeepSeek V4-Flash模型单卡Decode吞吐可超过2000TPS,且仍在不断优化提升。此外,昇腾A3也已同步实现对DeepSeek V4-Pro模型的推理支持,相关性能正在持续调优。