DeepSeek V4推理性能对比：NVIDIA与华为并驾齐驱 AMD实现百倍增长

发布时间：2026-06-11 03:26阅读：28

快科技6月10日资讯，作为开源AI大模型的核心力量，DeepSeek V4的推出不仅意味着新增一个大模型，更是对各大AI生态体系的一次重大检验，哪个平台能率先适配DeepSeek V4，哪个生态就能占据更大优势。

SemiAnalysis近期发布了一篇深度长文，详细分析了V4的推理性能表现，对比了当前主流的AI生态体系，涵盖NVIDIA、华为、AMD及其对应的CUDA、ROCm、CANN框架，同时还包括第三方社区开源的多种解决方案。

综合评估来看，目前性能最强、表现最优的依然是NVIDIA的CUDA平台配合vLLM及SGLang框架，V4发布当天即可实现Day0完美支持，即便是最新的GB200/300硬件也能开箱即用。

华为的昇腾生态在这一领域同样不逊于CUDA，昇腾950DT配合CANN框架同样实现了发布当天Day0支持，在硬件和软件层面均可提供全栈解决方案。

这两大生态表现最为出色，回顾以往，无论国内外的大模型，基本只有NVIDIA的CUDA生态能够做到Day0全栈支持，而V4显然在开发阶段就针对国产AI平台进行了适配和优化，这一点确实做到了。

AMD的硬件和ROCm生态指标表现都不错，但在V4的Day0支持上却拖了后腿，MI355X显卡初期仅能运行FP8，性能表现欠佳，不过AMD的SGLang团队追赶速度极快，在26天内将性能提升了100倍。

综合SemiAnalysis的分析来看，NVIDIA的CUDA生态圈无疑依然最为稳健，Day0支持毫无悬念，更有最新硬件加持，GB300的Token成本算下来相当低廉。

华为的昇腾+CANN生态同样能够实现与NVIDIA相当的Day0支持，这一点令人刮目相看，也是国产AI平台的重大突破，只是与NVIDIA相比，国产AI的算力受到限制，硬件性能目前差距较大。

AMD这边硬件和软件纸面参数都很强劲，但生态不够完善也是不争的事实，不过起点低的好处就是进步空间大，100倍性能提升听起来也很带感，就看用户是否认可这种发展模式了。