DeepSeek V4推理性能对比:NVIDIA与华为并驾齐驱 AMD实现百倍增长
快科技6月10日资讯,作为开源AI大模型的核心力量,DeepSeek V4的推出不仅意味着新增一个大模型,更是对各大AI生态体系的一次重大检验,哪个平台能率先适配DeepSeek V4,哪个生态就能占据更大优势。
SemiAnalysis近期发布了一篇深度长文,详细分析了V4的推理性能表现,对比了当前主流的AI生态体系,涵盖NVIDIA、华为、AMD及其对应的CUDA、ROCm、CANN框架,同时还包括第三方社区开源的多种解决方案。
综合评估来看,目前性能最强、表现最优的依然是NVIDIA的CUDA平台配合vLLM及SGLang框架,V4发布当天即可实现Day0完美支持,即便是最新的GB200/300硬件也能开箱即用。
华为的昇腾生态在这一领域同样不逊于CUDA,昇腾950DT配合CANN框架同样实现了发布当天Day0支持,在硬件和软件层面均可提供全栈解决方案。
这两大生态表现最为出色,回顾以往,无论国内外的大模型,基本只有NVIDIA的CUDA生态能够做到Day0全栈支持,而V4显然在开发阶段就针对国产AI平台进行了适配和优化,这一点确实做到了。
AMD的硬件和ROCm生态指标表现都不错,但在V4的Day0支持上却拖了后腿,MI355X显卡初期仅能运行FP8,性能表现欠佳,不过AMD的SGLang团队追赶速度极快,在26天内将性能提升了100倍。
综合SemiAnalysis的分析来看,NVIDIA的CUDA生态圈无疑依然最为稳健,Day0支持毫无悬念,更有最新硬件加持,GB300的Token成本算下来相当低廉。
华为的昇腾+CANN生态同样能够实现与NVIDIA相当的Day0支持,这一点令人刮目相看,也是国产AI平台的重大突破,只是与NVIDIA相比,国产AI的算力受到限制,硬件性能目前差距较大。
AMD这边硬件和软件纸面参数都很强劲,但生态不够完善也是不争的事实,不过起点低的好处就是进步空间大,100倍性能提升听起来也很带感,就看用户是否认可这种发展模式了。