英伟达新支持DeepSeek-V4，开箱推理速度破150 tokens/s

发布时间：2026-04-25 20:03阅读：25

IT之家 4 月 25 日消息，英伟达今日（4 月 25 日）通过博文宣布，其NVIDIA Blackwell平台已成功兼容DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型，开发者能够通过NVIDIA NIM微服务进行下载部署，也可借助SGLang与vLLM框架实现个性化推理。

英伟达在公告中表示，DeepSeek-V4-Pro具备1.6T总参数和49B激活参数，专为高级推理任务设计；而DeepSeek-V4-Flash版本则拥有284B总参数和13B激活参数，主打高速高效特性。

两款模型均支持百万Token上下文窗口，最高输出长度达38.4万Token，覆盖长文本编码、文档分析等核心应用，且采用MIT开源许可。

实测表明，DeepSeek-V4-Pro在NVIDIA GB200 NVL72上的开箱即用性能超过150 tokens/sec/user，通过vLLM的Day 0配置，开发者能快速在Blackwell B300上部署。随着Dynamo、NVFP4及CUDA内核的深度优化，预计性能还将继续提升。

在部署生态方面，开发者可通过NVIDIA NIM微服务下载部署，或使用SGLang与vLLM框架进行定制推理。SGLang提供低延迟、均衡及最大吞吐量三种预设；vLLM则支持多节点扩展至100个以上GPU，并具备工具调用与推测解码能力。

← 上一篇：AI浪潮下“一人企业”的兴衰与反思下一篇：AI重塑汽车定义：从交通工具到智能生命体 →