英伟达新支持DeepSeek-V4,开箱推理速度破150 tokens/s
IT之家 4 月 25 日消息,英伟达今日(4 月 25 日)通过博文宣布,其NVIDIA Blackwell平台已成功兼容DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型,开发者能够通过NVIDIA NIM微服务进行下载部署,也可借助SGLang与vLLM框架实现个性化推理。
英伟达在公告中表示,DeepSeek-V4-Pro具备1.6T总参数和49B激活参数,专为高级推理任务设计;而DeepSeek-V4-Flash版本则拥有284B总参数和13B激活参数,主打高速高效特性。
两款模型均支持百万Token上下文窗口,最高输出长度达38.4万Token,覆盖长文本编码、文档分析等核心应用,且采用MIT开源许可。
实测表明,DeepSeek-V4-Pro在NVIDIA GB200 NVL72上的开箱即用性能超过150 tokens/sec/user,通过vLLM的Day 0配置,开发者能快速在Blackwell B300上部署。随着Dynamo、NVFP4及CUDA内核的深度优化,预计性能还将继续提升。
在部署生态方面,开发者可通过NVIDIA NIM微服务下载部署,或使用SGLang与vLLM框架进行定制推理。SGLang提供低延迟、均衡及最大吞吐量三种预设;vLLM则支持多节点扩展至100个以上GPU,并具备工具调用与推测解码能力。


