DeepSeek V4即将亮相:新增FP4支持并针对NVIDIA显卡优化
快科技4月16日消息,DeepSeek V4的发布时间一直是业界关注的焦点,预计将在4月下旬正式发布。近期又有网友发现DeepSeek的GitHub仓库出现了重大更新,展现出一些令人振奋的技术升级。
DeepSeek研究团队在官方仓库DeepGEMM中更新了110个文件,其中蕴含的信息量相当丰富。
首先是对FP8和FP4精度的全面支持。FP8支持此前已经确认,而FP4即使放到2026年也是相当新颖且激进的技术选择。FP4具备更强的性能表现,显存需求理论上比FP8还要低约一半,这也预示着V4大模型的规模将会非常庞大。
其次是对NVIDIA的SM100/Blackwell GPU进行了专门优化。此前曾有传闻称DeepSeek V4将首发国产AI平台,特别是华为昇腾,但这并不意味着DeepSeek V4仅支持国产平台。在当前阶段,NVIDIA的AI平台仍然是不可或缺的。
FP4及Blackwell架构优化两者相得益彰,毕竟NVIDIA对FP4算法的支持也是目前最为成熟稳定的之一。
此次仓库更新还显示DeepSeek V4将采用全新架构——Mega MoE及HyperConnection。这两种架构都适用于超大规模参数量,意味着V4的规模同样不容小觑。此前业界猜测其参数量达到万亿级别,而这两个架构经过优化后,再加上对最新AI硬件及算法的支持,或许会带来更加出色的表现。
目前已知的大模型参数量最高可达10万,不过要么仍在训练阶段,要么就是像Mythos这样尚未确定的。紧随其后的是5万亿参数级别,Claude Opus 4.6及传闻中尚未发布的GPT-6被认为属于这一级别。
国产方面此前最大达到2.4万亿参数量,但表现较为一般,关注度不高。其他参数量稍高的为万亿级别,Kimi K2.5即为万亿规模,DeepSeek V3.X系列为6700亿级别,GLM-5.X则拥有7400多亿参数量。
因此综合来看,DeepSeek V4在多项新技术的加持下,达到万亿参数量应该是基本目标。如果能够突破至2万亿参数量,那么性能表现应当会相当惊艳。
若一举突破至5万亿级别,那么DeepSeek V4或许将如同去年的DeepSeek R1一样成为全球顶级SOTA大模型。不过这种可能性不大,而且这样做意味着成本会大幅增加,不太符合DeepSeek的一贯风格。若要期待可能就需要等到明年了。
责任编辑:宪瑞