深度解析:英伟达优势正被消解,DeepSeek开启新路径
DeepSeek-V4预览版正式登场。
4月24日,全新模型系列DeepSeek-V4的预览版本正式对外发布,并同步实行开源策略。
DeepSeek-V4引入了一种创新的注意力机制,在token维度实施压缩,结合其独特的DSA稀疏注意力技术,实现了业界领先的长上下文处理能力,同时相较传统方案显著减少了计算资源和显存的消耗。
这一点不容忽视,DeepSeek-V4确实大幅削减了对计算和显存的依赖。
有观点指出,这或将直接动摇英伟达GPU的传统优势。值得关注的是,DeepSeek-V4还优先考虑了对国产芯片厂商的适配。
换言之,不应过度高估英伟达构筑的护城河,也绝不能小看DeepSeek正在引领的这场架构变革。关键并非简单的“谁取代谁”,而是AI产业链的利润分配格局、技术部署路径乃至投资逻辑,都可能因此发生转变。
负重前行的竞争
过去两年间,AI大模型的焦点主要集中在训练阶段,比拼的是算力规模。
在某种程度上,AI基础大模型的竞争,实质上是GPU算力基础设施的较量。谁能获取更多高端GPU,谁能构建更大规模的集群,谁就更有可能开发出更强大的基础模型。
然而,由于美国实施出口管制,禁止英伟达H100/H200等顶级芯片对华销售。加之台积电先进制程等环节受限,国产GPU与英伟达产品之间仍存在一定差距。
“国内GPU厂商相当于戴着‘镣铐’与英伟达同场竞技”,一位GPU行业人士曾如此描述。
有趣的是,正是在这样的逆境中,近两年中美大模型的技术差距开始逐步缩小,甚至趋于接近。
2023年底,中美顶级模型在多项指标上的差距尚在20%-30%区间。4月14日,斯坦福大学HAI实验室发布的2026年度《AI指数报告》显示,这份长达423页的权威行业报告指出,中美大模型性能差距已收窄至2.7%,基本达到技术持平。
有分析认为,如果将中美AI大模型性能差距视为结果,那么英伟达GPU并非决定性因素。
这一方面归功于国产芯片的崛起以及中国电力基础设施的完善。
黄仁勋在近期访谈中提到,“AI本质上是并行计算问题,中国完全可以通过集成更多芯片来弥补单芯片的制程差距。中国拥有充足的能源,如果愿意,完全可以将更多芯片组合起来,即使制程落后几个纳米。”
实际上,不少国内GPU厂商已成功部署万卡集群,以弥补单卡算力的不足。例如:摩尔的夸娥万卡集群、沐曦的曦源一号SADA万卡集群。
另一方面,则得益于以DeepSeek为代表的大模型企业的突出表现。
DeepSeek通过软件层面的前瞻性设计,主动适配并赋能国产硬件,为国产芯片的发展铺平了道路。
例如:DeepSeek-V3验证了FP8数据格式在大规模模型训练中的可行性,在不增加额外开销的前提下扩大了训练规模,且未影响模型质量。
打个比方,过去完成一项复杂的AI计算任务,需要几台庞大、精密且昂贵的德国进口机床(象征英伟达的高精度GPU)。而现在,DeepSeek通过改变任务的加工流程(即调整数据格式),使得该任务能够被几十台小巧、简单且成本更低的国产机床(象征国产GPU的计算单元)组成的流水线高效完成。
即便如此,英伟达GPU仍使海外大模型在训练环节略占优势。
但从产业演进角度看,大模型训练仅是第一阶段。模型诞生之后,真正决定其商业化速度和产业渗透深度的,在于推理环节。尤其是随着以Openclaw、Hermes为代表的智能体(Agent)爆火之后。
英伟达赢得训练,但推理之战方兴未艾
训练和推理是两种不同的工作模式。
Claw类智能体的爆发,长上下文记忆能力是核心催化剂。
以往的AI仅能对话、转头即忘,如同鱼的记忆;而Claw能记住一切、持续工作、越用越懂用户,记忆能力使其从“玩具”转变为“工具”。
当上下文越来越长、智能体记忆越来越深、工具调用越来越频繁时,GPU的显存会被KV缓存(记忆缓存)占满,导致大模型的推理质量下降。
因此,推理爆发的首个瓶颈,并非算力不足,而是“记忆”与“计算”争夺同一块显存资源。
对国产GPU而言,算力(峰值TFLOPS)并非最大瓶颈,显存才是。而英伟达GPU在显存技术上拥有领先其他厂商1-2年的代际优势。
英伟达主流数据中心GPU(如A100、H100)的单卡显存容量通常标配为80GB,而最新一代Rubin GPU搭载8颗36GB的HBM4内存颗粒(总容量288GB),显存总带宽提升至13 TB/s。
国产芯片受限于先进制程,显存容量和带宽相对较低,仍需突破。例如:昇腾910B的显存容量为64GB。
根据此前梁文锋发布的论文推测,此次DeepSeek-V4很可能采用了独特的Engram架构,而Engram恰好旨在解决显存容量瓶颈。
DeepSeek-V4的做法是,将模型中那些“死记硬背”的静态知识抽取出来,存入一个庞大的内存表中;推理时,由CPU负责“查字典”(检索知识),GPU则专注于“思考逻辑”(计算推理)。
这两项操作是完全重叠并行执行的。当GPU正在计算上一个词的逻辑时,CPU已将下一个词所需的知识预取到位。由于延迟被这种并行架构有效掩盖,AI单位时间内的产出效率呈几何级数提升,GPU显存不再被KV缓存撑爆。
例如:一个原本需要80GB显存才能运行的长上下文推理任务,在Engram架构下,可能仅需8GB显存即可运行。
这意味着国产GPU在显存受限的条件下,也能完成同等任务,而英伟达引以为傲的HBM显存稀缺性面临挑战。同时,CPU的重要性也将随之凸显。
此外,更值得关注的是,DeepSeek-V4即将发布,此次并未按行业惯例给予英伟达早期测试权限,而是将提前适配的机会全部留给了华为和寒武纪。目标是实现从CUDA生态整体向华为CANN框架迁移。
虽然英伟达的CUDA生态短期内难以被完全取代,但裂缝已经出现。这也意味着DeepSeek无论在开源生态还是国产自主化道路上,依然占据着强有力的生态位。
据媒体报道,为应对基于该模型的云服务上线需求,阿里巴巴、字节跳动和腾讯等科技巨头已提前下单华为新一代AI芯片,订单规模达数十万颗。
可以预见,此次即将发布的DeepSeek-V4,也将为AI投资领域带来新的预期。
新的投资展望
从投资视角看,分析认为DeepSeek-V4将直接利好两大方向:国产算力及AI应用。
1.国产算力
如果DeepSeek-V4被证实完全基于国产算力训练而成,那这将是国产芯片发展史上的“DeepSeek时刻”。这证明了即便没有H100,我们也能训练出世界一流的大模型。
这带来的边际变化远超预期。这个预期,不亚于谷歌凭借自研的TPU芯片训练出Gemini。要知道,谷歌已成为巴菲特伯克希尔公司的持仓标的。
此前,市场对国产算力的预期大多停留在“自主可控”的宏大叙事层面,而V4将把逻辑推向“好用且必需”的商业化逻辑。
这次受益最大的,便是国产GPU厂商。华为、寒武纪已经明确参与。其他国产GPU厂商也将积极适配DeepSeek大模型。从确定性来看,以华为、寒武纪为代表的国产芯片、国产服务器及相关配套厂商受益的确定性最高。
展望2026年,寒武纪、壁仞科技、天数智芯等5家已上市AI芯片公司,Wind一致预期收入同比增长约120%,达到约257亿元人民币。
此外,从弹性上看,沐曦股份预期2026年将扭亏为盈,有望成为继寒武纪之后另一家实现盈利的GPU厂商,从而完成商业闭环。
因此,国产算力将继续成为AI投资关注的重点。
2.AI应用
除了满足适配国产算力的推理需求,DeepSeek-V4可能通过其创新架构(mHC和Engram技术)进一步降低训练和推理成本,加速中国AI价值链的创新周期。
同时,DeepSeek有望帮助全球大语言模型和AI应用企业加速商业化进程,从而缓解日益沉重的资本开支压力。
随着Engram架构落地,GPU显存需求降低90%,推理的硬件成本将大幅压缩。这对终端部署(如边缘AI推理)是重大利好。
此外,今年1月以来,A股AI应用板块表现低迷,核心痛点是市场对“大模型吞噬软件”的担忧。AI应用已经进入了“杀逻辑”的阶段。
但DeepSeek-V4的发布可能改善这一市场情绪。对于国内A股的应用公司而言,大模型更像是一种成本更优的基础设施,有利于优化其成本结构。
有分析认为,与核心数据绑定较为紧密的AI应用企业、相关云服务厂商,也将有望迎来边际改善。
总结
英伟达依旧是训练大模型最强大的基础设施,这一点毋庸置疑。短期内,它在高端训练GPU、CUDA生态和集群能力上的优势,依然难以被替代。
但不可忽视的是,英伟达的优势正在被DeepSeek以“曲线救国”的方式逐步消解。
DeepSeek-V4率先适配国产芯片及架构创新正试图证明,AI推理的推进不一定只能依赖最昂贵的GPU,通过系统级优化、软硬协同和本地化部署,同样可以开辟一条新路径。而国产算力又能借此向前迈进一步。
不要高估了英伟达,也不要低估了DeepSeek和国产算力的潜力。
