深度解析：英伟达优势正被消解，DeepSeek开启新路径

发布时间：2026-04-24 22:16阅读：18

DeepSeek-V4预览版正式登场。

4月24日，全新模型系列DeepSeek-V4的预览版本正式对外发布，并同步实行开源策略。

DeepSeek-V4引入了一种创新的注意力机制，在token维度实施压缩，结合其独特的DSA稀疏注意力技术，实现了业界领先的长上下文处理能力，同时相较传统方案显著减少了计算资源和显存的消耗。

这一点不容忽视，DeepSeek-V4确实大幅削减了对计算和显存的依赖。

有观点指出，这或将直接动摇英伟达GPU的传统优势。值得关注的是，DeepSeek-V4还优先考虑了对国产芯片厂商的适配。

换言之，不应过度高估英伟达构筑的护城河，也绝不能小看DeepSeek正在引领的这场架构变革。关键并非简单的“谁取代谁”，而是AI产业链的利润分配格局、技术部署路径乃至投资逻辑，都可能因此发生转变。

负重前行的竞争

过去两年间，AI大模型的焦点主要集中在训练阶段，比拼的是算力规模。

在某种程度上，AI基础大模型的竞争，实质上是GPU算力基础设施的较量。谁能获取更多高端GPU，谁能构建更大规模的集群，谁就更有可能开发出更强大的基础模型。

然而，由于美国实施出口管制，禁止英伟达H100/H200等顶级芯片对华销售。加之台积电先进制程等环节受限，国产GPU与英伟达产品之间仍存在一定差距。

“国内GPU厂商相当于戴着‘镣铐’与英伟达同场竞技”，一位GPU行业人士曾如此描述。

有趣的是，正是在这样的逆境中，近两年中美大模型的技术差距开始逐步缩小，甚至趋于接近。

2023年底，中美顶级模型在多项指标上的差距尚在20%-30%区间。4月14日，斯坦福大学HAI实验室发布的2026年度《AI指数报告》显示，这份长达423页的权威行业报告指出，中美大模型性能差距已收窄至2.7%，基本达到技术持平。

有分析认为，如果将中美AI大模型性能差距视为结果，那么英伟达GPU并非决定性因素。

这一方面归功于国产芯片的崛起以及中国电力基础设施的完善。

黄仁勋在近期访谈中提到，“AI本质上是并行计算问题，中国完全可以通过集成更多芯片来弥补单芯片的制程差距。中国拥有充足的能源，如果愿意，完全可以将更多芯片组合起来，即使制程落后几个纳米。”

实际上，不少国内GPU厂商已成功部署万卡集群，以弥补单卡算力的不足。例如：摩尔的夸娥万卡集群、沐曦的曦源一号SADA万卡集群。

另一方面，则得益于以DeepSeek为代表的大模型企业的突出表现。

DeepSeek通过软件层面的前瞻性设计，主动适配并赋能国产硬件，为国产芯片的发展铺平了道路。

例如：DeepSeek-V3验证了FP8数据格式在大规模模型训练中的可行性，在不增加额外开销的前提下扩大了训练规模，且未影响模型质量。

打个比方，过去完成一项复杂的AI计算任务，需要几台庞大、精密且昂贵的德国进口机床（象征英伟达的高精度GPU）。而现在，DeepSeek通过改变任务的加工流程（即调整数据格式），使得该任务能够被几十台小巧、简单且成本更低的国产机床（象征国产GPU的计算单元）组成的流水线高效完成。

即便如此，英伟达GPU仍使海外大模型在训练环节略占优势。

但从产业演进角度看，大模型训练仅是第一阶段。模型诞生之后，真正决定其商业化速度和产业渗透深度的，在于推理环节。尤其是随着以Openclaw、Hermes为代表的智能体（Agent）爆火之后。

英伟达赢得训练，但推理之战方兴未艾

训练和推理是两种不同的工作模式。

Claw类智能体的爆发，长上下文记忆能力是核心催化剂。

以往的AI仅能对话、转头即忘，如同鱼的记忆；而Claw能记住一切、持续工作、越用越懂用户，记忆能力使其从“玩具”转变为“工具”。

当上下文越来越长、智能体记忆越来越深、工具调用越来越频繁时，GPU的显存会被KV缓存（记忆缓存）占满，导致大模型的推理质量下降。

因此，推理爆发的首个瓶颈，并非算力不足，而是“记忆”与“计算”争夺同一块显存资源。

对国产GPU而言，算力（峰值TFLOPS）并非最大瓶颈，显存才是。而英伟达GPU在显存技术上拥有领先其他厂商1-2年的代际优势。

英伟达主流数据中心GPU（如A100、H100）的单卡显存容量通常标配为80GB，而最新一代Rubin GPU搭载8颗36GB的HBM4内存颗粒（总容量288GB），显存总带宽提升至13 TB/s。

国产芯片受限于先进制程，显存容量和带宽相对较低，仍需突破。例如：昇腾910B的显存容量为64GB。

根据此前梁文锋发布的论文推测，此次DeepSeek-V4很可能采用了独特的Engram架构，而Engram恰好旨在解决显存容量瓶颈。

DeepSeek-V4的做法是，将模型中那些“死记硬背”的静态知识抽取出来，存入一个庞大的内存表中；推理时，由CPU负责“查字典”（检索知识），GPU则专注于“思考逻辑”（计算推理）。

这两项操作是完全重叠并行执行的。当GPU正在计算上一个词的逻辑时，CPU已将下一个词所需的知识预取到位。由于延迟被这种并行架构有效掩盖，AI单位时间内的产出效率呈几何级数提升，GPU显存不再被KV缓存撑爆。

例如：一个原本需要80GB显存才能运行的长上下文推理任务，在Engram架构下，可能仅需8GB显存即可运行。

这意味着国产GPU在显存受限的条件下，也能完成同等任务，而英伟达引以为傲的HBM显存稀缺性面临挑战。同时，CPU的重要性也将随之凸显。

此外，更值得关注的是，DeepSeek-V4即将发布，此次并未按行业惯例给予英伟达早期测试权限，而是将提前适配的机会全部留给了华为和寒武纪。目标是实现从CUDA生态整体向华为CANN框架迁移。

虽然英伟达的CUDA生态短期内难以被完全取代，但裂缝已经出现。这也意味着DeepSeek无论在开源生态还是国产自主化道路上，依然占据着强有力的生态位。

据媒体报道，为应对基于该模型的云服务上线需求，阿里巴巴、字节跳动和腾讯等科技巨头已提前下单华为新一代AI芯片，订单规模达数十万颗。

可以预见，此次即将发布的DeepSeek-V4，也将为AI投资领域带来新的预期。

新的投资展望

从投资视角看，分析认为DeepSeek-V4将直接利好两大方向：国产算力及AI应用。

1.国产算力

如果DeepSeek-V4被证实完全基于国产算力训练而成，那这将是国产芯片发展史上的“DeepSeek时刻”。这证明了即便没有H100，我们也能训练出世界一流的大模型。

这带来的边际变化远超预期。这个预期，不亚于谷歌凭借自研的TPU芯片训练出Gemini。要知道，谷歌已成为巴菲特伯克希尔公司的持仓标的。

此前，市场对国产算力的预期大多停留在“自主可控”的宏大叙事层面，而V4将把逻辑推向“好用且必需”的商业化逻辑。

这次受益最大的，便是国产GPU厂商。华为、寒武纪已经明确参与。其他国产GPU厂商也将积极适配DeepSeek大模型。从确定性来看，以华为、寒武纪为代表的国产芯片、国产服务器及相关配套厂商受益的确定性最高。

展望2026年，寒武纪、壁仞科技、天数智芯等5家已上市AI芯片公司，Wind一致预期收入同比增长约120%，达到约257亿元人民币。

此外，从弹性上看，沐曦股份预期2026年将扭亏为盈，有望成为继寒武纪之后另一家实现盈利的GPU厂商，从而完成商业闭环。

因此，国产算力将继续成为AI投资关注的重点。

2.AI应用

除了满足适配国产算力的推理需求，DeepSeek-V4可能通过其创新架构（mHC和Engram技术）进一步降低训练和推理成本，加速中国AI价值链的创新周期。

同时，DeepSeek有望帮助全球大语言模型和AI应用企业加速商业化进程，从而缓解日益沉重的资本开支压力。

随着Engram架构落地，GPU显存需求降低90%，推理的硬件成本将大幅压缩。这对终端部署（如边缘AI推理）是重大利好。

此外，今年1月以来，A股AI应用板块表现低迷，核心痛点是市场对“大模型吞噬软件”的担忧。AI应用已经进入了“杀逻辑”的阶段。

但DeepSeek-V4的发布可能改善这一市场情绪。对于国内A股的应用公司而言，大模型更像是一种成本更优的基础设施，有利于优化其成本结构。

有分析认为，与核心数据绑定较为紧密的AI应用企业、相关云服务厂商，也将有望迎来边际改善。

总结

英伟达依旧是训练大模型最强大的基础设施，这一点毋庸置疑。短期内，它在高端训练GPU、CUDA生态和集群能力上的优势，依然难以被替代。

但不可忽视的是，英伟达的优势正在被DeepSeek以“曲线救国”的方式逐步消解。

DeepSeek-V4率先适配国产芯片及架构创新正试图证明，AI推理的推进不一定只能依赖最昂贵的GPU，通过系统级优化、软硬协同和本地化部署，同样可以开辟一条新路径。而国产算力又能借此向前迈进一步。

不要高估了英伟达，也不要低估了DeepSeek和国产算力的潜力。

← 上一篇：特斯拉柏林超级工厂Q1产量突破6.1万辆仍不及预期产能目标下一篇：科技晚报：苹果规划多款新品，特斯拉FSD在华延期 →