DeepSeek V4低调发布：百万上下文与低价策略能否突围？

发布时间：2026-04-25 22:56阅读：28

实测V4长文本、代码及推理表现。

AIX财经（AIXcaijing）原创

作者| 李梦冉

编辑| 魏佳

没有发布会，没有倒计时，DeepSeek V4就这样悄无声息地上线了。

这已是DeepSeek的常规操作。但这次的不同之处在于，他们在技术报告中主动提及：V4的能力仍不及GPT-5.4和Gemini-3.1-Pro，发展进度大约落后顶尖闭源模型3至6个月。

这句话在国内AI圈显得有些另类。大多数模型发布时，标配的都是“全球领先”“行业第一”。而DeepSeek反其道而行之，主动承认差距。

但如果细看此次发布的内容，你会发现这并非谦虚，V4压根没想在“谁最强”上与GPT-5一较高下。V4的目标是将百万token的超长上下文普及为所有用户的基础配置，同时将价格压低至竞品的三分之一以下。

本文旨在阐明三件事：V4是什么、它能做什么，以及此次发布背后的重要信号。

01．

V4核心变革：超长文本全面普及

V4模型按规模分为Pro和Flash两个版本，分别对应官方网页和APP上的专家模式和快速模式。

Pro是旗舰版，侧重能力上限，对标GPT-5、Gemini等顶级闭源模型，适合高复杂度的任务。Flash是轻量版，速度更快、成本更低，推理能力接近Pro，但世界知识储备稍弱。

两款模型都支持同一件事，也是此次发布对普通用户最友好的变化——百万token的超长上下文，全系标配，不分版本，不加价。

“上下文”听起来很技术化，简单来说就是“AI一次能处理多少内容”。按100万token约等于75万汉字计算，V4几乎能完整理解和分析整部《三国演义》。

这得益于V4采用了CSA（压缩稀疏注意力）和HCA（重度压缩注意力）的混合架构。处理同等一百万字的内容，V4仅需前代模型四分之一的算力和十分之一的显存。

以前这种能力并非不存在，但价格昂贵，需单独付费或升级。V4将其转化为所有用户默认的基础能力。对日常使用而言，最直观的感受是：用户不再需要将长报告剪裁分段喂给AI，而是可以直接将整份材料一次性投入，由AI直接处理。

此外，V4提供三档推理强度：

Non-think直出模式，AI直接给出答案，适合简单问答和日常对话，速度最快；在网页和APP上关闭深度思考即可。

Think High是常规深度思考，AI会在内部推导后回答，适合需要分析计算的场景；

Think Max适合极难推理，但耗时更长，消耗的token约为普通模式的两倍。思考强度由模型根据问题复杂度自动判断，或用户可通过API参数手动设置为High或Max。

在定价方面，V4延续了DeepSeek一贯的激进策略。

V4-Pro每百万token输入1元（缓存命中）或12元（缓存未命中），输出24元；V4-Flash每百万token输入0.2元（缓存命中）或1元（缓存未命中），输出2元。

粗略计算，DeepSeek的定价约为竞品的三分之一甚至更低。此外，V4同时支持OpenAI和Anthropic两种API接口格式，对开发者而言，切换只需修改一个参数，迁移成本几乎为零。

02．

三大场景实测：长文本、代码与复杂推理

在实际使用中，V4表现如何？我们针对三个高频场景进行测试：长文本处理、代码生成与调试以及复杂推理。

长文本处理是V4此次的核心卖点，我们直接选取某上市公司2025财年年度报告作为测试材料。该报告324页，涵盖财务报表、附注及股东信息等多个模块，信息密度高、数据分散，是测试长文本理解能力的理想素材。

我们的测试问题分为两层：第一层要求提炼报告核心要点；第二层追问两个藏在文档深处的具体数据——该年度回购股份的总数量与总对价，以及管理人员酬金排名第三的具体人员与金额。这些答案分别位于第212至213页和第311至313页，位置偏后，必须完整阅读文档才能准确定位。

V4响应时间约19秒，给出的答案完全符合原报告。

此外，在追加提问短期银行借款利率区间时，我们关闭了“深度思考”，选择Non-think模式，V4同样准确找到数据，来源精确到页码。

从整体表现来看，快速模式下V4对这份300余页报告的处理相当稳定。数据定位准确、跨章节关联清晰、单位换算无误，且在回答过程中主动识别了潜在的口径歧义并加以说明，并未因文档体量巨大而出现答非所问或信息遗漏。

对于需要从大体量文档中快速提取特定数据，V4的长文本处理能力已达到实际可用水准，且在快速模式下即可完成，无需开启深度思考来换取准确性。

这一场景我们分两步进行测试：

第一步，让V4生成一段含有隐藏Bug的Python代码，要求故意埋入2至3个常见错误但不提示位置；

第二步，将代码重新交回V4，要求找出所有问题、修复代码并逐一解释原因。两轮分别在开启和关闭深度思考模式下各运行一次。

开启深度思考模式响应时间15秒。V4在思考过程中主动梳理了所有潜在问题，最终给出6项错误分析，超出预设的2至3个范围。除核心的数据类型错误和文件未正确关闭外，还额外识别出除零错误、列名不存在时的KeyError等。

关闭深度思考模式明显更快，直接输出结果，无可见思考过程。识别出的问题同样是文件未正确关闭、列数据类型错误、除零错误、列名不存在等，与开启深度思考的核心结论基本一致。

对于不懂代码的用户，日常代码调试任务，关闭深度思考已足够可用且更快；如果是生产环境代码审查或需考虑各种异常边界，开启深度思考会给出更完整的分析。

对于复杂推理测试，我们设定为一家中高端护肤品公司的经营困境分析：三年收入年均增长18%，但净利润率从12%腰斩至6%，同时面临库存积压、营销费用失控、电商渠道落后和竞争对手低价抢市等多重压力。

要求V4以商业顾问身份，识别核心问题、按紧迫程度列出三个优先风险并说明依据，随后在同一对话中追问：若公司决定优先发力电商渠道，可能面临哪些新风险。

深度思考响应用时9秒。V4在思考过程中先完成问题拆解：将所有负面信号归类为现金流威胁、盈利能力恶化、市场结构性风险三个维度，再依据“若不立即处理会导致现金流断裂或持续亏损”的紧迫性标准完成排序，逻辑链条清晰。

最终它给出的三个优先风险依次是：库存积压与现金流风险排第一；盈利能力持续恶化排第二，中端市场被抢占与渠道结构性短板排第三，并均给出了充分理由。

为了验证连续推理能力，我们追问发力电商渠道的风险，响应用时仅3秒，直接在第一轮建立的背景基础上继续推导，V4识别出五项新风险。

关闭深度思考后结果也差不多，但结论呈现更结构化，增加了“止损时间窗口”，落地感更强，某种程度上比深度思考版本更像一份可直接用于汇报的分析文件。

这一轮测试最值得关注的有两点：一是推理连贯性。前后两轮分析形成完整逻辑链；二是结论落地性。风险分析不停留在“可能会有影响”的泛泛层面，每条都给出了具体传导路径。

例如它指出高端产品依赖线下BA服务和专柜体验支撑溢价，一旦在电商大力促销，消费者会形成“不降价就不买”的预期，进而打击线下门店正价销售能力，最终形成恶性循环。测试结果显示出推理逻辑连贯性和缜密性。

03．

V4的真正影响力，在于模型之外

DeepSeek主动承认“落后3到6个月”，并非谦虚。DeepSeek的筹码是开源和价格，承认差距反而让这张牌打得更稳。

一位长期关注大模型领域的从业者对‘AIX财经’称，“当一个开源模型将百万上下文普及化、将API价格压至竞品的三分之一，你会发现闭源模型的护城河其实没有想象中那么宽。”V4的最大价值是让用户在成本可控的前提下，实现了许多以前想做却做不起的功能。

因此，开源加低价，可能会动摇整个行业的定价逻辑。

对普通用户和中小开发者而言，顶级推理能力的使用门槛被大幅拉低。以前要用好模型，要么付高额订阅，要么承受居高不下的API成本，现在这个壁垒被削弱；对大厂而言，当一个性能接近的开源模型以极低价格提供服务，闭源模型的溢价空间会被持续压缩，且这种压力是长期的，不会因下一个版本发布而消失。

此外，V4技术报告中，首次将华为昇腾和英伟达GPU并列写入硬件验证清单。

更值得注意的是，V4选用的FP4精度格式恰好是华为今年新发布的昇腾950芯片原生支持的精度，两者适配并非巧合。DeepSeek官方表示，等下半年昇腾950超节点批量上市后，V4-Pro价格还将继续大幅下调。

在英伟达出口管制持续收紧的背景下，这次技术协同释放的信号很清晰：DeepSeek正在主动构建一条不依赖英伟达的算力通道。这件事的战略意义比V4本身的产品发布要深远得多。

上述从业者称，昇腾这条线若真的跑通，对整个国内AI生态意义重大，现在大家都在英伟达这根管子上排队，一旦有一套可平替的硬件基础设施成熟，算力定价权和供给稳定性都会发生根本变化。DeepSeek愿意在技术报告中公开背书昇腾，这个动作本身就不是普通商业合作，更像是一个方向性表态。

下半年随着昇腾950上量、价格进一步下探，V4的实际影响力可能才会真正显现。

← 上一篇：野村控股：2025财年营收增长15%，四大业务利润创新高下一篇：视频：金融街嘉年华保安登台唱海阔天空，观众感动落泪 →