DeepSeek震撼降价,百万Token成本低至2分
21世纪经济报道记者 彭新
DeepSeek再次搅动市场格局,重塑大模型定价策略。
在4月26日发布的API价格调整公告中,DeepSeek宣布其所有API的输入缓存命中价格均已降至初始发布价的十分之一。特别值得一提的是,Pro模型在2026年5月5日之前还将享有额外的2.5折限时优惠。
根据DeepSeek官方API定价页面信息,此次价格调整覆盖了V4系列的全部模型,核心优化集中在输入缓存命中这一关键环节。调整后,DeepSeek-V4-Flash每百万Token(词元)的输入缓存命中价格仅为0.02元,而DeepSeek-V4-Pro的价格为0.025元。
对于企业级用户而言,DeepSeek-V4-Pro的降价幅度尤为显著。原先每百万Token高达1元的缓存输入价格,现已降至0.1元。在此基础上,若在2026年5月5日前叠加2.5折的限时特惠,实际价格更是低至0.025元/百万Tokens。同时,缓存未命中输入的费用从12元大幅削减至3元,缓存未命中输出的费用也从24元降至6元。
此次价格调整意味着,在处理相同数量的百万Token长文本或执行复杂的智能体任务时,DeepSeek相关模型的成本被压至前所未有的低点。这无疑为开发者提供了以极低成本对DeepSeek V4进行评估和测试的绝佳机会。
有开发者指出,DeepSeek V4在工程层面实现了多项技术突破,效率相比前代产品实现了数倍的提升。具体而言,在百万级调用场景下,单Token的推理算力消耗已降至V3.2版本的27%,而KV cache(大模型推理过程中占显存大头的部分)的显存占用更是仅为原先的10%。在这样的技术基础上,DeepSeek推出此次降价策略显得合乎情理。
作为一款开源模型,DeepSeek一直以来都以其“低价策略”与“开源模式”相结合的方式吸引着开发者社区,并在性能上力求比肩领先的闭源模型,使其成为专业客户追求性价比的理想选择。
DeepSeek-V4根据模型规模的不同,分为Pro和Flash两个版本。其中,V4-Pro拥有总计1.6万亿参数,激活参数量为490亿,是目前为止参数量最大的开源权重模型,主要面向高性能任务。而V4-Flash的总参数量为2840亿,激活参数量为130亿,侧重于低成本和高吞吐量,旨在提供更快速、更经济的API服务。这两款模型均采用了MoE(混合专家模型)架构。
DeepSeek坦承,在Agentic Coding(智能体编程)的评测中,DeepSeek-V4在代码交付质量方面已接近Claude Opus 4.6的非思考模式,但与Opus 4.6的思考模式相比仍存在一定差距。此外,在世界知识测评中,DeepSeek-V4的表现仅次于Gemini-Pro-3.1,但超越了同期其他开源模型。在数学、STEM领域以及竞赛型代码的测评中,其表现已能与世界顶级的闭源模型相媲美。
从价格角度分析,V4-Flash采取了普惠策略,其输入缓存命中价格为0.02元/百万Tokens,未命中价格为1元/百万Tokens,输出价格为2元/百万Tokens。这一定价策略清晰地指向了中小开发者和轻量级应用调用场景。而V4-Pro则提供了更高的性价比,尽管其原始输出价格(24元/百万Tokens)高于V4-Flash,但在限时折扣后,输出价格仅为6元/百万Tokens。这一价格与上一代V3.2系列相当,但却能提供1.6万亿参数的旗舰模型能力,性价比极高。
另一方面,DeepSeek正积极适配国产算力基础设施。DeepSeek在定价说明中指出,受限于高端算力供应,目前Pro版本的服务吞吐量受到一定限制。预计在下半年,随着昇腾950超节点的大规模上市,Pro版本的价格有望进一步大幅下调,这意味着DeepSeek的定价策略仍有进一步下探的空间。
实际上,DeepSeek已在积极地与国产算力进行适配。该公司将V4版本的早期访问权限优先提供给了国内的芯片厂商,而非英伟达、AMD等海外厂商,此举被业内人士视为DeepSeek模型适配策略的一次关键性转变。
根据华为方面披露的公开信息,昇腾超节点全系列产品已完成对DeepSeek V4的全面适配,能够实现V4-Pro约20毫秒、V4-Flash约10毫秒的低延迟推理。基于昇腾950超节点,V4-Pro在8K输入场景下,单卡的Decode吞吐量可达约4700 TPS;在同等输入场景下,V4-Flash的单卡Decode吞吐量约为1600 TPS。此外,在基于昇腾A3 64卡超节点的“大EP”(专家并行)部署模式下,V4-Flash在8K输入、1K输出场景下,借助vLLM推理引擎,单卡Decode吞吐量能够实现2000 TPS以上。
摩尔线程(689.500, 0.00, 0.00%)公司也公布了其进展,携手上海AI实验室DeepLink团队,率先在AI训练和推理一体化的智算卡MTT S5000上完成了核心算子的Day-0适配工作。目前,算子通过率已超过80%,实现了模型发布与国产算力适配的同步落地。
此次DeepSeek的价格调整正值全球大模型厂商激烈竞争,纷纷以更低价格和更高效率争夺开发者及企业客户的关键时期。随着企业用户从早期试验性部署转向规模化应用,推理和调用成本已超越单纯的模型能力,成为大模型厂商间竞争的核心要素。业内普遍预测,DeepSeek此次的价格调整将进一步压缩同行的报价空间。
花旗银行在其最新的研究报告中指出,DeepSeek V4-Pro在关键AI性能指标上已能与顶尖闭源模型Claude Sonnet 4.6相媲美,但其定价却远低于GPT-5.5。花旗认为,这一现象凸显了当前AI大模型领域中,开源模型与领先闭源模型之间日益加剧的两极分化趋势。得益于其极具成本竞争力的底层架构,开源模型在代码生成、智能体工作流以及长文本处理等应用场景中,与闭源巨头的技术差距正在逐步缩小。
在国产模型领域内部,DeepSeek V4-Pro的限时折扣价也明显低于多数同级别产品。以输出端价格计算,DeepSeek V4-Pro的折扣价为0.87美元/百万Tokens。相比之下,智谱GLM-5.1的输出端报价为4.4美元/百万Tokens,月之暗面Kimi K2.6的输出端报价为4.0美元/百万Tokens,分别为DeepSeek V4-Pro的约5倍和4.6倍。
根据全球最大的API聚合平台OpenRouter上当前的报价信息,阿里Qwen3.6 Plus的输出端价格约为1.95美元/百万Tokens;MiniMax官方价格显示,MiniMax M2.7的输出端价格为1.2美元/百万Tokens。在轻量级模型方面,阶跃星辰Step 3.5 Flash在OpenRouter上的报价为输入0.10美元/百万Tokens、输出0.30美元/百万Tokens,其输出端价格与DeepSeek-V4-Flash的0.28美元/百万Tokens非常接近。
记者注意到,在OpenRouter平台上,DeepSeek V4系列模型的调用量已呈现大幅增长的趋势。在4月26日当天,DeepSeek V4-Flash的调用量达到了814亿Tokens,DeepSeek V4 Pro的调用量也达到了96亿Tokens,这直接推动了DeepSeek在该平台上的总调用量创下了近期新高。
目前,DeepSeek的此次降价已引发资本市场对其竞争对手的重新定价。在4月27日,两大模型厂商的股价均出现显著下跌。MiniMax股价收于750.00港元/股,下跌3.54%;智谱股价收于914.5港元/股,下跌2.19%。
此外,近期市场传出DeepSeek的融资消息。有消息人士透露,腾讯和阿里正在与DeepSeek进行融资洽谈,公司估值可能超过200亿美元,但具体融资额度和估值仍可能随着谈判进展而调整。
