AI巨头血亏不止，用户却坐享低价红利

发布时间：2026-06-22 22:07阅读：2

你或许已经发现一个颇为矛盾的现象。

一方面，媒体不断报道 AI 企业在巨额失血、疯狂亏损——开发 ChatGPT 的 OpenAI，据推测年度亏损高达百亿美金以上；马斯克旗下的 xAI 更为惊人，传闻其每收入一元便要亏损约二十六元。整个产业今年投向 AI 基础设施的资金，估计超过六千亿美元。

另一方面，作为普通用户的你，使用 AI 的感受却是：费用持续走低，乃至大量免费服务涌现。国内 DeepSeek 前不久再度宣布永久性降价，将同等性能产品的价格压至竞品的数十分之一。从长远来看，实现同等水准的 AI 能力，其价格每年大约下降十倍之多。

更令人费解的是：2026 年上半年，AI 领域竟同时出现涨价潮——高带宽内存（HBM）半年内飙升五倍以上、高端 GPU 一货难求，多家云服务提供商上调 API 定价，部分涨幅甚至高达四倍有余。

巨额亏损、大幅涨价、低价普及。三件背道而驰的事，在同一行业、同一时期并行上演。

这究竟是怎么回事？资金又是如何运转的？

我将此事从头到尾梳理一番，发现核心不过一句话——

这根本不是同一本账，而是三本账，各行其道。

将这三本账拆解开来，2026 年 AI 产业所有看似矛盾之处便豁然开朗。

AI 企业燃烧的那些天文数字，绝大多数并非用于「回应你这次的提问」，而是投入下一代模型的训练与算力抢占之中。

这是一场军备竞赛。谁的模型领先一步，谁就有可能赢家通吃，因此无人敢懈怠——疯狂采购显卡、兴建数据中心、囤积算力资源，赌的是尚未兑现的未来。

这笔开支有多可怕？据估算，仅几大云服务商巨头，今年在 AI 基础设施上的投入预算便达四千多亿美元。而且越往后越夸张：有内部泄露的预测显示，OpenAI 的年亏损将从今年的一百多亿攀升至几年后的四百多亿。

更要命的是，这笔账无法对冲。Anthropic 的首席执行官曾坦言（大意）：在算力采购这件事上，世间不存在任何对冲机制——买多了，倘若需求不及预期，足以拖垮公司；买少了，又会在竞争中落伍。

因此第一本账的特点是：押注未来，越押越重。它与你这次使用 AI 花费了几分钱，几乎毫无关联。

第二本账，解释了为何 2026 年仍在「涨价」。

淘金热潮中稳赚不赔的，向来是卖工具的人。AI 这波浪潮里，工具便是显卡与内存。

需求过于旺盛，供给难以跟上——高端 GPU 长期缺货，专为 AI 设计的高带宽内存（HBM），据报道半年内价格暴涨五倍以上。卖工具的（芯片与内存制造商）赚得盆满钵满，而买工具的（云服务商、模型公司）成本则被大幅推高。

于是你会看到，多家云服务商上调 AI 相关服务价格，部分涨幅达到四倍之多；国内亦有大型模型厂商一年内连续三次提价。

注意，这一层面的涨价，涨的是算力与硬件的价格，而非终端模型调用的价格。这两个层面，方向恰好相反。

现在来到最关键、也最违背直觉的一本账——你每天感受到的「越来越便宜」，究竟从何而来。

先要厘清一点：AI 的成本，九成以上其实不在训练，而在推理——即你每提出一次问题、它每回应一次，所消耗的那些实实在在的算力。训练是一次性的，推理却是每次调用都要产生，持续不断。

而推理层面的单次成本，这两年正结构性地下滑。依靠两样利器。

第一样，是工程优化。这两年行业将「如何让模型答得又快又省」卷到了极致：

我尽量用通俗的话解释这几招：

•MoE（混合专家架构）：模型体量庞大，但每次回应仅激活其中一小部分「专家」，无需整个大脑全速运转，节省算力。

•稀疏注意力：不让模型对每个字都斤斤计较，只聚焦关键部分，省下大量计算资源。

•量化技术：降低模型内部数值精度（例如从高精度压缩至低精度），内存占用减半、速度提升，质量几乎不受影响。

•KV 缓存压缩：将对话中反复使用的中间结果压缩变小，节省显存——这块去年至今进步尤为显著。

•推测解码：先用一个轻量级小模型快速「抢答」几个字，再由大模型批量校验，省去逐字斟酌的工夫。

这些手段叠加起来，单次推理成本可削减六至八成。国产 DeepSeek 便是个中典范——据报道，其新一代模型在超长上下文场景中，算力消耗仅为上一代的两三成、缓存仅需一成，凭借的是自研的一套注意力架构（同时也采用了国产算力）。

第二样，是市场竞争。开源模型这一年集体逼近第一梯队——多个开源模型家族在发布数月内便达到接近顶尖闭源模型的水平，价格却便宜十倍以上。这就给所有人的报价设定了硬顶：定价过高，用户索性自行部署开源方案。DeepSeek 率先将价格压至全球新低，小米等紧随其后，价格战就此燃起。

工程将成本压下去，竞争将利润挤出去。两头夹击之下，推理价格便成了白菜价。

讲到这里，「三本账」的矛盾便迎刃而解：烧钱烧在训练、涨价涨在硬件、白菜价降在推理。三层各自独立，丝毫不矛盾。

但白菜价这件事，还藏着两件反直觉的内情，不点破便容易被误导。

第一：你享受的便宜，是「昨日的智能」在打折。

价格暴跌的，是「达到某一固定水准」的能力。去年的顶尖模型，今年沦为便宜货——这部分确实每年降十倍。但「当前最强的那一档」，价格始终坚挺。研究机构的数据也印证了：固定能力的价格每年可降数十倍，然而前沿模型几乎纹丝不动。

而且如今最强的那批「会思考」的推理模型，解答问题前需先在内部「思索」一番，这些思考过程同样要消耗 token。因此即便单价在降，你真用最强模型处理事务，账单未必减少。

便宜的永远是昨日的最前沿，今日的最前沿永远昂贵。这是这门生意的铁律。

第二：越便宜，大家反而支出越多。

这便是经济学中著名的「杰文斯悖论」——商品价格越低，使用量越疯狂，总开支不降反升。

AI 领域体现得尤为淋漓尽致。单 token 固然便宜了，但如今的 agent 执行一项任务，动辄调用模型数十乃至上百次；长上下文、反复自检，都是成倍吞噬 token。结果就是：据报道，Uber 四个月内便耗尽了全年的 AI 预算——因其内部使用 Claude Code 编写代码的员工比例从三成飙升至八成以上，每位工程师每月的 API 账单高达数百乃至上千美元。

所以「白菜价」并未让任何人真正省钱，它只是将整个市场蛋糕做得更大了。这也正是模型公司那个诡异现象的根源——用户越多，亏损越重：每增一位用户、每多一次调用，它都要垫付实打实的算力成本。

将三本账与这两件事叠加，落到实际：

若你是 AI 使用者：别一上来就用最贵最强的。分清层级——需要顶尖推理的任务，用前沿模型；大量重复、简单的任务，用经济档（连谷歌首席执行官都劝大客户多用便宜的 Flash 档，称可省下十亿美元级别的费用）。此外，别按「每 token 多少钱」核算，要按「完成一件事总共花费多少」来算——前者在降，后者可能在涨。

若你关注行业走向：盯紧两个指标。一是谁的烧钱承受力更强——同样在亏，有的企业选择不自建数据中心、转而租赁算力，将烧钱比例压低；有的背负海量免费用户，烧钱比例降不下来。资本负担轻的，存活概率更高。二是价格底线何在——只要开源模型能逼近前沿，价格的底便是「你自己部署一套开源等效模型的成本」，而这个底线每年仍在下降三到五成。换言之，靠卖「通用模型调用」赚大钱，将越来越难。

还有一个易被忽视的红利：推理白菜价的意义，其实不在帮你省钱，而在于解锁了以往无力承担的应用。以往一个任务调用模型上百次、投喂几十万字上下文、令其反复自检——这些想都不敢想，因为烧不起。如今变得可行了。机会就藏在这些「过去太贵、现在突然能做」的应用之中。

所以别再纠结「AI 究竟是在烧钱还是在降价」了——它同时都在发生。

烧的是赌明天的钱，涨的是中间卖工具的钱，降的是卖给你今天的价。三本账，各走各路。

看懂这三本账，2026 年 AI 产业那些看似拧巴的事，全都理顺了：为何巨亏还要拼命降价（推理账上不降价就抢不到客户），为何降价了仍然活不下去（训练账上烧得更凶），以及——为何这场淘金热中，最稳赚的可能不是挖金的人（做模型的），而是卖工具的人（做芯片和算力的）。

便宜的是昨天，烧钱的是明天。我们享受着昨日打折的智能，而这些企业，在赌一个尚未到来的明天。

← 上一篇：AI开发高效指南下一篇：AI硬件散热革新：金刚石材料商用化与LCP产业链突围 →