标签

AI巨头血亏不止,用户却坐享低价红利

发布时间:2026-06-22 22:07阅读:2

你或许已经发现一个颇为矛盾的现象。

一方面,媒体不断报道 AI 企业在巨额失血、疯狂亏损——开发 ChatGPT 的 OpenAI,据推测年度亏损高达百亿美金以上;马斯克旗下的 xAI 更为惊人,传闻其每收入一元便要亏损约二十六元。整个产业今年投向 AI 基础设施的资金,估计超过六千亿美元。

另一方面,作为普通用户的你,使用 AI 的感受却是:费用持续走低,乃至大量免费服务涌现。国内 DeepSeek 前不久再度宣布永久性降价,将同等性能产品的价格压至竞品的数十分之一。从长远来看,实现同等水准的 AI 能力,其价格每年大约下降十倍之多。

更令人费解的是:2026 年上半年,AI 领域竟同时出现涨价潮——高带宽内存(HBM)半年内飙升五倍以上、高端 GPU 一货难求,多家云服务提供商上调 API 定价,部分涨幅甚至高达四倍有余。

巨额亏损、大幅涨价、低价普及。三件背道而驰的事,在同一行业、同一时期并行上演。

这究竟是怎么回事?资金又是如何运转的?

我将此事从头到尾梳理一番,发现核心不过一句话——

这根本不是同一本账,而是三本账,各行其道。

将这三本账拆解开来,2026 年 AI 产业所有看似矛盾之处便豁然开朗。

AI 企业燃烧的那些天文数字,绝大多数并非用于「回应你这次的提问」,而是投入下一代模型的训练与算力抢占之中。

这是一场军备竞赛。谁的模型领先一步,谁就有可能赢家通吃,因此无人敢懈怠——疯狂采购显卡、兴建数据中心、囤积算力资源,赌的是尚未兑现的未来。

这笔开支有多可怕?据估算,仅几大云服务商巨头,今年在 AI 基础设施上的投入预算便达四千多亿美元。而且越往后越夸张:有内部泄露的预测显示,OpenAI 的年亏损将从今年的一百多亿攀升至几年后的四百多亿。

更要命的是,这笔账无法对冲。Anthropic 的首席执行官曾坦言(大意):在算力采购这件事上,世间不存在任何对冲机制——买多了,倘若需求不及预期,足以拖垮公司;买少了,又会在竞争中落伍。

因此第一本账的特点是:押注未来,越押越重。它与你这次使用 AI 花费了几分钱,几乎毫无关联。

第二本账,解释了为何 2026 年仍在「涨价」。

淘金热潮中稳赚不赔的,向来是卖工具的人。AI 这波浪潮里,工具便是显卡与内存。

需求过于旺盛,供给难以跟上——高端 GPU 长期缺货,专为 AI 设计的高带宽内存(HBM),据报道半年内价格暴涨五倍以上。卖工具的(芯片与内存制造商)赚得盆满钵满,而买工具的(云服务商、模型公司)成本则被大幅推高。

于是你会看到,多家云服务商上调 AI 相关服务价格,部分涨幅达到四倍之多;国内亦有大型模型厂商一年内连续三次提价。

注意,这一层面的涨价,涨的是算力与硬件的价格,而非终端模型调用的价格。这两个层面,方向恰好相反。

现在来到最关键、也最违背直觉的一本账——你每天感受到的「越来越便宜」,究竟从何而来。

先要厘清一点:AI 的成本,九成以上其实不在训练,而在推理——即你每提出一次问题、它每回应一次,所消耗的那些实实在在的算力。训练是一次性的,推理却是每次调用都要产生,持续不断。

而推理层面的单次成本,这两年正结构性地下滑。依靠两样利器。

第一样,是工程优化。这两年行业将「如何让模型答得又快又省」卷到了极致:

我尽量用通俗的话解释这几招:

•MoE(混合专家架构):模型体量庞大,但每次回应仅激活其中一小部分「专家」,无需整个大脑全速运转,节省算力。

•稀疏注意力:不让模型对每个字都斤斤计较,只聚焦关键部分,省下大量计算资源。

•量化技术:降低模型内部数值精度(例如从高精度压缩至低精度),内存占用减半、速度提升,质量几乎不受影响。

•KV 缓存压缩:将对话中反复使用的中间结果压缩变小,节省显存——这块去年至今进步尤为显著。

•推测解码:先用一个轻量级小模型快速「抢答」几个字,再由大模型批量校验,省去逐字斟酌的工夫。

这些手段叠加起来,单次推理成本可削减六至八成。国产 DeepSeek 便是个中典范——据报道,其新一代模型在超长上下文场景中,算力消耗仅为上一代的两三成、缓存仅需一成,凭借的是自研的一套注意力架构(同时也采用了国产算力)。

第二样,是市场竞争。开源模型这一年集体逼近第一梯队——多个开源模型家族在发布数月内便达到接近顶尖闭源模型的水平,价格却便宜十倍以上。这就给所有人的报价设定了硬顶:定价过高,用户索性自行部署开源方案。DeepSeek 率先将价格压至全球新低,小米等紧随其后,价格战就此燃起。

工程将成本压下去,竞争将利润挤出去。两头夹击之下,推理价格便成了白菜价。

讲到这里,「三本账」的矛盾便迎刃而解:烧钱烧在训练、涨价涨在硬件、白菜价降在推理。三层各自独立,丝毫不矛盾。

但白菜价这件事,还藏着两件反直觉的内情,不点破便容易被误导。

第一:你享受的便宜,是「昨日的智能」在打折。

价格暴跌的,是「达到某一固定水准」的能力。去年的顶尖模型,今年沦为便宜货——这部分确实每年降十倍。但「当前最强的那一档」,价格始终坚挺。研究机构的数据也印证了:固定能力的价格每年可降数十倍,然而前沿模型几乎纹丝不动。

而且如今最强的那批「会思考」的推理模型,解答问题前需先在内部「思索」一番,这些思考过程同样要消耗 token。因此即便单价在降,你真用最强模型处理事务,账单未必减少。

便宜的永远是昨日的最前沿,今日的最前沿永远昂贵。这是这门生意的铁律。

第二:越便宜,大家反而支出越多。

这便是经济学中著名的「杰文斯悖论」——商品价格越低,使用量越疯狂,总开支不降反升。

AI 领域体现得尤为淋漓尽致。单 token 固然便宜了,但如今的 agent 执行一项任务,动辄调用模型数十乃至上百次;长上下文、反复自检,都是成倍吞噬 token。结果就是:据报道,Uber 四个月内便耗尽了全年的 AI 预算——因其内部使用 Claude Code 编写代码的员工比例从三成飙升至八成以上,每位工程师每月的 API 账单高达数百乃至上千美元。

所以「白菜价」并未让任何人真正省钱,它只是将整个市场蛋糕做得更大了。这也正是模型公司那个诡异现象的根源——用户越多,亏损越重:每增一位用户、每多一次调用,它都要垫付实打实的算力成本。

将三本账与这两件事叠加,落到实际:

若你是 AI 使用者:别一上来就用最贵最强的。分清层级——需要顶尖推理的任务,用前沿模型;大量重复、简单的任务,用经济档(连谷歌首席执行官都劝大客户多用便宜的 Flash 档,称可省下十亿美元级别的费用)。此外,别按「每 token 多少钱」核算,要按「完成一件事总共花费多少」来算——前者在降,后者可能在涨。

若你关注行业走向:盯紧两个指标。一是谁的烧钱承受力更强——同样在亏,有的企业选择不自建数据中心、转而租赁算力,将烧钱比例压低;有的背负海量免费用户,烧钱比例降不下来。资本负担轻的,存活概率更高。二是价格底线何在——只要开源模型能逼近前沿,价格的底便是「你自己部署一套开源等效模型的成本」,而这个底线每年仍在下降三到五成。换言之,靠卖「通用模型调用」赚大钱,将越来越难。

还有一个易被忽视的红利:推理白菜价的意义,其实不在帮你省钱,而在于解锁了以往无力承担的应用。以往一个任务调用模型上百次、投喂几十万字上下文、令其反复自检——这些想都不敢想,因为烧不起。如今变得可行了。机会就藏在这些「过去太贵、现在突然能做」的应用之中。

所以别再纠结「AI 究竟是在烧钱还是在降价」了——它同时都在发生。

烧的是赌明天的钱,涨的是中间卖工具的钱,降的是卖给你今天的价。三本账,各走各路。

看懂这三本账,2026 年 AI 产业那些看似拧巴的事,全都理顺了:为何巨亏还要拼命降价(推理账上不降价就抢不到客户),为何降价了仍然活不下去(训练账上烧得更凶),以及——为何这场淘金热中,最稳赚的可能不是挖金的人(做模型的),而是卖工具的人(做芯片和算力的)。

便宜的是昨天,烧钱的是明天。我们享受着昨日打折的智能,而这些企业,在赌一个尚未到来的明天。