AI看空系列：Trace盛宴与虚假繁荣

发布时间：2026-06-21 18:14阅读：2

"他们不过是在驾驶着空壳飞机四处游荡。" —— MB之子

英伟达堪称指路明灯，是猎户腰带，更是整片星河。

英伟达正享受着旺盛需求的红利，然而其客户群体极度聚焦，而这些客户自身的需求正被一段难以为继的"基准测试期"所扭曲。这种畸形需求经由定制化供应承诺，如鞭梢般层层抽打英伟达的供应链，一路波及数据中心的融资链条。笼罩其上的是"虚假繁荣"（the bezzle）——一旦察觉便无法忘却；一旦被戳破，即刻烟消云散。

所幸的是，英伟达这颗"明星"——它的Grace——本周交出了漂亮的整体答卷，一份崭新的10-Q季报因而摆上台面。我偏爱情报文件中那股清晨的气息。

我知道有人紧盯库存，但库存并非症结。库存结构合情合理。2027财年第一季度原材料库存确有明显攀升，但这与Blackwell Ultra的产能爬坡、以及2025财年第四季度Blackwell爬坡前的备货节奏相吻合。

更耐人寻味的是英伟达的客户画像。其客户集中度已高到令人咋舌。

英伟达头号客户很可能是微软。微软财务总监今年1月曾表态，Azure的算力掣肘至少延宕至2026年6月。若微软削减英伟达芯片资本开支两成，对英伟达而言便是4.2%的营收冲击。

思科从未有过占比超10%的单一客户。思科需要相关性更强的需求退潮才会受创。而英伟达只需一个客户收缩，哪怕仅仅是未达预期的订单增速，便会伤筋动骨。

客户集中如教父垄断，供应链定制且集中。不妙。

无论思科还是太阳微系统都未惨到如此境地——而太阳已然陨落。我在英伟达身上同时瞥见这两者的影子，还嗅到了历史DRAM周期的气息。下文信息量极大。

正是客户集中度让DRAM周期如此暴烈。过去一二十年，DRAM周期的客户集中度有所下降、主题相关性亦趋弱化，但如今历史重现——需求再度来自寥寥数家巨头、围绕单一宏大叙事。正因如此，我做空了SOX（费城半导体指数）。

思科当年核销半数采购承诺，而其供应商尚有多元客户。思科采购的是通用、可替换的元器件。

英伟达并非如此。英伟达是在台积电认领定制产线并为之注资。台积电无法以常规产线制造英伟达芯片。这是一条定制化、不可替代的供应链。这不仅蕴含地缘风险，一旦英伟达业务放缓——天不容——出现下滑，极可能酿成重大损失。

面对逾五万亿美元市值，1820亿美元的前向采购承诺——其中1190亿美元来自单一客户——似乎微不足道。

但事实上，这1820亿美元已超越英伟达可观的年度经营性现金流。

截至目前这尚不构成问题。微软采购芯片的速度始终快于其部署能力。关键在于，这些芯片以"在建工程"（CIP）入账，在投入运营前，既不会于资产负债表折旧，也不会给微软带来任何成本。

然而微软购入之际，英伟达便从库存中确认销售。英伟达的库存数据颇为光鲜，这点我已论证。

英伟达收获一笔销售，一笔应收，后者转化为现金回流，进而形成正向现金流。

但我在应收账款走势中嗅到一丝异样。

第一季度，微软（即"客户A"）占英伟达应收账款的比重攀升，同时其占营收的比重却明显下滑。微软对英伟达的应收余额现约122亿美元，几近英伟达2024年全年客户应收总和。

诚然，整体业务扩张。过去几年营收增长4.9倍，总应收增长4.9倍，但"客户A"应收余额膨胀13.4倍。微软介入之深，量级惊人。

争议焦点并非增长本身，而是一个"锯齿形"突兀出现在原本皆为"反锯齿形"之处。客户B与客户C均无"锯齿形"，唯客户A独有。微软这两三年持续放风、放新闻，暗示意欲淡出数据中心这摊"裸金属"生意。

微软一路撒落爆米花，却从未想过投喂路边的小动物。

2024年，微软首席执行官萨提亚·纳德拉坦言："你可能坐拥满库芯片，我却无力插上一片。"

2025年4月，微软冻结了1.5吉瓦规模的数据中心项目，退租部分设施。此事于《Blessed Fraud》中已有探讨。

微软财年止于2026年6月，今年1月微软称预计算力瓶颈将持续至6月。而未来几年，微软表示会继续扩张自研Maia芯片。

随后在5月14日，微软宣布停用Claude Code，强制全体员工于6月30日前切换至自家GitHub Copilot。压缩之迅疾，令人瞠目。Claude Code可是2025年12月才向微软工程师开放。

这便引出两种情境。

其一，微软提前揽入并非真正急需的库存。即便建设放缓、电力紧缺掣肘，仍照单全收，只为保住英伟达下一代芯片客户的优先席位。将这些芯片塞入CIP（往仓库地面一搁）便作罢——它们毫无财务折旧，却物理层面飞速贬值。况且微软与英伟达账期约60至65天，故两三月内微软分文现金不会流出。

其二，英伟达前置库存，以图季度数字亮眼，击碎市场私下流传的预期。英伟达深知微软本就囤积其芯片，亦乐于消化。微软此前或许亦曾配合。毕竟微软可将这些库存纳入CIP，于自身损益表与费用毫无影响。

与此同时，标普全球洞察到数据中心普遍面临的电网与电力瓶颈，并预计至2028年数据中心将出现19吉瓦电力缺口（占需求四成）。

众人皆醒悟，数据中心方为真正的瓶颈。而那些英伟达芯片正躺在CIP中，干等。

无论何种情境，这都是一场"暗流涌动"的恶性牛鞭效应的温床。我在先前文章中探讨过牛鞭效应。新冠封锁期间它将供应链折腾得遍体鳞伤，亦是2001年思科核销半数前向供应承诺的元凶。

这尚非铁证，更像是发现"手指已扣扳机"。紧盯接下来数季，尤其是数据中心融资叙事的演变。

与此同时，多头们无休止地鼓吹AI需求。需求何等饥渴。何等狂热。

我认同，确够疯狂。这就是the bezzle（虚假繁荣）。它并非源于某种有用、可重复的稳态，亦非源于一条永续向上的增长曲线，而是源于一个暂时的、社会性的、组织性的阶段——几乎所有行业的公司都在为争夺自身竞争优势、自身AI技术栈而战。

为此，各地企业都在进行基准测试，创建并采集trace（人机交互记录），训练封装层，疯狂收集失败节点。

这个狂躁的、仓促的、暂时的阶段，自有其名。

空头们始终追问：这一切如何变现？答案看似——商业企业已然在变现，它们购置算力、燃烧token，将算力与token用量推至天花板。

然而，这背后自有缘由，而这个缘由并不能说明长期需求。

Tokenmaxxing是AI多空双方都必须掌握的概念。

《纽约时报》的Kevin Roose于今年3月20日发表《More! More! More! Tech Workers Max Out Their A.I. Use》（更多！更多！更多！科技从业者将AI用量刷爆）。

4月1日，在微软"以token招募工程师"的消息传出数日后，Theory Ventures的Tomasz Tunguz于博客发布"如何Tokenmax"。

Tomasz当日写道：

秘诀在于并行化。一日之初便规划好架构，让多个agent同时作业。METR研究显示，最新模型现已能自主运行12小时，而一年前仅1小时……生产力天花板？远未触及。

4月6日，The Information刊发《Meta Employees Vie for AI 'Token Legend' Status》（Meta员工竞逐AI"Token传奇"头衔），大意是科技从业者刻意最大化算力token消耗。有个人纪录，有排行榜。

文章发布不久，Meta便撤下了排行榜。

《财富》跟进报道，援引Meta首席技术官Andrew Bosworth谈及一位顶尖工程师：

他最出色的工程师在token上的花费堪比自身年薪，但产出却是5至10倍……仿佛稳赚不赔。继续刷。没有上限。

黄仁勋在英伟达GTC上表示：

我完全能想象，未来我们公司每位工程师都将拥有年度token预算。他们底薪便达数十万美元，我可能还会再拨约一半的token预算，如此他们便能被放大10倍……如今硅谷招聘都在比拼"我这岗位配多少token"。原因显而易见：每位手握token的工程师都会更高效。

本月早些时候，Y Combinator联合创始人Garry Tan——凡事都要诗意一番——自然也以他的夸张风格大谈tokenmaxxing。

《Tokenmaxxing: How Top Builders Use AI To Do The Work of 400 Engineers》（Token狂刷：顶尖Builder如何以AI完成400名工程师之工）

Garry称：

若你真要将海水煮干——那种彻底的强迫症式做法——若由一人完成这项研究约需一月，但你完全可以更狠地"轰石头"。你花更多钱，你可能就是在tokenmax——但你本就该tokenmax……若能tokenmax，你就能购得数百万年的"机器意识"。如今我已成"时间亿万富翁"。

Tokenmaxxing绝非重度使用AI，更绝非可持续的AI使用。它是配额驱动、排行榜驱动、管理层强推的"过度消费"。它或许确有产出，但绝非10倍、绝非15倍。它或许是认真的基准测试，其中部分或大量是地位竞争——员工攀附晋升。而所有这些，都被记为需求，并被误认为是某种它并非之物。

那么，token为何物？

Token是大语言模型的文本单元，每个token都要花钱。

OpenAI专设页面讲解token。

OpenAI称：

继而便是tokenmaxxing。

Tokenmaxxing是企业以员工"无偿的提示词劳动"训练模型的一种机制，只不过被包装成一种意识形态。配合铺天盖地的"生产力爆炸"宣传，以及Garry Tan这样的啦啦队长，它是一种相当强大的意识形态。

Tokenmaxxing通过trace生效——每条trace是一次完整的人机交互记录。

在tokenmaxxing过程中，trace作为训练单元，其价值取决于内容。对训练最有价值的trace是"redirection"——即对模型走向的明确接受或明确拒绝。

当一位员工为冲榜烧掉3000万token时，其所创建trace中嵌入的决策，具有"成本抵消"价值——因其直接训练了模型的下一迭代版本。

但滑坡不难想见。一切尚新，而人类面对新玩具时，往往以各种非生产性方式过度使用。我高度怀疑信徒们反复念叨的生产力数字。若有人声称生产力提升15倍，他人便须追问基数几何。

回到开篇提及的the bezzle——源自embezzlement（挪用）一词。一旦看见，便无法视而不见；一旦揭穿，便荡然无存。

查理·芒格谈及the bezzle，但该词由约翰·肯尼斯·加尔布雷思（John Kenneth Galbraith，1908–2006）创造。在其《1929大崩盘》（The Great Crash 1929）一书中，加尔布雷思写道：

在各种盗窃形式中，（挪用）独有时间维度。从犯罪实施到被发现，可能历经数周、数月乃至数年。（顺便一提，此期间挪用者获益，而被挪用者，奇怪的是，并未察觉损失。这是一种心理财富的净增。）在任何给定时刻，都存在一笔"未被发现的挪用"的存量——或更确切地说，不在——该国企业与银行之中。这笔存量——或许应称之the bezzle——在任何时刻都相当于数百万美元。它亦随商业周期波动。年景好时，人们放松、信任、资金充裕。但即便钱多，总有众人欲壑难填。此情形下，挪用发生率上升，发现率下降，bezzle急速膨胀。萧条期则反之。资金被一双狭窄、怀疑的眼睛紧盯。经手资金者在证明清白前皆被假定为不诚。审计变得深入而细致。商业道德大幅改善。Bezzle收缩。

庞氏骗局是bezzle的经典范例。麦道夫制造了一桩惊人的bezzle。只要罪行未被发现，所有人都自觉更富。

公司当然亦能如此。金融危机前的房利美与房地美制造了不小的bezzle。安然、世通，以及众多其他造假公司皆是。

Bezzle亦可套用于那些并非造假、但仍从管理层和/或商业条件所制造的人为社会狂热中获益的公司——而这些都是暂时的。

正如卡内基国际和平基金会所言：

不幸的是，bezzle是暂时的，加尔布雷思继续观察到，到了某个时刻，投资者意识到被骗，于是并未如自以为的那般富有。当此事发生，感知财富下降，直至再次逼近真实财富。故bezzle的效应，是暂时将总账面财富推高，继而打回甚至低于原有水平。Bezzle起初集体感觉美妙，能引发高于寻常的支出，直至现实降临；之后感觉糟透，可能令支出崩盘。

查理·芒格于2000年谈及bezzle：

加尔布雷思创造"bezzle"一词，因他观察到，每美元未被发现的挪用，对支出皆有极强的刺激效应。毕竟，挪用者花得更多因其收入更多，而其雇主照旧花钱因其不知自身资产缩水。但加尔布雷思未将此洞见推进一步。他满足于做一只刺激性的牛虻。故我现在要将加尔布雷思的"bezzle"概念推至下一逻辑层次。

芒格大致是说，股票及其他资产价格的上涨本身便能产生收入与财富效应，即便这些价格并不匹配底层价值。

因此，追求长期回报的投资者，有三种选择。

其一，找到罕见的"负bezzle"——能找到的最大那种——然后重仓。若能找到数个，或许稍做分散。

其二，参与bezzle，或者创造、促成bezzle。

其三，努力揭穿bezzle，并从bezzle的消逝中获益。

最后这一种，讽刺的是，恰恰被那些从bezzle中获益的人认为最不光彩。按定义，其中部分从bezzle获益者——也许仅一人——只会看到某个白痴试图毁掉看似有价值之物。另一部分——若哪怕仅一人——心里清楚根本没有什么白痴，但仍须不惜一切代价阻止他，只要代价不超过bezzle本身价值。

也许我起初就该先讲bezzle，但我知道必须先讲英伟达。

Bezzle并非说AI是虚假的（虽然我或许会论证其定义模糊）。Bezzle是那种被当作永久需求、或更强劲需求征兆来融资和记账的临时需求——基准测试、trace收割、排行榜攀附。

所以，原来tokenmaxxing并非一级超大规模云厂商与基础模型公司"用员工心理来训练"的专利。

其蔓延动因藏于游戏规则之中。主要基础模型通过协议通常不会在企业或客户数据上训练，而是在个人数据trace上训练。这意味着，任何一家公司里那支人类大军，都有动力尽可能多地创建trace、尽可能多地烧token，以提升数据在企业内部的价值、改进封装层、减少对第三方模型的依赖。一级公司明白此点，其他公司亦在迅速跟进。

Tokenmaxxing正来到你所在的公司——若尚未到达的话。

任何拥有自研LLM或小语言模型（SLM）项目的软件公司或企业——如Intuit的Financial Large Language Model——都有动力让员工通过tokenmaxxing训练模型。Salesforce、ServiceNow、Workday及众多其他公司皆属此类。AI模型针对特定垂直领域或特定信息域，但仍需训练——即tokenmaxxing。姑且称之为第二层（Tier 2）。

还有一些拥有专有AI的非科技公司。这些公司通常使用轻量级专有封装层，跑在第三方模型之上。如Palantir所售，或IT部门自行捣鼓，或咨询公司搭建。这些公司尚不打算自建基础模型——至少暂时不。但封装层会记录trace，而非底层模型记录。这让使用封装层的公司——有些非常密集和精密——能够在trace中捕获训练数据，并用它让封装层越来越"对底层模型无感"。这是第三层（Tier 3），一个极为活跃、不断迭代的层级。

较大的金融公司，如银行与保险公司，往往拥有针对大型金融公司内部无数职能（作为受托人、托管人、资产管理人）的专有AI封装层。以摩根大通为例，它有LLM Suite，一个吞噬员工trace信息、隐藏底层模型身份的封装层。这叫第三层a（Tier 3a）。

其他较大的非金融公司可能有服务于各自主营业务的AI封装层项目。CVS Health、沃尔玛、联合健康都在此领域极为活跃。这是第三层b（Tier 3b）。一样——精密程度参差不齐，但都在改善、向上走。

第四层（Tier 4）是纯然的LLM/模型消费者，自身无任何独立项目。这是一个长期会萎缩的类别。

事实上，所有层级随时间推移都会将成员"毕业"送往上一层，依此类推。这解释了为何Palantir长期会被挤压出局。

在前三层，tokenmax的动机皆极强。

下面的金字塔并非静态的经济结构。存在强烈的"向上迁移"压力。每一个追求利润最大化的企业都会寻求在金字塔中上移，并且事实上也会这么做。这种移动，就是压缩。

上面的图展示了tokenmaxxing"金字塔"。左边那个向上的红色箭头代表进步的趋势——随着公司自身被训练起来，底层模型被逐步替换。再说一遍，演化压力是向金字塔上方移动的。

那么bezzle是什么？我们当下所处的阶段——财富200强的非科技公司封装层策略——正在燃烧最多的token、生成最多的trace，也就是最多的训练数据。

当这些公司训练完毕、上移至下一层时，训练便会枯竭，压缩就会到来。

压缩，就是基准测试阶段结束、公司开始减少第三方token过度使用时所发生的事。

如前所述，微软已在负责Windows、Microsoft 365、Outlook、Teams和Surface的"体验+设备"事业部停用了Claude Code。对他们而言，没有Claude Code了。

不过是2025年12月Claude Code才被允许进入，且极受欢迎——据The Verge报道。而后5月14日，微软开始取消那些许可，2026年6月30日为全面切换至GitHub Copilot的死线。这训练与压缩的速度，真够快的。

据The Verge，微软是在工程师们更偏爱Claude Code的反对声中强制推行内部管控的。这很有意思，但说得通。公司心里清楚，长期而言，将一切交予第三方并无好处。长期而言，专有内部方案方为竞争优势。

微软执行副总裁Rajesh Jha在一封内部邮件中称（据Awesome Agents博客）：

"当我们同时提供Copilot CLI和Claude Code时，我们的目标是快速学习、在真实工程工作流中对工具进行基准测试，并理解什么最能支持我们的团队。Claude Code是那段学习的重要组成部分……Copilot CLI给了我们一些尤其重要的东西：一个我们可以与GitHub共同为微软的代码库、工作流、安全预期和工程需求直接塑造的产品。"

那段使用Claude Code的时期，正是Tunguz博客上爆出微软员工如Meta等地同行一般在tokenmaxxing——一场tracepalooza（trace狂欢）。数月之内，基准测试完成，如今微软要以此改进自家产品。这便是为何图左边那个红色箭头会长期推动公司沿金字塔上移。

每一个第三层公司的IT专业人士和工程师，都目睹了微软的作为。

压缩就是更低的外部可变现AI需求。这与采用率无关。那些IT专业人士和工程师长期想做的，是降低外部AI组件对自身使用的变现。这就是他们关注的原因。

再举一例。亚马逊一直在其Bedrock封装系统上跑Claude。2025年晚些时候，它将一个agentic编程工具Kiro集成进员工队伍。亚马逊设立了排行榜/排名看板，监控员工的使用情况。Tokenmaxxing就是王道——落后者会被标记给管理层。亚马逊目标是通过AI节省20亿美元成本，部署了21000个AI agent。

工程师们造反了，因他们想要更多token、更多用Claude的tokenmaxxing，觉得那样表现更佳。这是一种被强社会证明所强化的意识形态。

但出现了代价惨重的故障。据dev.to博客：

亚马逊正在335个关键系统上强制进行为期90天的安全重置，起因是其AI编程工具造成了灾难性故障。仅3月5日那一次事件就损失了630万订单，并触发了21716条Downdetector峰值报告。

那个AI编程工具就是Kiro，它对其他故障亦负有责任，还写了糟糕的代码，工程师们批准并提交进了生产环境，后果可想而知。

但整个过程中亚马逊一直将其跑在自己的Bedrock系统上，故它拿到了所有的trace、所有的数据，并从所有错误中学到了很多。这帮助Bedrock变得更好，也让跑在上面的Claude Code更好。这对亚马逊也有好处，因其在Anthropic身上投了80亿美元。

这看起来就是最优秀公司的清晰策略——他们要训练数据，他们以激励推动tokenmaxxing以获取之。失败可以接受，高成本可以接受，只要tracepalooza被延长和加强。

学习曲线仍然陡峭。Tracepalooza就是当下的方式。Tokenmaxxing正在前三层公司里广泛发生。Bezzle是一个肿胀的、庞大的恩主——暂时如此。

但这个阶段显然就只是个阶段。早期没错，但早期恰恰是AI被过度使用最严重的时候。

杰文斯悖论（Jevons Paradox）救不了这个资本开支周期，tokenmaxxing就是证据。杰文斯要求更便宜的供给能解锁原本不消费的新用户，但当前tokenmaxxing的激励意味着企业里的使用已近饱和。

工程师们简直是在尽可能多地消耗token，不管公司要花多少钱。

对于非企业客户（第四层公司和个人），第三方LLM的使用已经免费，而且被世界上任何有智能设备的人广泛采用。

这个悖论的新用户会是谁？如果说是人类，那非常少。杰文斯在此处是一个不充分的论题。采用率不会以任何革命性的方式扩张，因为它不能。所有人已经在用了，而且许多人在这个大规模训练阶段里，正尽可能疯狂、尽可能昂贵地用着。

当然，也许杰文斯最终会在未来广泛的人机推理中起作用。成本肯定需要降下来——也确实在降。

但问题不在于更便宜的推理是否"有朝一日"会创造更多使用。在很长的长期里，是的，也许会。

杰文斯悖论需要以强形式相对较快地兑现，而我们今天并没有这个条件。

不，今天没有，面对无情的压缩更没有。微软Excel用了四十年，几乎装在世界每一台PC上，但人们很少用到它哪怕百分之一的功能——即便它就摆在那儿几十年了。AI算力也面临着同样的命运。巨大的算力，人类却只是轻轻抚摸那些可能性。

这也会过去。训练会从革命性变成迭代性。推理会占主导，但算力很快就会淹没我们这些可怜的人类和我们创造信息的能力。实验室已经在耗尽桌面上已有的人类产出——人类写的代码、文字、分析、音乐，所有这些。产出是可观的，但过度建设保证了它对我们这些小不点来说绰绰有余。

压缩终将统治一切，各层级会塌缩成一个。

从现在起，一切都是期限错配。软件在快速迭代、快速压缩。金融/硬件却慢如糖浆。Bezzle就活在它们之间——暂时。

英伟达每年推出新芯片，数据中心在尽可能快地盖起来，发电厂在尽可能快地建起来，而外部需求已经在压缩。现金流被完全吃光，债务在快速膨胀。

Token可以烧掉几百万然后很快被遗忘。数据中心不是这种东西。GPU集群几年就过时。数据中心背后是15–19年的债务，但它们自己可能不到10年就过时了。

不出意料，芯片和承载它们的数据中心的融资，一直是大量猜测的对象。

冷酷的事实是，到目前为止，微软、Meta、Alphabet、亚马逊的真金白银现金余额，与Oracle真正的债务支持现金、以及真正注入的现金是配对的。很快，OpenAI和Anthropic都将沐浴在真正的IPO现金里。

这些钱不会枯竭——至少四大巨头不会。资金流可能还会增长，但到这个点上，它们都已经接近把现金流作为资本