AI看空系列:Trace盛宴与虚假繁荣
"他们不过是在驾驶着空壳飞机四处游荡。" —— MB之子
英伟达堪称指路明灯,是猎户腰带,更是整片星河。
英伟达正享受着旺盛需求的红利,然而其客户群体极度聚焦,而这些客户自身的需求正被一段难以为继的"基准测试期"所扭曲。这种畸形需求经由定制化供应承诺,如鞭梢般层层抽打英伟达的供应链,一路波及数据中心的融资链条。笼罩其上的是"虚假繁荣"(the bezzle)——一旦察觉便无法忘却;一旦被戳破,即刻烟消云散。
所幸的是,英伟达这颗"明星"——它的Grace——本周交出了漂亮的整体答卷,一份崭新的10-Q季报因而摆上台面。我偏爱情报文件中那股清晨的气息。
我知道有人紧盯库存,但库存并非症结。库存结构合情合理。2027财年第一季度原材料库存确有明显攀升,但这与Blackwell Ultra的产能爬坡、以及2025财年第四季度Blackwell爬坡前的备货节奏相吻合。
更耐人寻味的是英伟达的客户画像。其客户集中度已高到令人咋舌。
英伟达头号客户很可能是微软。微软财务总监今年1月曾表态,Azure的算力掣肘至少延宕至2026年6月。若微软削减英伟达芯片资本开支两成,对英伟达而言便是4.2%的营收冲击。
思科从未有过占比超10%的单一客户。思科需要相关性更强的需求退潮才会受创。而英伟达只需一个客户收缩,哪怕仅仅是未达预期的订单增速,便会伤筋动骨。
客户集中如教父垄断,供应链定制且集中。不妙。
无论思科还是太阳微系统都未惨到如此境地——而太阳已然陨落。我在英伟达身上同时瞥见这两者的影子,还嗅到了历史DRAM周期的气息。下文信息量极大。
正是客户集中度让DRAM周期如此暴烈。过去一二十年,DRAM周期的客户集中度有所下降、主题相关性亦趋弱化,但如今历史重现——需求再度来自寥寥数家巨头、围绕单一宏大叙事。正因如此,我做空了SOX(费城半导体指数)。
思科当年核销半数采购承诺,而其供应商尚有多元客户。思科采购的是通用、可替换的元器件。
英伟达并非如此。英伟达是在台积电认领定制产线并为之注资。台积电无法以常规产线制造英伟达芯片。这是一条定制化、不可替代的供应链。这不仅蕴含地缘风险,一旦英伟达业务放缓——天不容——出现下滑,极可能酿成重大损失。
面对逾五万亿美元市值,1820亿美元的前向采购承诺——其中1190亿美元来自单一客户——似乎微不足道。
但事实上,这1820亿美元已超越英伟达可观的年度经营性现金流。
截至目前这尚不构成问题。微软采购芯片的速度始终快于其部署能力。关键在于,这些芯片以"在建工程"(CIP)入账,在投入运营前,既不会于资产负债表折旧,也不会给微软带来任何成本。
然而微软购入之际,英伟达便从库存中确认销售。英伟达的库存数据颇为光鲜,这点我已论证。
英伟达收获一笔销售,一笔应收,后者转化为现金回流,进而形成正向现金流。
但我在应收账款走势中嗅到一丝异样。
第一季度,微软(即"客户A")占英伟达应收账款的比重攀升,同时其占营收的比重却明显下滑。微软对英伟达的应收余额现约122亿美元,几近英伟达2024年全年客户应收总和。
诚然,整体业务扩张。过去几年营收增长4.9倍,总应收增长4.9倍,但"客户A"应收余额膨胀13.4倍。微软介入之深,量级惊人。
争议焦点并非增长本身,而是一个"锯齿形"突兀出现在原本皆为"反锯齿形"之处。客户B与客户C均无"锯齿形",唯客户A独有。微软这两三年持续放风、放新闻,暗示意欲淡出数据中心这摊"裸金属"生意。
微软一路撒落爆米花,却从未想过投喂路边的小动物。
2024年,微软首席执行官萨提亚·纳德拉坦言:"你可能坐拥满库芯片,我却无力插上一片。"
2025年4月,微软冻结了1.5吉瓦规模的数据中心项目,退租部分设施。此事于《Blessed Fraud》中已有探讨。
微软财年止于2026年6月,今年1月微软称预计算力瓶颈将持续至6月。而未来几年,微软表示会继续扩张自研Maia芯片。
随后在5月14日,微软宣布停用Claude Code,强制全体员工于6月30日前切换至自家GitHub Copilot。压缩之迅疾,令人瞠目。Claude Code可是2025年12月才向微软工程师开放。
这便引出两种情境。
其一,微软提前揽入并非真正急需的库存。即便建设放缓、电力紧缺掣肘,仍照单全收,只为保住英伟达下一代芯片客户的优先席位。将这些芯片塞入CIP(往仓库地面一搁)便作罢——它们毫无财务折旧,却物理层面飞速贬值。况且微软与英伟达账期约60至65天,故两三月内微软分文现金不会流出。
其二,英伟达前置库存,以图季度数字亮眼,击碎市场私下流传的预期。英伟达深知微软本就囤积其芯片,亦乐于消化。微软此前或许亦曾配合。毕竟微软可将这些库存纳入CIP,于自身损益表与费用毫无影响。
与此同时,标普全球洞察到数据中心普遍面临的电网与电力瓶颈,并预计至2028年数据中心将出现19吉瓦电力缺口(占需求四成)。
众人皆醒悟,数据中心方为真正的瓶颈。而那些英伟达芯片正躺在CIP中,干等。
无论何种情境,这都是一场"暗流涌动"的恶性牛鞭效应的温床。我在先前文章中探讨过牛鞭效应。新冠封锁期间它将供应链折腾得遍体鳞伤,亦是2001年思科核销半数前向供应承诺的元凶。
这尚非铁证,更像是发现"手指已扣扳机"。紧盯接下来数季,尤其是数据中心融资叙事的演变。
与此同时,多头们无休止地鼓吹AI需求。需求何等饥渴。何等狂热。
我认同,确够疯狂。这就是the bezzle(虚假繁荣)。它并非源于某种有用、可重复的稳态,亦非源于一条永续向上的增长曲线,而是源于一个暂时的、社会性的、组织性的阶段——几乎所有行业的公司都在为争夺自身竞争优势、自身AI技术栈而战。
为此,各地企业都在进行基准测试,创建并采集trace(人机交互记录),训练封装层,疯狂收集失败节点。
这个狂躁的、仓促的、暂时的阶段,自有其名。
空头们始终追问:这一切如何变现?答案看似——商业企业已然在变现,它们购置算力、燃烧token,将算力与token用量推至天花板。
然而,这背后自有缘由,而这个缘由并不能说明长期需求。
Tokenmaxxing是AI多空双方都必须掌握的概念。
《纽约时报》的Kevin Roose于今年3月20日发表《More! More! More! Tech Workers Max Out Their A.I. Use》(更多!更多!更多!科技从业者将AI用量刷爆)。
4月1日,在微软"以token招募工程师"的消息传出数日后,Theory Ventures的Tomasz Tunguz于博客发布"如何Tokenmax"。
Tomasz当日写道:
秘诀在于并行化。一日之初便规划好架构,让多个agent同时作业。METR研究显示,最新模型现已能自主运行12小时,而一年前仅1小时……生产力天花板?远未触及。
4月6日,The Information刊发《Meta Employees Vie for AI 'Token Legend' Status》(Meta员工竞逐AI"Token传奇"头衔),大意是科技从业者刻意最大化算力token消耗。有个人纪录,有排行榜。
文章发布不久,Meta便撤下了排行榜。
《财富》跟进报道,援引Meta首席技术官Andrew Bosworth谈及一位顶尖工程师:
他最出色的工程师在token上的花费堪比自身年薪,但产出却是5至10倍……仿佛稳赚不赔。继续刷。没有上限。
黄仁勋在英伟达GTC上表示:
我完全能想象,未来我们公司每位工程师都将拥有年度token预算。他们底薪便达数十万美元,我可能还会再拨约一半的token预算,如此他们便能被放大10倍……如今硅谷招聘都在比拼"我这岗位配多少token"。原因显而易见:每位手握token的工程师都会更高效。
本月早些时候,Y Combinator联合创始人Garry Tan——凡事都要诗意一番——自然也以他的夸张风格大谈tokenmaxxing。
《Tokenmaxxing: How Top Builders Use AI To Do The Work of 400 Engineers》(Token狂刷:顶尖Builder如何以AI完成400名工程师之工)
Garry称:
若你真要将海水煮干——那种彻底的强迫症式做法——若由一人完成这项研究约需一月,但你完全可以更狠地"轰石头"。你花更多钱,你可能就是在tokenmax——但你本就该tokenmax……若能tokenmax,你就能购得数百万年的"机器意识"。如今我已成"时间亿万富翁"。
Tokenmaxxing绝非重度使用AI,更绝非可持续的AI使用。它是配额驱动、排行榜驱动、管理层强推的"过度消费"。它或许确有产出,但绝非10倍、绝非15倍。它或许是认真的基准测试,其中部分或大量是地位竞争——员工攀附晋升。而所有这些,都被记为需求,并被误认为是某种它并非之物。
那么,token为何物?
Token是大语言模型的文本单元,每个token都要花钱。
OpenAI专设页面讲解token。
OpenAI称:
继而便是tokenmaxxing。
Tokenmaxxing是企业以员工"无偿的提示词劳动"训练模型的一种机制,只不过被包装成一种意识形态。配合铺天盖地的"生产力爆炸"宣传,以及Garry Tan这样的啦啦队长,它是一种相当强大的意识形态。
Tokenmaxxing通过trace生效——每条trace是一次完整的人机交互记录。
在tokenmaxxing过程中,trace作为训练单元,其价值取决于内容。对训练最有价值的trace是"redirection"——即对模型走向的明确接受或明确拒绝。
当一位员工为冲榜烧掉3000万token时,其所创建trace中嵌入的决策,具有"成本抵消"价值——因其直接训练了模型的下一迭代版本。
但滑坡不难想见。一切尚新,而人类面对新玩具时,往往以各种非生产性方式过度使用。我高度怀疑信徒们反复念叨的生产力数字。若有人声称生产力提升15倍,他人便须追问基数几何。
回到开篇提及的the bezzle——源自embezzlement(挪用)一词。一旦看见,便无法视而不见;一旦揭穿,便荡然无存。
查理·芒格谈及the bezzle,但该词由约翰·肯尼斯·加尔布雷思(John Kenneth Galbraith,1908–2006)创造。在其《1929大崩盘》(The Great Crash 1929)一书中,加尔布雷思写道:
在各种盗窃形式中,(挪用)独有时间维度。从犯罪实施到被发现,可能历经数周、数月乃至数年。(顺便一提,此期间挪用者获益,而被挪用者,奇怪的是,并未察觉损失。这是一种心理财富的净增。)在任何给定时刻,都存在一笔"未被发现的挪用"的存量——或更确切地说,不在——该国企业与银行之中。这笔存量——或许应称之the bezzle——在任何时刻都相当于数百万美元。它亦随商业周期波动。年景好时,人们放松、信任、资金充裕。但即便钱多,总有众人欲壑难填。此情形下,挪用发生率上升,发现率下降,bezzle急速膨胀。萧条期则反之。资金被一双狭窄、怀疑的眼睛紧盯。经手资金者在证明清白前皆被假定为不诚。审计变得深入而细致。商业道德大幅改善。Bezzle收缩。
庞氏骗局是bezzle的经典范例。麦道夫制造了一桩惊人的bezzle。只要罪行未被发现,所有人都自觉更富。
公司当然亦能如此。金融危机前的房利美与房地美制造了不小的bezzle。安然、世通,以及众多其他造假公司皆是。
Bezzle亦可套用于那些并非造假、但仍从管理层和/或商业条件所制造的人为社会狂热中获益的公司——而这些都是暂时的。
正如卡内基国际和平基金会所言:
不幸的是,bezzle是暂时的,加尔布雷思继续观察到,到了某个时刻,投资者意识到被骗,于是并未如自以为的那般富有。当此事发生,感知财富下降,直至再次逼近真实财富。故bezzle的效应,是暂时将总账面财富推高,继而打回甚至低于原有水平。Bezzle起初集体感觉美妙,能引发高于寻常的支出,直至现实降临;之后感觉糟透,可能令支出崩盘。
查理·芒格于2000年谈及bezzle:
加尔布雷思创造"bezzle"一词,因他观察到,每美元未被发现的挪用,对支出皆有极强的刺激效应。毕竟,挪用者花得更多因其收入更多,而其雇主照旧花钱因其不知自身资产缩水。但加尔布雷思未将此洞见推进一步。他满足于做一只刺激性的牛虻。故我现在要将加尔布雷思的"bezzle"概念推至下一逻辑层次。
芒格大致是说,股票及其他资产价格的上涨本身便能产生收入与财富效应,即便这些价格并不匹配底层价值。
因此,追求长期回报的投资者,有三种选择。
其一,找到罕见的"负bezzle"——能找到的最大那种——然后重仓。若能找到数个,或许稍做分散。
其二,参与bezzle,或者创造、促成bezzle。
其三,努力揭穿bezzle,并从bezzle的消逝中获益。
最后这一种,讽刺的是,恰恰被那些从bezzle中获益的人认为最不光彩。按定义,其中部分从bezzle获益者——也许仅一人——只会看到某个白痴试图毁掉看似有价值之物。另一部分——若哪怕仅一人——心里清楚根本没有什么白痴,但仍须不惜一切代价阻止他,只要代价不超过bezzle本身价值。
也许我起初就该先讲bezzle,但我知道必须先讲英伟达。
Bezzle并非说AI是虚假的(虽然我或许会论证其定义模糊)。Bezzle是那种被当作永久需求、或更强劲需求征兆来融资和记账的临时需求——基准测试、trace收割、排行榜攀附。
所以,原来tokenmaxxing并非一级超大规模云厂商与基础模型公司"用员工心理来训练"的专利。
其蔓延动因藏于游戏规则之中。主要基础模型通过协议通常不会在企业或客户数据上训练,而是在个人数据trace上训练。这意味着,任何一家公司里那支人类大军,都有动力尽可能多地创建trace、尽可能多地烧token,以提升数据在企业内部的价值、改进封装层、减少对第三方模型的依赖。一级公司明白此点,其他公司亦在迅速跟进。
Tokenmaxxing正来到你所在的公司——若尚未到达的话。
任何拥有自研LLM或小语言模型(SLM)项目的软件公司或企业——如Intuit的Financial Large Language Model——都有动力让员工通过tokenmaxxing训练模型。Salesforce、ServiceNow、Workday及众多其他公司皆属此类。AI模型针对特定垂直领域或特定信息域,但仍需训练——即tokenmaxxing。姑且称之为第二层(Tier 2)。
还有一些拥有专有AI的非科技公司。这些公司通常使用轻量级专有封装层,跑在第三方模型之上。如Palantir所售,或IT部门自行捣鼓,或咨询公司搭建。这些公司尚不打算自建基础模型——至少暂时不。但封装层会记录trace,而非底层模型记录。这让使用封装层的公司——有些非常密集和精密——能够在trace中捕获训练数据,并用它让封装层越来越"对底层模型无感"。这是第三层(Tier 3),一个极为活跃、不断迭代的层级。
较大的金融公司,如银行与保险公司,往往拥有针对大型金融公司内部无数职能(作为受托人、托管人、资产管理人)的专有AI封装层。以摩根大通为例,它有LLM Suite,一个吞噬员工trace信息、隐藏底层模型身份的封装层。这叫第三层a(Tier 3a)。
其他较大的非金融公司可能有服务于各自主营业务的AI封装层项目。CVS Health、沃尔玛、联合健康都在此领域极为活跃。这是第三层b(Tier 3b)。一样——精密程度参差不齐,但都在改善、向上走。
第四层(Tier 4)是纯然的LLM/模型消费者,自身无任何独立项目。这是一个长期会萎缩的类别。
事实上,所有层级随时间推移都会将成员"毕业"送往上一层,依此类推。这解释了为何Palantir长期会被挤压出局。
在前三层,tokenmax的动机皆极强。
下面的金字塔并非静态的经济结构。存在强烈的"向上迁移"压力。每一个追求利润最大化的企业都会寻求在金字塔中上移,并且事实上也会这么做。这种移动,就是压缩。
上面的图展示了tokenmaxxing"金字塔"。左边那个向上的红色箭头代表进步的趋势——随着公司自身被训练起来,底层模型被逐步替换。再说一遍,演化压力是向金字塔上方移动的。
那么bezzle是什么?我们当下所处的阶段——财富200强的非科技公司封装层策略——正在燃烧最多的token、生成最多的trace,也就是最多的训练数据。
当这些公司训练完毕、上移至下一层时,训练便会枯竭,压缩就会到来。
压缩,就是基准测试阶段结束、公司开始减少第三方token过度使用时所发生的事。
如前所述,微软已在负责Windows、Microsoft 365、Outlook、Teams和Surface的"体验+设备"事业部停用了Claude Code。对他们而言,没有Claude Code了。
不过是2025年12月Claude Code才被允许进入,且极受欢迎——据The Verge报道。而后5月14日,微软开始取消那些许可,2026年6月30日为全面切换至GitHub Copilot的死线。这训练与压缩的速度,真够快的。
据The Verge,微软是在工程师们更偏爱Claude Code的反对声中强制推行内部管控的。这很有意思,但说得通。公司心里清楚,长期而言,将一切交予第三方并无好处。长期而言,专有内部方案方为竞争优势。
微软执行副总裁Rajesh Jha在一封内部邮件中称(据Awesome Agents博客):
"当我们同时提供Copilot CLI和Claude Code时,我们的目标是快速学习、在真实工程工作流中对工具进行基准测试,并理解什么最能支持我们的团队。Claude Code是那段学习的重要组成部分……Copilot CLI给了我们一些尤其重要的东西:一个我们可以与GitHub共同为微软的代码库、工作流、安全预期和工程需求直接塑造的产品。"
那段使用Claude Code的时期,正是Tunguz博客上爆出微软员工如Meta等地同行一般在tokenmaxxing——一场tracepalooza(trace狂欢)。数月之内,基准测试完成,如今微软要以此改进自家产品。这便是为何图左边那个红色箭头会长期推动公司沿金字塔上移。
每一个第三层公司的IT专业人士和工程师,都目睹了微软的作为。
压缩就是更低的外部可变现AI需求。这与采用率无关。那些IT专业人士和工程师长期想做的,是降低外部AI组件对自身使用的变现。这就是他们关注的原因。
再举一例。亚马逊一直在其Bedrock封装系统上跑Claude。2025年晚些时候,它将一个agentic编程工具Kiro集成进员工队伍。亚马逊设立了排行榜/排名看板,监控员工的使用情况。Tokenmaxxing就是王道——落后者会被标记给管理层。亚马逊目标是通过AI节省20亿美元成本,部署了21000个AI agent。
工程师们造反了,因他们想要更多token、更多用Claude的tokenmaxxing,觉得那样表现更佳。这是一种被强社会证明所强化的意识形态。
但出现了代价惨重的故障。据dev.to博客:
亚马逊正在335个关键系统上强制进行为期90天的安全重置,起因是其AI编程工具造成了灾难性故障。仅3月5日那一次事件就损失了630万订单,并触发了21716条Downdetector峰值报告。
那个AI编程工具就是Kiro,它对其他故障亦负有责任,还写了糟糕的代码,工程师们批准并提交进了生产环境,后果可想而知。
但整个过程中亚马逊一直将其跑在自己的Bedrock系统上,故它拿到了所有的trace、所有的数据,并从所有错误中学到了很多。这帮助Bedrock变得更好,也让跑在上面的Claude Code更好。这对亚马逊也有好处,因其在Anthropic身上投了80亿美元。
这看起来就是最优秀公司的清晰策略——他们要训练数据,他们以激励推动tokenmaxxing以获取之。失败可以接受,高成本可以接受,只要tracepalooza被延长和加强。
学习曲线仍然陡峭。Tracepalooza就是当下的方式。Tokenmaxxing正在前三层公司里广泛发生。Bezzle是一个肿胀的、庞大的恩主——暂时如此。
但这个阶段显然就只是个阶段。早期没错,但早期恰恰是AI被过度使用最严重的时候。
杰文斯悖论(Jevons Paradox)救不了这个资本开支周期,tokenmaxxing就是证据。杰文斯要求更便宜的供给能解锁原本不消费的新用户,但当前tokenmaxxing的激励意味着企业里的使用已近饱和。
工程师们简直是在尽可能多地消耗token,不管公司要花多少钱。
对于非企业客户(第四层公司和个人),第三方LLM的使用已经免费,而且被世界上任何有智能设备的人广泛采用。
这个悖论的新用户会是谁?如果说是人类,那非常少。杰文斯在此处是一个不充分的论题。采用率不会以任何革命性的方式扩张,因为它不能。所有人已经在用了,而且许多人在这个大规模训练阶段里,正尽可能疯狂、尽可能昂贵地用着。
当然,也许杰文斯最终会在未来广泛的人机推理中起作用。成本肯定需要降下来——也确实在降。
但问题不在于更便宜的推理是否"有朝一日"会创造更多使用。在很长的长期里,是的,也许会。
杰文斯悖论需要以强形式相对较快地兑现,而我们今天并没有这个条件。
不,今天没有,面对无情的压缩更没有。微软Excel用了四十年,几乎装在世界每一台PC上,但人们很少用到它哪怕百分之一的功能——即便它就摆在那儿几十年了。AI算力也面临着同样的命运。巨大的算力,人类却只是轻轻抚摸那些可能性。
这也会过去。训练会从革命性变成迭代性。推理会占主导,但算力很快就会淹没我们这些可怜的人类和我们创造信息的能力。实验室已经在耗尽桌面上已有的人类产出——人类写的代码、文字、分析、音乐,所有这些。产出是可观的,但过度建设保证了它对我们这些小不点来说绰绰有余。
压缩终将统治一切,各层级会塌缩成一个。
从现在起,一切都是期限错配。软件在快速迭代、快速压缩。金融/硬件却慢如糖浆。Bezzle就活在它们之间——暂时。
英伟达每年推出新芯片,数据中心在尽可能快地盖起来,发电厂在尽可能快地建起来,而外部需求已经在压缩。现金流被完全吃光,债务在快速膨胀。
Token可以烧掉几百万然后很快被遗忘。数据中心不是这种东西。GPU集群几年就过时。数据中心背后是15–19年的债务,但它们自己可能不到10年就过时了。
不出意料,芯片和承载它们的数据中心的融资,一直是大量猜测的对象。
冷酷的事实是,到目前为止,微软、Meta、Alphabet、亚马逊的真金白银现金余额,与Oracle真正的债务支持现金、以及真正注入的现金是配对的。很快,OpenAI和Anthropic都将沐浴在真正的IPO现金里。
这些钱不会枯竭——至少四大巨头不会。资金流可能还会增长,但到这个点上,它们都已经接近把现金流作为资本