选错芯片亏一年？AI大佬痛斥谷歌TPU：省钱却误了研发

发布时间：2026-05-27 13:44阅读：15

AI短剧里的桥段正在现实中上演。

正值谷歌年度开发者大会召开之际，AI领域的领军人物却毫不客气地公开“砸场”！这背后究竟藏着多大的不满？

就在不久前谷歌I/O大会期间，知名文生图AI公司Midjourney的创始人兼CEO大卫·霍茨（David Holz）公开猛烈抨击谷歌TPU，瞬间在硅谷AI圈引发了热烈讨论。

霍茨在X平台上直言，由于早期选择谷歌TPU而非英伟达GPU作为核心训练基建，导致Midjourney的研发进度比预期整整滞后了一年。“若能重来，我定会从一开始就全面采用英伟达芯片。”

这番言论之所以极具杀伤力，是因为出自一家与谷歌深度绑定的知名AI企业。当初谷歌云正是拿他们做自家芯片的招牌，且他们曾依赖谷歌TPU节省了三分之二的推理成本。此次吐槽无异于为英伟达做了最强背书。

霍茨为何如此不给谷歌面子，偏要赶在谷歌发布新芯片时“拆台”？

显然，霍茨并非随口抱怨，而是基于真实代价的公开复盘。这触及了当前AI基础设施竞争最核心的矛盾：在硬件性能比拼之外，软件生态的护城河才是决定胜负的关键战场。

要理解霍茨的懊悔，首先需厘清谷歌TPU与英伟达GPU在研究场景下的本质区别。

打个比方，GPU好比通用并行计算的瑞士军刀。英伟达的CUDA平台自2007年布局至今，已积累近二十年的生态沉淀，成为AI行业的通用标准。

AI研究员最常用的框架PyTorch与CUDA深度绑定，Hugging Face上几乎所有开源模型权重默认以GPU格式发布，配合Nsight性能分析器、NCCL通信库、TensorRT推理优化工具，构成了一套完整的研究工具链。全球AI研究员从求学起就在CUDA上编程，PyTorch已成为他们的“母语”。

而TPU则是另一套生态。作为专用集成电路，其底层架构围绕脉动阵列设计，专门优化深度学习张量运算，在大规模稳定训练任务上效率极高。但它要求使用JAX或TensorFlow框架，对PyTorch的支持长期匮乏。社区资源稀缺，调试工具不成熟，几乎所有排错都需依赖谷歌自家文档。

回到Midjourney的具体需求，他们从事图像生成研究，需要大量自定义算子实验、快速原型迭代，以及随时调用Hugging Face生态中的扩散模型组件。这些工作在GPU+PyTorch环境下如鱼得水，在TPU上却举步维艰。

举个简单例子，研究员验证新想法，在GPU上或许只需几小时；在TPU上，仅配置环境和适配框架就可能耗费数天。长期累积，便成了霍茨口中的“落后一年”。

不过需强调的是，霍茨的吐槽专门针对研究和训练阶段。在推理阶段，逻辑则截然不同。这也是他们当初迁移至谷歌TPU的直接动力，因为使用谷歌TPU能实打实地省钱，且无需与巨头争夺英伟达显卡。

早在2023年，谷歌云便高调宣布，Midjourney已选定其为核心基础设施供应商。Midjourney利用谷歌TPU v4/v5（基于JAX框架）训练其第四代和第五代文生图大模型；同时，租用谷歌云上的英伟达GPU集群，处理全球用户数以亿计的日常生成推理。

Midjourney的选择非常务实。当时英伟达H100供不应求，Midjourney作为缺乏巨头撑腰的独立AI公司，根本排不上号。而谷歌TPU算力充足，且对图像类大规模矩阵运算的性价比（可节省六成成本）在纸面上极具诱惑力。

2025年第二季度，Midjourney将主力推理集群从英伟达A100/H100迁移至谷歌Cloud TPU v6e，月度推理支出从约210万美元骤降至70万美元以下，年化节省超1680万美元，回本周期仅11天。

换言之，TPU在规模化推理上的性价比优势真实存在。霍茨真正懊恼的是：本应在研究阶段用英伟达打磨模型，推理阶段再迁移至谷歌TPU降本；而非从一开始就在TPU上做研究，为此付出一年进度的代价。

霍茨的公开吐槽，本质上是一份对英伟达生态护城河的证词。英伟达的护城河不在于H100比TPU快多少，而在于无数研究员的工作习惯、数以万计的开源代码库，以及整个学术界默认GPU作为实验平台的行业惯性。

2026年，PyTorch在研究论文中的占有率仍高达85%。几乎所有前沿研究代码均基于英伟达硬件。这意味着，任何企图使用TPU做研究的团队，都必须承担隐性成本：将自己与主流社区隔离，放弃大量现成工具和资源，在相对小众的技术栈中独自探索。

这就是为何即便TPU在某些指标上已媲美甚至超越GPU，业界大多数研究实验室仍默认选择GPU。或许硬件性能可追赶，生态积累却无法速成。黄仁勋耗时近二十年筑起的这条护城河，正是英伟达最宝贵的资产。

谷歌显然意识到了问题所在。在今年的谷歌云Next大会上，谷歌发布了第八代TPU，并首次采用双芯片策略：TPU 8t（训练）和TPU 8i（推理）。这是TPU历史上首次将训练和推理拆分为两颗架构完全不同的专用芯片，旨在解决霍茨吐槽的痛点。

TPU 8t代号Sunfish，由博通合作设计，面向大规模预训练。超级Pod规模达9600颗芯片、共享2PB HBM，训练性价比较上代Ironwood提升2.7倍。TPU 8i代号Zebrafish，由联发科设计，专攻推理和 Serving，将片上SRAM扩大至384MB，芯片互联带宽翻倍至19.2 Tb/s，并引入全新的Boardfly网络拓扑，将1024芯片配置的最大网络跳数从16跳降至7跳，在大型MoE模型低延迟推理上性价比较Ironwood提升80%。两款芯片均采用台积电2纳米工艺，预计2027年量产。

谷歌此次双芯片战略本身就是一次重要的战略承认：训练和推理已分化为两种完全不同形态的工作负载，单一芯片无法再同时优化两端。这与英伟达“一块GPU通吃”的路线形成鲜明对比，也是谷歌对英伟达Vera Rubin NVL72和亚马逊Trainium3的正面回击。

而且谷歌此次不止发布新硬件。针对霍茨对TPU生态的抱怨，谷歌同步推出了TorchTPU项目——一个让PyTorch原生运行在TPU上的工程计划，目前处于预览版状态。

按照谷歌路线图，TorchTPU将支持PyTorch的Eager Mode、与vLLM和TorchTitan深度集成，并最终实现到完整Pod规模的线性扩展。若TorchTPU真正成熟，那些坚守PyTorch的研究团队将首次能够在不重写代码的前提下使用TPU。

然而，TorchTPU目前仍是预览版，非正式发布版。霍茨那种“改架构、调算子、快速验证想法”的研究工作流，在TPU 8t上是否真如H100般顺滑，仍需大量实战验证。一扇门已打开，但门后路有多平坦，需待2027年正式量产后方见分晓。

若Midjourney对TPU训练生态如此不满，那么如今AI行业新领头羊Anthropic又是如何解决脚踏三条船的挑战？要知道他们同时在英伟达GPU、谷歌TPU和亚马逊Trainium三套硬件上训练和运行Claude。

Anthropic原本处于AI第一集团的追赶者位置，财力远不及谷歌和OpenAI，因此接受了谷歌和亚马逊的巨额投资，交换条件之一便是使用这两家巨头的TPU和Trainium芯片。

谷歌和亚马逊均为Anthropic的战略投资者，两家巨头先后向其投资近100亿美元。再加上微软投资的50亿美元，相当于全球三大云计算巨头合力供养Anthropic。

巨头们绝非单纯财务投资。这些投资大部分已折现成谷歌和亚马逊的营收，因为Anthropic目前使用超过百万张亚马逊Trainium芯片，专门用于训练和部署最新Claude模型，同时使用数十万张谷歌TPU，并计划未来逐步拓展至百万TPU阵列。

与此同时，谷歌云、AWS以及微软Azure也是Claude在全球B端市场的主要分发平台。三大万亿级巨头都想用自己的销售网络帮Claude卖货，获取营收提成，更重要的是，将算力流量留在自家服务器，同时搭售自家云服务。

这种全面通吃的局面，也让Anthropic成为硅谷历史上成长最快、底牌最足的独立AI巨头。最近他们还与SpaceX达成算力租赁协议，每年需支付150亿美元，使用马斯克在田纳西州超算中心囤积的英伟达GPU芯片带来的算力。

那么，Anthropic是如何做到同时使用三大平台芯片的？

Anthropic官方表述为：不同工作负载匹配最适合的芯片。英伟达GPU承接研究实验和快速原型；谷歌TPU和亚马逊Trainium分别承接大规模训练和推理的主力工作负载，两家超级计算机供应商之间形成制衡，防止单一平台绑架定价权。

Anthropic与亚马逊的合作规模尤为引人注目。双方已签署协议，Anthropic将在未来十年向AWS投入超1000亿美元，获得最多5吉瓦的算力容量，覆盖Trainium2到Trainium4。

有趣的是，在最新谷歌云Next大会宣布与Anthropic深入合作时，亚马逊站出来“公开邀功”，声称Claude的训练完全在Trainium上完成，Project Rainier——这个目前运行超100万颗Trainium2芯片的集群——是全球最大的AI训练集群之一。

与此同时，Anthropic在谷歌Cloud Next大会前夕宣布扩大与谷歌和博通的合作，获得多吉瓦的下一代TPU容量，预计2027年投入使用。

Anthropic能走出这条路，关键在于其技术DNA：公司核心创始团队来自Google Brain，JAX是他们的母语。从一开始，Anthropic就将JAX作为核心训练框架——JAX的设计哲学是硬件无关，同一套代码通过XLA编译器可在GPU、TPU乃至Trainium上运行。

这与Midjourney的路径恰好相反：Midjourney先在PyTorch+GPU生态中建好研究工作流，再试图迁移至TPU，迁移成本才造成了一年损失。

然而，这种多平台策略亦有代价，Anthropic每次模型更新都要在三套架构上分别测试，每个Bug都有三个潜在成因，部署复杂度是单一平台方案的三倍。这是三平台策略必须支付的工程账单。

谷歌TPU体系基于传统的JAX和XLA编译器。亚马逊Trainium体系则基于AWS自研的Neuron SDK。这意味着，Anthropic核心的分布式训练框架无法直接平移。

因此，Anthropic工程团队必须派驻顶尖底层硬件优化专家，与谷歌和亚马逊芯片团队闭门联合开发，将复杂算子、混合精度训练代码，用三套完全不同的硬件底层汇编逻辑重写并优化。这种人力成本和时间沉淀，确实远超纯粹使用英伟达生态的OpenAI。

相比之下，Midjourney团队规模极小，根本没有Anthropic那种可与巨头芯片团队闭门魔改底层的千人工程兵团。面对TPU小众的JAX/XLA编译环境，一旦遭遇诡异硬件级Bug，整个团队只能停工死磕底层代码。

此外，2025年8至9月，Claude用户报告了明显性能下降。Anthropic事后复盘披露了三个独立基础设施漏洞：上下文窗口路由错误影响了某一平台上16%的Sonnet 4请求；TPU服务器配置错误导致Opus 4和Sonnet 4输出损坏；XLA编译器漏洞困扰Haiku 3.5长达两周。

Anthropic在自己的研究论文中反复强调：不要使用复杂框架，保持架构极度简单与可组合性。模型层设计越纯粹、越少花活，在面对多芯片平台交叉测试时，底层暴露的硬件Bug就越少，从而用“设计上的克制”化解了“平台上的繁复”。

付出这笔高昂工程账单后，Anthropic收获了全行业最羡慕的果实。根据最新TCO（总拥有成本）数据，谷歌TPU和亚马逊Trainium在大规模推理时的性价比，比英伟达平台高出50%以上。

相比OpenAI赌的是“英伟达纯血生态+ Stargate级单点超大算力”；Anthropic则是用三倍工程成本，硬生生将自己逼成“跨平台黏合体”。

这种底层基建的全面跑通，让Claude在如今多模态智能体大规模并发、大流量吞吐的工业落地战役中，拥有了全行业最便宜、最不被单一方卡脖子的无限算力大后方。这就是多平台策略牺牲短期人力、换取长期战略制高点的终极兑现。

话题回到霍茨的那条推文，某种程度上是AI基础设施进入新阶段的缩影。未来几年的竞争格局，已开始清晰。

训练侧格局是：英伟达仍是研究实验和快速迭代首选平台，但在超大规模稳定训练上，TPU和Trainium正以性价比优势侵蚀份额。谷歌TPU 8t的2.7倍性价比提升、亚马逊Trainium3的持续进化，意味着前沿AI实验室将越来越倾向于“研究用GPU、训练用专用芯片”的混合策略。

推理侧格局更利于挑战者。推理是AI基础设施中增速最快的部分——2026年初推理已占AI算力总支出55%，预计到2030年将占75%。在此场景下，TPU和Trainium的专用优化能带来Midjourney那样65%的成本削减，经济账算得通。谷歌TPU 8i正是针对这一趋势的定向武器。

生态侧战局则更为长期。TorchTPU能否真正让PyTorch研究员无缝迁移至TPU，是谷歌2027年最重要的挑战。亚马逊策略更为务实：Trainium与PyTorch兼容性一直是其主打卖点，通过Bedrock平台上十万家以上企业客户积累，正在悄悄构建自己的应用层生态。

但英伟达绝不会坐视对手侵蚀护城河，CUDA的持续进化和Blackwell架构的推出，是对“GPU不是研究唯一选择”论调的最直接反击。

供给侧变量同样值得关注，谷歌TPU大规模量产受制于台积电先进封装产能，原计划2026年达400万颗的目标已推迟至2027年。台积电现有AP8工厂已满负荷，新AP7平台首期产能已全部分配给苹果处理器，第二期年底才能投入。这意味着即便需求旺盛，TPU供给在2026年仍将是制约因素，反而给英伟达留下缓冲空间。

对大多数中小型AI公司而言，霍茨的懊恼仍具实际意义：研究阶段全用英伟达，生态摩擦最低，迭代速度最快。待模型架构稳定、推理规模上来，再评估TPU迁移经济账。这并非因英伟达更好，而是生态成本在规模较小时会压倒硬件成本。

对Anthropic这个量级的前沿实验室，三平台策略逻辑截然不同：不只为省钱，更是为确保任何单一供应商出问题时，Claude训练和服务不中断；同时用多平台需求作为筹码，在与亚马逊和谷歌谈判中保持议价能力。

硬件性能vs生态效率，性价比vs研究速度，专用优化vs通用灵活，这是当前AI芯片战争最核心的几大矛盾张力。谷歌用双TPU战略试图两端兼顾，亚马逊用Trainium兼容性策略绕过生态壁垒，英伟达则用二十年积累的软件护城河抵御所有挑战者。

无人能买到所有筹码，也无公司选择绝对正确，皆需付出不同代价。在AI基础设施棋盘上，芯片性能早已非唯一计分方式。（新浪科技）

← 上一篇：东风猛士与引望达成2.0战略合作：年内推5款新品/首款2026年交付，融入华为乾崑技术下一篇：科技赋能幼教，AI点亮课堂——路桥街道中心幼儿园公开课观摩活动 →