AI成本革命：ASIC芯片崭露头角

发布时间：2026-07-05 02:30阅读：2

上次讨论AI成本降低，提到了两个要点。AI自身在变得更加经济，AI正推动全行业成本下降。

最后抛出一个观点：涨价只是信号，降本才是最终目标。

果然，验证来得比预期更快。

OpenAI最近公布了一项数据。o4-mini的推理开支，相较前代直接减少了10倍。

10倍意味着什么？以往你执行一次推理花费10元，现在只需1元。以往运行100万次花100万，如今仅需10万。

这不是微调级别的改进。而是彻底改变了竞争规则。

你自然会问：如何实现的？

两条路径。

一条路径是软件。多Token预测加上底层深度优化，服务器效率被推至极限。好比一辆卡车原本只运一箱货，现在满载一车跑出十车的效能。

另一条路径是硬件。自主研发的推理芯片，代号Jalapeño——没错，就是那种墨西哥辣椒。与博通合作开发，专为大模型推理从零打造，年底投入量产。

在深入探讨前，需要先澄清一个概念。许多人将AI芯片等同于GPU，这是个巨大误解。

讲一个简单的算法例子。人人都能理解。

任何复杂计算，本质上都能分解为基础运算。8乘9，表面是乘法，但它完全可以转化为9个8逐次相加。

GPU就是那个仅擅长做加法的芯片。

它只具备基础加法电路。遇到乘法，只能反复调用加法指令：8加8，再加8，再加8……重复9次。结果正确，但步骤多到惊人。每多执行一步，都是功耗和延迟。

ASIC则不同。

如果你的业务场景里，90%的运算都是乘法——那为何不在芯片里直接固定一套乘法电路？一次完成，无需循环。

这就是ASIC的核心思想：将高频业务需求直接固化在硬件层面。

再进一步。如果你的业务长期重复同一套复杂运算公式，整套逻辑都能通过芯片电路设计固化进去。不是软件优化，是物理层面的根本解决。

推理正是那个“90%都是乘法”的场景。

Transformer架构进行推理，本质上就是同一套矩阵运算循环执行。模型固定了，计算路径固定了，每次推理就是在硅片上重复跑同一条路。

GPU用通用电路勉强应对这条路。ASIC把这条路直接刻在硅片上。

效率差出一个数量级。OpenAI削减那10倍成本，根源就在这里。

说到这，很多人的第一反应是：那GPU要衰落了？

想多了。

训练和推理，对应的是两种截然不同的计算需求。

训练像做科研。模型架构年年变化，MoE、多模态、长上下文，每次迭代都换新花样。你不知道明天要算什么，没法把电路“固化”，GPU的通用性恰好匹配。

推理像工厂流水线。产品确定了，流程确定了，每天就是重复同一套动作。这时你还开实验室设备？效率低，能耗高，纯属浪费。

所以GPU和ASIC不是谁取代谁。训练用GPU，推理向ASIC迁移。两段接力。

问题是，推理的规模会远远超越训练。

一个模型训练一次，推理运行亿万次。训练花钱做研发，推理花钱做产品。产品的规模比研发大多了。

这才是ASIC故事真正有分量之处。

谷歌干了快十年了。TPU从2015年做到现在第六代，内部推理负载基本全跑在TPU上。亚马逊Trainium3今年量产，微软Maia已部署进Azure数据中心，Meta的MTIA也上了自家的推荐系统。

四大云厂商，全在研发自家定制的AI芯片。谷歌找博通，亚马逊找Marvell，微软和Meta也没停歇。

为什么？算一笔账就明白了。

云厂商最大的推理客户——是他们自己。搜索、推荐、广告排序，每秒钟亿万次推理请求。买GPU跑这些，成本是天文数字。自研ASIC，成本能压到GPU的几分之一。

省下的钱就是利润。

而且越往后，推理占AI总计算量的比例越高。训练需求可能波动，推理需求只会向上走。谁掌握了便宜推理，谁就掌握了AI商业化的命脉。

还有个事得提一下。

阿波罗首席经济学家7月1号发了份报告，核心意思就一句话：Token价格趋近于零，AI的万亿估值还能撑多久？

听起来是泼冷水对吧？

其实他的逻辑和咱们降本那篇说的“AI电力化”殊途同归。Token趋零不是灾难，是AI从奢侈品变自来水的过程。当年电力发电成本暴跌，有人担心电力公司不值钱了。结果呢？电力基础设施催生的产业，比电力产业大了不止一百倍。

对于投资来说，真正值得盯的不是“AI估值会不会崩”，是“降本之后，谁先用廉价AI把行业重构了”。

把视角拉回到A股，AI这个赛道得换个角度看。AI内部也要分旧势力与新势力。

过去两年涨得猛的那些AI标的，很多是蹭了一波“训练基建”的红利。GPU配套的光模块、服务器、温控、电源，订单接到手软。

但这拨红利吃到什么阶段，心里得有数。

我把它们叫做“旧势力”——老一代AI基建股。逻辑还在，但估值已经把未来两年甚至三年的订单都打进去了。再往上，靠的是业绩兑现，不是预期。业绩只要有一季不如预期，杀估值就是一瞬间的事。

“新势力”是另一波。ASIC生态链上的。

这些标的还没被充分定价。市场还沉浸在“AI=GPU=老黄产业链”的叙事里，没反应过来推理侧的芯片格局在变。

第一，芯片设计服务。

做ASIC不是云厂商自己从零画电路图。Google的TPU找博通，亚马逊的Trainium找Marvell。博通一家今年AI ASIC相关收入就奔着百亿美元去了，股价两年翻了一倍多。这玩意儿是长期绑定，芯片设计周期三五年，一旦合作就是深度捆绑。国内对应的设计服务、IP授权公司，逻辑是一样的。

第二，先进封装。

GPU用CoWoS，ASIC也得用。不管谁赢，台积电的先进封装产能都是瓶颈。封装设备、材料、基板，需求只增不减。

第三，光互连。

推理集群也需要互联。ASIC服务器之间的数据交换，一样要光模块。甚至因为ASIC更便宜，部署量可能更大，光模块的需求量反而往上走。

第四，HBM和测试。

ASIC照样要配HBM。谷歌TPU v6的HBM容量比上一代还加了。高端测试也是一样，芯片越复杂测试越贵。

你看，ASIC起来不等于GPU生态崩了。是蛋糕变大了，切法变了。

前一篇说“降本是终点站”。

现在你看到了，降本不是一句口号。它在芯片层面、数据中心层面、商业模式层面，一层一层往下打。

OpenAI砍10倍推理成本，不是偶然。是所有云厂商一起往ASIC方向砸钱的结果。

这就是前一篇说的第一重BUFF在硬件层面落地了——AI自己先变便宜，而且是从芯片这个最底层开始。

别死守“AI=GPU”这个叙事。推理时代，芯片格局会分化。训练端老黄还是王，推理端会冒出新的赢家。

找准那些不管GPU还是ASIC都得用的底层环节。先进封装、光互连、HBM、测试设备。这些东西，谁赢都是它们的客户。

还有，盯住那些从“旧势力”切到“新势力”还能吃两波红利的公司。

涨不动的是旧叙事的股价。

涨得动的，是推理时代的新故事。

上周AI股票调整，气氛有点低迷。7月1号A股风格一切换，半导体回调，养殖券商接棒，不少人慌了。

咱们别慌。

降本不是概念了，是有人在磨刀了。OpenAI磨的是推理刀，微软磨的是训练刀，亚马逊磨的是3nm刀。刀磨得越快，AI越便宜。AI越便宜，用得越多。用得越多，该涨的还是会涨。

短期调整算什么？降本的齿轮刚转了没几天，好戏才开场。

接着奏乐接着舞。但你得找准舞池。别再在旧势力那桌蹦了，新势力那桌才刚开始嗨。

← 上一篇：AI利刃落下，最先碎的是草根逆袭梦下一篇：智能时代的精英个体与高效能团队 →