标签

AI成本革命:ASIC芯片崭露头角

发布时间:2026-07-05 02:30阅读:2

上次讨论AI成本降低,提到了两个要点。AI自身在变得更加经济,AI正推动全行业成本下降。

最后抛出一个观点:涨价只是信号,降本才是最终目标。

果然,验证来得比预期更快。

OpenAI最近公布了一项数据。o4-mini的推理开支,相较前代直接减少了10倍。

10倍意味着什么?以往你执行一次推理花费10元,现在只需1元。以往运行100万次花100万,如今仅需10万。

这不是微调级别的改进。而是彻底改变了竞争规则。

你自然会问:如何实现的?

两条路径。

一条路径是软件。多Token预测加上底层深度优化,服务器效率被推至极限。好比一辆卡车原本只运一箱货,现在满载一车跑出十车的效能。

另一条路径是硬件。自主研发的推理芯片,代号Jalapeño——没错,就是那种墨西哥辣椒。与博通合作开发,专为大模型推理从零打造,年底投入量产。

在深入探讨前,需要先澄清一个概念。许多人将AI芯片等同于GPU,这是个巨大误解。

讲一个简单的算法例子。人人都能理解。

任何复杂计算,本质上都能分解为基础运算。8乘9,表面是乘法,但它完全可以转化为9个8逐次相加。

GPU就是那个仅擅长做加法的芯片。

它只具备基础加法电路。遇到乘法,只能反复调用加法指令:8加8,再加8,再加8……重复9次。结果正确,但步骤多到惊人。每多执行一步,都是功耗和延迟。

ASIC则不同。

如果你的业务场景里,90%的运算都是乘法——那为何不在芯片里直接固定一套乘法电路?一次完成,无需循环。

这就是ASIC的核心思想:将高频业务需求直接固化在硬件层面。

再进一步。如果你的业务长期重复同一套复杂运算公式,整套逻辑都能通过芯片电路设计固化进去。不是软件优化,是物理层面的根本解决。

推理正是那个“90%都是乘法”的场景。

Transformer架构进行推理,本质上就是同一套矩阵运算循环执行。模型固定了,计算路径固定了,每次推理就是在硅片上重复跑同一条路。

GPU用通用电路勉强应对这条路。ASIC把这条路直接刻在硅片上。

效率差出一个数量级。OpenAI削减那10倍成本,根源就在这里。

说到这,很多人的第一反应是:那GPU要衰落了?

想多了。

训练和推理,对应的是两种截然不同的计算需求。

训练像做科研。模型架构年年变化,MoE、多模态、长上下文,每次迭代都换新花样。你不知道明天要算什么,没法把电路“固化”,GPU的通用性恰好匹配。

推理像工厂流水线。产品确定了,流程确定了,每天就是重复同一套动作。这时你还开实验室设备?效率低,能耗高,纯属浪费。

所以GPU和ASIC不是谁取代谁。训练用GPU,推理向ASIC迁移。两段接力。

问题是,推理的规模会远远超越训练。

一个模型训练一次,推理运行亿万次。训练花钱做研发,推理花钱做产品。产品的规模比研发大多了。

这才是ASIC故事真正有分量之处。

谷歌干了快十年了。TPU从2015年做到现在第六代,内部推理负载基本全跑在TPU上。亚马逊Trainium3今年量产,微软Maia已部署进Azure数据中心,Meta的MTIA也上了自家的推荐系统。

四大云厂商,全在研发自家定制的AI芯片。谷歌找博通,亚马逊找Marvell,微软和Meta也没停歇。

为什么?算一笔账就明白了。

云厂商最大的推理客户——是他们自己。搜索、推荐、广告排序,每秒钟亿万次推理请求。买GPU跑这些,成本是天文数字。自研ASIC,成本能压到GPU的几分之一。

省下的钱就是利润。

而且越往后,推理占AI总计算量的比例越高。训练需求可能波动,推理需求只会向上走。谁掌握了便宜推理,谁就掌握了AI商业化的命脉。

还有个事得提一下。

阿波罗首席经济学家7月1号发了份报告,核心意思就一句话:Token价格趋近于零,AI的万亿估值还能撑多久?

听起来是泼冷水对吧?

其实他的逻辑和咱们降本那篇说的“AI电力化”殊途同归。Token趋零不是灾难,是AI从奢侈品变自来水的过程。当年电力发电成本暴跌,有人担心电力公司不值钱了。结果呢?电力基础设施催生的产业,比电力产业大了不止一百倍。

对于投资来说,真正值得盯的不是“AI估值会不会崩”,是“降本之后,谁先用廉价AI把行业重构了”。

把视角拉回到A股,AI这个赛道得换个角度看。AI内部也要分旧势力与新势力。

过去两年涨得猛的那些AI标的,很多是蹭了一波“训练基建”的红利。GPU配套的光模块、服务器、温控、电源,订单接到手软。

但这拨红利吃到什么阶段,心里得有数。

我把它们叫做“旧势力”——老一代AI基建股。逻辑还在,但估值已经把未来两年甚至三年的订单都打进去了。再往上,靠的是业绩兑现,不是预期。业绩只要有一季不如预期,杀估值就是一瞬间的事。

“新势力”是另一波。ASIC生态链上的。

这些标的还没被充分定价。市场还沉浸在“AI=GPU=老黄产业链”的叙事里,没反应过来推理侧的芯片格局在变。

第一,芯片设计服务。

做ASIC不是云厂商自己从零画电路图。Google的TPU找博通,亚马逊的Trainium找Marvell。博通一家今年AI ASIC相关收入就奔着百亿美元去了,股价两年翻了一倍多。这玩意儿是长期绑定,芯片设计周期三五年,一旦合作就是深度捆绑。国内对应的设计服务、IP授权公司,逻辑是一样的。

第二,先进封装。

GPU用CoWoS,ASIC也得用。不管谁赢,台积电的先进封装产能都是瓶颈。封装设备、材料、基板,需求只增不减。

第三,光互连。

推理集群也需要互联。ASIC服务器之间的数据交换,一样要光模块。甚至因为ASIC更便宜,部署量可能更大,光模块的需求量反而往上走。

第四,HBM和测试。

ASIC照样要配HBM。谷歌TPU v6的HBM容量比上一代还加了。高端测试也是一样,芯片越复杂测试越贵。

你看,ASIC起来不等于GPU生态崩了。是蛋糕变大了,切法变了。

前一篇说“降本是终点站”。

现在你看到了,降本不是一句口号。它在芯片层面、数据中心层面、商业模式层面,一层一层往下打。

OpenAI砍10倍推理成本,不是偶然。是所有云厂商一起往ASIC方向砸钱的结果。

这就是前一篇说的第一重BUFF在硬件层面落地了——AI自己先变便宜,而且是从芯片这个最底层开始。

别死守“AI=GPU”这个叙事。推理时代,芯片格局会分化。训练端老黄还是王,推理端会冒出新的赢家。

找准那些不管GPU还是ASIC都得用的底层环节。先进封装、光互连、HBM、测试设备。这些东西,谁赢都是它们的客户。

还有,盯住那些从“旧势力”切到“新势力”还能吃两波红利的公司。

涨不动的是旧叙事的股价。

涨得动的,是推理时代的新故事。

上周AI股票调整,气氛有点低迷。7月1号A股风格一切换,半导体回调,养殖券商接棒,不少人慌了。

咱们别慌。

降本不是概念了,是有人在磨刀了。OpenAI磨的是推理刀,微软磨的是训练刀,亚马逊磨的是3nm刀。刀磨得越快,AI越便宜。AI越便宜,用得越多。用得越多,该涨的还是会涨。

短期调整算什么?降本的齿轮刚转了没几天,好戏才开场。

接着奏乐接着舞。但你得找准舞池。别再在旧势力那桌蹦了,新势力那桌才刚开始嗨。