标签

推理时代硬件需求的真实倍数:从毛需求到净需求的跃迁

发布时间:2026-07-05 16:16阅读:2

从能力验证,到使用扩散;从市占率确认,到最后的护城河审判。不同阶段,主线不一样:前半场看瓶颈,后半场看入口。

但写完之后,我发现还有一个问题没有拆透。

我们知道 AI 会从训练时代走向推理时代,也知道推理时代会带来新的芯片需求、光模块需求、存储需求、PCB/CCL 需求。可如果只知道“方向要从训练切到推理”,其实还不够。

更重要的是:

从训练到推理,中间到底会放大几个数量级?

是 1—3 倍? 是 5—10 倍? 是 10—100 倍? 还是 100 倍以上?

这个问题很关键。

因为数量级决定了我们对硬件链的预期,也决定了我们到底应该怎么拿这些铲子公司。

如果推理只是训练的 1—3 倍,那么硬件链还有增长,但要警惕估值和扩产。

如果推理是 5—10 倍,那么低成本推理芯片、光模块、HBM、PCB、存储就还有很大的增量。

如果推理进入 10—100 倍,那说明 AI 已经从问答进入智能体,硬件需求可能不是一轮景气,而是一轮系统重构。

如果推理真的走向 100 倍以上,那往往意味着 AI 不只是进入软件,而是进入物理世界。

这有点像我们之前研究产业时,一开始只知道“从树根到树干到树枝”,但后来发现还需要一个更明确的抓手:渗透率。

没有渗透率,我们就很难判断一个产业到底处在哪一段。

没有数量级,我们也很难判断推理时代到底能撑起多大的硬件需求。

所以这篇文章想补上的,就是这个问题:

推理时代的数量级,到底怎么计算?

效率提升会抵消多少?

最后真正落到芯片、光模块、HBM、PCB、存储上的,是毛需求,还是净需求?

如果上一篇文章解决的是“不同阶段主线会怎么切换”,那这一篇要解决的就是:

为什么推理时代的铲子还会继续分层,以及哪些铲子能真正跟上下一阶段。

我们可以先把推理需求拆成一个公式:

净推理算力需求 = 用户数 × 使用频次 × 单任务 token 数 × 推理步数 × 模型复杂度 ÷ 效率提升

前半段是需求放大。

用户变多,会放大需求。 使用频次变高,会放大需求。 每个任务 token 数变长,会放大需求。 普通问答变成多步 Agent,会放大需求。 模型越来越复杂,也会放大需求。

后半段是效率抵消。

芯片更强,会抵消需求。 模型蒸馏,会抵消需求。 量化,会抵消需求。 MoE 稀疏化,会抵消需求。 KV cache 优化,会抵消需求。 推理调度、小模型分流、ASIC 定制化,都会抵消需求。

所以推理时代的核心问题不是:

调用量会增长多少?

而是:

调用量增长之后,扣掉效率提升,还剩多少净需求要落到硬件上。

这才是芯片、光模块、HBM、PCB、存储真正关心的东西。

我觉得可以用两个词:

毛需求,就是用户数、调用频次、token、Agent 步数带来的原始需求放大。

净需求,就是毛需求扣掉硬件和算法效率提升之后,真正落到硬件上的需求。

举个例子。

假设现在是普通问答:

1 亿用户; 每天调用 1 次; 每次 1000 token; 每次只有 1 轮推理。

未来进入工作流阶段:

用户变成 5 亿,是 5 倍;

每天调用 20 次,是 20 倍; 每次任务 5000 token,是 5 倍; 任务复杂度提升 2 倍。

毛需求就是:

5 × 20 × 5 × 2 = 1000 倍

听起来非常夸张。

但如果这几年硬件效率、模型效率、推理调度、小模型分流一起提升了 100 倍,那么净需求就是:

1000 ÷ 100 = 10 倍

最后落到硬件上,可能就是 5—10 倍,而不是 1000 倍。

所以以后看到任何“推理需求百倍”的说法,都要先问一句:

这是毛需求,还是净需求?

投资看的是净需求。

毛需求负责讲故事。 净需求决定订单、产能、利润和股价。

下面的倍数不是精确预测,而是数量级推演。

它不是为了算出一个绝对答案,而是为了让我们知道:在什么情况下,推理需求只是训练时代的几倍;在什么情况下,它会变成几十倍,甚至上百倍。

我们还是用这个公式:

净推理需求 = 用户数 × 使用频次 × 单任务 token 数 × 推理步数 × 模型复杂度 ÷ 效率提升

这几个变量,任何一个放大,都会让需求上去。

比如:

用户数从 1 亿到 10 亿,是 10 倍。 每天使用从 1 次到 20 次,是 20 倍。

每次任务从 500 token 到 50,000 token,是 100 倍。 普通问答变成 Agent 多步任务,又可能是 10—100 倍。 模型变大,单 token 成本上升。 硬件和算法效率提升,又会把成本打下来。

所以推理时代的核心,不是一个单一数字,而是这些变量相乘。

这也是为什么它的弹性非常大。

如果只是普通聊天,需求增长可能没那么夸张。 但如果变成 Agent、代码、视频、办公流、企业流程、机器人、自动驾驶,那推理需求就不是线性增长。

因为它不是“人问一句,AI 答一句”。 而是“AI 替人持续执行任务”。

然后我们分别拆解这四个阶段。

第一档,是普通问答和轻量 Copilot 阶段。

这个阶段 AI 主要用来:

聊天; 搜索; 总结文件; 写邮件; 简单代码补全; 办公软件里的轻量助手; 基础客服。

它的特点是:人主动调用 AI,AI 辅助人完成单个动作。

用户确实变多了,但任务还比较浅。 上下文不算太长,推理步数不多,很多调用可以用小模型、缓存、量化和更好的调度去优化。

假设:

用户数增长 3—5 倍; 使用频次增长 2—3 倍; 单任务 token 数增长 1—2 倍; 推理步数基本 1 倍; 模型复杂度增长 1—2 倍。

那么毛需求大概是:

3—5 × 2—3 × 1—2 × 1 × 1—2 = 6—60 倍

看起来已经不低。

但问答阶段也是最容易被效率提升抵消的阶段。

因为它的任务比较标准化,可以通过模型量化、小模型分流、缓存、batching、推理调度、硬件升级,把单位成本大幅压下来。

如果效率提升 10—30 倍,那么最后净需求就是:

6—60 ÷ 10—30 ≈ 1—3 倍

所以问答阶段不是没有需求增长,而是因为任务比较浅,效率提升能抵消掉大部分毛需求。

这就是为什么它更像 1—3 倍,而不是 10 倍、100 倍。

这个阶段,硬件还有增长,但普通铲子不能给太夸张的预期。

真正值得看的,是仍然卡瓶颈的高端环节。

第二档,是 AI 嵌入工作流。

这时候 AI 不只是“我问一句,它答一句”,而是开始进入企业和个人每天的工作动作里。

比如:

程序员每天大量使用代码助手; 客服系统大部分问题由 AI 处理; 销售和营销用 AI 生成线索、内容和跟进方案; 投研、法务、财务、人力用 AI 做初稿和分析; 企业知识库、CRM、OA、ERP 开始接入 AI; 个人用户从偶尔问问题,变成每天很多工作节点都调用 AI。

这个阶段,最大的变化是:

调用频次明显提升。

以前一个人可能一天问 AI 3—5 次。 后来可能每封邮件、每个会议纪要、每段代码、每个搜索、每次数据分析、每个客户回复背后都有 AI。

AI 从工具变成工作流的一部分。

假设:

用户数增长 5—10 倍; 使用频次增长 10—20 倍;

单任务 token 数增长 3—5 倍; 推理步数增长 1—2 倍; 模型复杂度增长 1—2 倍。

那么毛需求大概是:

5—10 × 10—20 × 3—5 × 1—2 × 1—2 = 150—4000 倍

这个数字已经很大。

但工作流阶段也会发生明显效率提升。

比如:

更便宜的推理芯片; 专用 ASIC; 蒸馏模型; 企业场景小模型; 更好的缓存; 更好的调度系统; 更成熟的推理集群。

如果效率提升 50—300 倍,那么净需求大概就是:

150—4000 ÷ 50—300 ≈ 5—10 倍

所以工作流阶段的关键不是“单次推理变得特别重”,而是“调用频次变得很高”。

它从偶尔使用,变成每个工作动作背后都可能调用一次 AI。

这就是为什么工作流阶段可以从问答阶段的 1—3 倍,抬升到 5—10 倍。

这个阶段最重要的硬件逻辑,不再只是“能不能训练模型”,而是:

能不能把每一个 token 跑得足够便宜。

工作流阶段,最重要的铲子会变成:

低成本推理芯片; 高端光模块; 高端 PCB/CCL; HBM/HBM3E; 企业级 SSD; 液冷和电力; 初步的 CXL、Retimer、MRDIMM。

这个阶段高端铲子已经开始重要,但很多问题仍然可以靠扩容解决。

也就是在原来的数据中心上继续加楼层。

第三档,是智能体阶段。

智能体和普通工作流最大的区别是:

AI 不只是辅助一个动作,而是开始执行一串任务。

普通问答是:

你问一句,AI 答一句。

Agent 是:

理解目标; 拆解任务; 搜索资料; 读取文件; 调用数据库; 写代码; 运行测试; 检查错误; 修改方案; 再次验证; 最后交付。

这背后不是 1 次推理,而可能是 10 次、30 次、100 次推理。

而且每一步都可能带着更长上下文:

历史记录; 企业知识库; 文件; 代码库; 数据库; 工具返回结果; 用户偏好; 中间状态。

所以智能体阶段的放大,不只是“用户更多”,而是“单个任务变重”。

假设:

用户数增长 5—10 倍; 使用频次增长 10—30 倍; 单任务 token 数增长 10—50 倍; 推理步数增长 10—50 倍; 模型复杂度增长 1—3 倍。

那么毛需求区间会非常大。

保守一点算:

5 × 10 × 10 × 10 × 1 = 5000 倍

激进一点算:

10 × 30 × 50 × 50 × 3 = 2,250,000 倍

这就是为什么 Agent 阶段的毛需求会非常夸张。

但当然,不能直接把这个数字当成硬件需求。

因为 Agent 阶段也会有非常强的效率优化:

更强推理 ASIC; MoE 稀疏化; speculative decoding; KV cache 复用; 上下文压缩; 任务拆分; 小模型执行简单步骤; 大模型只处理关键步骤; 更强的调度系统; 更好的数据中心架构。

如果效率提升 500—5000 倍,那么净需求大概就是:

5000—2,250,000 ÷ 500—5000 ≈ 10—100 倍

所以智能体阶段之所以能到 10—100 倍,不是因为用户突然多了 100 倍,而是因为每个任务背后变成了多步骤、多轮次、多工具、多上下文。

问答阶段是一次推理。 Agent 阶段是一串推理。

这就是数量级差异。

智能体阶段的铲子,也不再是单点硬件,而是系统级硬件。

它要求:

算力够; 内存够; 网络够; 存储够; CPU 调度够; 数据流动够快; KV cache 能存、能取、能复用; 每个 token 的成本足够低。

这个阶段,高端铲子会变得极其重要。

第一,是高端推理芯片和 ASIC。

Agent 会带来大量 token、多轮调用、低延迟要求和高并发要求。推理芯片不只是要便宜,还要能承载复杂任务。

低端 ASIC 可以吃浅层推理。 高端 ASIC 才能吃智能体推理。

第二,是 HBM 和高速内存。

很多人会误以为推理比训练轻,所以 HBM 不重要。这个判断只对浅层推理成立。

高端 Agent 推理需要模型权重常驻、长上下文、多轮 KV cache、多模态数据和复杂 MoE 路由。HBM 不仅不会消失,反而可能继续升级到更大容量、更高带宽。

第三,是高端光模块和 CPO/硅光。

训练时代,光模块主要服务大集群训练。 智能体时代,光模块服务更多推理集群、更低延迟调度、更多模型调用、更多工具访问、更多跨节点和跨机柜数据流。

普通光模块可能会卷。 但 1.6T、3.2T、CPO、硅光、高端交换网络仍然是下一代瓶颈。

第四,是高端 PCB/CCL。

如果推理只是边缘小模型,PCB 不一定高端。 但如果是数据中心 Agent,高端 PCB/CCL 仍然重要。

因为系统复杂度上升:

GPU/ASIC 板更复杂; 交换机板更复杂; 高速背板/中板更复杂; 供电更复杂; 信号完整性要求更高; SerDes 更多; 板层更多; 低损耗材料要求更高; 热管理压力更大。

所以智能体阶段不是 PCB 用量简单增加,而是高端 PCB 价值量提升。

第五,是高端存储、KV cache 和企业级 SSD。

Agent 会产生大量状态数据:

历史上下文; 中间结果; 企业知识库; 向量数据库; 日志; KV cache; 文件和代码。

这些不可能全放在 HBM 里。

所以智能体阶段,存储不是普通冷仓库,而开始变成推理系统的一部分。

第六,是 CPU、CXL、Retimer、MRDIMM、内存接口。

Agent 不是只有矩阵计算。它还要调度工具、执行代码、跑环境、管理状态、调用外部系统。

所以服务器内部的 CPU—内存—I/O 通道会越来越重要。

如果光模块是城市之间的高速公路,PCB/CCL 是大楼的钢筋水泥,HBM 是工位旁边的高速工作台,那么 CXL、Retimer、MRDIMM、内存接口这些东西,就是大楼内部的电梯调度、物流中控和仓库分拣系统。

城市刚开始建设时,最缺的是路和楼。 但当楼越来越高、人流货流越来越复杂,内部调度系统就会越来越重要。

第四档,是物理 AI 阶段。

也就是 AI 不只是进入软件工作流,而是进入真实世界。

自动驾驶; 机器人; 无人机; 智能工厂; 仓储物流; 家庭机器人; 真实世界智能体。

这个阶段和办公 Agent 最大的区别是:

物理 AI 是持续运行的。

办公 AI 是你需要时调用。 机器人和自动驾驶是一直感知、判断、规划、控制。

一辆车不是一分钟调用一次 AI。 它是每秒都在看世界、理解世界、预测世界、控制车辆。

一个机器人不是用户问它一句才开始工作。 它要持续看、听、走、抓、避障、判断,和环境交互。

所以物理 AI 的放大器是:

设备数量巨大; 运行时间极长; 实时性要求高; 感知数据量大; 安全冗余高; 边缘推理持续运行; 云端训练和仿真持续进行。

这时,毛需求可能轻松超过智能体阶段。

即使效率提升 1000 倍、5000 倍,甚至更高,只要物理 AI 真的大规模普及,净需求仍然可能超过 100 倍。

但这里要特别注意:

物理 AI 的 100 倍以上,不一定全部落到数据中心 HBM、光模块、AI PCB 上。

它会分成两条链。

边缘端会吃:

车规芯片; 机器人芯片; 传感器; 车规 PCB; 功率器件; 电机控制; 连接器; 边缘散热。

云端会吃:

训练;

仿真; 世界模型; 数据回传; 模型更新; 高端数据中心硬件。

所以物理 AI 阶段确实可能是 100 倍以上,但它的受益链条会分叉。

不是原来所有数据中心铲子都简单放大 100 倍,而是边缘硬件和云端硬件一起扩张。

物理 AI 会让边缘铲子变重要,但不会让数据中心铲子消失。

只是数据中心铲子的逻辑会变成:为现实世界智能训练、仿真、更新模型。

边缘铲子的逻辑会变成:让每台车、每个机器人、每个设备都能实时推理。

这里还有一个很容易被误解的点:

效率提升到底是利空硬件,还是利好硬件?

答案是:它既是利空,也是利好。

从公式上看,效率提升在分母里。

硬件更强、模型更小、调度更好,单位任务消耗的算力就会下降。这会抵消一部分硬件需求。

如果毛需求增长 100 倍,效率提升 100 倍,那么净需求可能不增长。

这对硬件是压力。

但另一方面,效率提升会降低 token 成本。

当 token 变便宜,很多原来不划算的场景就会变得划算。

以前让 AI 跑 100 次检查太贵,现在可以跑。 以前企业不用 AI 做客服,因为成本高,现在可以部署。 以前 Agent 不能全天候运行,现在可以进入工作流。

所以效率提升一方面做除法,另一方面又会反过来刺激前面的用户数、调用频次、Agent 步数继续上升。

这就是 AI 里的杰文斯悖论:

单位成本下降,不一定让总消耗下降。 它可能让更多需求被释放出来,最后总消耗反而更高。

所以真正要跟踪的不是“效率会不会提升”。

效率一定会提升。

真正要跟踪的是:

需求放大的速度,能不能跑赢效率提升的速度。

如果跑不赢,普通铲子会降温。 如果跑得赢,推理时代的硬件预期还会继续上修。

推理时代还有一个很重要的分化:

不是所有推理芯片都会越来越高端。

它会分成两条路线。

第一条,是平房路线。

也就是低成本、低功耗、边缘推理。

比如:

手机 AI 芯片; PC NPU; 车端推理芯片; 机器人本地推理芯片; 企业小模型推理盒子; 低成本 ASIC。

这类芯片的特点是:

数量很大; 单颗价值不一定高; 不一定用 HBM; 不一定需要极高端 PCB; 更看功耗、成本、良率、量产能力。

未来平房路线一定会很多。

因为不是所有推理都需要大模型,也不是所有任务都需要高端数据中心。很多简单任务,比如摘要、翻译、语音助手、图片识别、基础客服、本地推荐、车端部分感知,都可以用小模型、轻量模型、端侧芯片去完成。

这类需求会非常广。

但问题在于:

数量多,不等于价格能涨。

平房路线最大的问题,是供给不一定稀缺。

因为低成本推理芯片更容易标准化,也更容易被不同厂商追赶。只要任务足够简单,模型可以被压缩,芯片可以被专用化,成本就会不断下降。

这类产品最后可能会很像很多成熟电子零部件:

量很大; 渗透率很高; 但价格持续下降; 毛利率被压缩; 公司靠规模、成本和客户关系赚钱,而不是靠持续涨价赚钱。

所以平房路线不一定没有机会。

它可以有很大的量,也可能诞生不错的公司。

但它更难出现我们最喜欢的那种“量价齐升”。

因为量上来了,价格却可能被更多供给、更多竞争、更强成本优化压下去。

真正要看的是:

谁能做得更便宜; 谁能量产能力更强; 谁能进入大客户供应链; 谁能在低毛利里守住成本优势。

它更像规模制造业,不像高端瓶颈资产。

第二条,是高楼路线。

也就是数据中心高端推理。

比如:

大模型 Agent; 长上下文; 多模态生成; 代码 Agent; 企业复杂工作流; AI 搜索; 实时视频生成; 大规模 MoE 推理。

这类推理不是简单问答。

它要处理更长上下文、更多工具调用、更多中间状态、更复杂的数据流动。它不只是算一下,而是要在算力、内存、网络、存储、CPU 调度之间不断协同。

所以这类推理芯片会越来越复杂。

它需要:

更大 HBM; 更高内存带宽; 更强芯片间互联; 更高功率密度; 更复杂封装; 更高端 PCB/CCL; 更强散热; 更强存储; 更强 CPU—内存—I/O 协同。

这就像盖房子。

早期推理可以盖平房。 但如果要承载百万 token 上下文、多 Agent、多模态、实时服务、企业大规模并发,就必须盖高楼。

高楼路线的特点是:

数量未必像平房那么大; 但单机价值量更高; 系统复杂度更高; 客户认证更难; 供应链门槛更高; 更容易出现阶段性供给稀缺。

所以高楼路线更容易出现“量价齐升”。

因为它不仅有量的增长,还有规格升级带来的价值量提升。

比如:

HBM 从 HBM3E 到 HBM4; 光模块从 800G 到 1.6T、3.2T; PCB/CCL 从普通高速板到更高层数、更低损耗、更高可靠性; 封装从普通封装到 2.5D/3D/Chiplet; 存储从普通 SSD 到 AI-native storage、KV cache 存储; 服务器从单机升级到 rack-scale、pod-scale 系统。

所以平房和高楼最大的区别,不是有没有需求。

两边都有需求。

真正的区别是:

平房吃的是数量,价格容易被竞争压低; 高楼吃的是复杂度,价格更可能被规格升级抬高。

这就是为什么后期不能简单说“推理芯片很多,所以所有铲子都好”。

要看它服务的是哪种推理。

如果服务的是平房路线,它可能有量,但要警惕价格和毛利率。 如果服务的是高楼路线,它才更可能继续卡住下一代瓶颈。

所以推理时代不是“硬件变简单”。

低端推理会变便宜。 高端推理会变复杂。

真正能长期受益的铲子,不是所有铲子,而是能跟上高楼路线的铲子。

推理时代的硬件机会,可以按阶段重新排一遍。

这个阶段,AI 刚开始大规模使用。

通用 GPU、基础推理卡、基础数据中心、基础服务器都能受益。

但净需求可能只是 1—3 倍,所以后期普通硬件容易被效率提升和供给扩张抵消。

这个阶段,净需求可能到 5—10 倍。

AI 进入办公、代码、客服、企业流程。 推理成本、并发能力、稳定性、低延迟开始重要。

这一阶段要看:

低成本推理 ASIC; 高端光模块; 高端 PCB/CCL; HBM; 企业级 SSD; 液冷电力; 初步的 CXL/Retimer/MRDIMM。

这个阶段,净需求可能到 10—100 倍。

AI 从“回答问题”变成“执行任务”。

真正重要的是:

高端推理芯片; HBM4;

高端光互联/CPO/硅光; 高端 PCB/CCL; KV cache 存储; 企业级 SSD; CXL; Retimer; MRDIMM; CPU 调度; 内存接口; 液冷电力。

这个阶段不是所有铲子都强,而是能承载长上下文、多步骤、多工具调用的高端系统铲子才强。

这个阶段,净需求可能超过 100 倍。

但受益链条会分叉。

边缘端看:

车规芯片; 机器人芯片; 传感器;

功率器件; 电机控制; 车规 PCB; 连接器; 边缘散热。

云端看:

训练、仿真、世界模型、数据回传、模型更新。

也就是说,物理 AI 不是简单加强原来的数据中心链,而是打开一条新的边缘硬件链。

阶段

毛需求主要由什么放大

效率抵消后

净推理需求

推理形态

硬件重点

问答阶段

用户变多、频次略升、短任务为主

效率提升能抵消大部分

1—3 倍

聊天、搜索、简单 Copilot

通用 GPU、基础推理卡、基础数据中心

工作流阶段

使用频次大幅提升,AI 嵌入日常流程

效率抵消后仍有明显增量

5—10 倍

办公、代码、客服、企业流程

低成本推理 ASIC、高端光模块、高端 PCB/CCL、HBM、企业级 SSD、液冷电力

智能体阶段

单任务变重,多步骤、多工具、长上下文

即使效率大幅提升,仍可能很高

10—100 倍

多步骤 Agent、长上下文、多工具调用

高端推理芯片、HBM4、CPO/硅光、高端 PCB/CCL、KV cache 存储、CXL、Retimer、MRDIMM、内存接口

物理 AI 阶段

设备持续运行,真实世界数据和边缘推理爆发

效率很强,但需求更强

100 倍以上

车、机器人、工厂、真实世界智能

车规/机器人芯片、传感器、功率器件、车规 PCB;同时云端训练和仿真链继续受益

推理时代的数量级,不取决于一句“推理会比训练大多少倍”。

它取决于 AI 走到哪一层。

如果 AI 停留在问答,可能只是 1—3 倍。 如果 AI 嵌入工作流,可能是 5—10 倍。 如果 AI 进入智能体,可能是 10—100 倍。 如果 AI 进入物理世界,才可能走向 100 倍以上。

而这几个倍数,应该理解成扣掉效率提升之后的净需求。

这才是投资上真正有意义的数字。

所以未来看 AI 硬件,不是简单问:

推理时代来了没有?

而是要问:

AI 现在是问答,还是工作流? 是 Copilot,还是 Agent? 是软件智能,还是物理智能? 需求放大速度有没有跑赢效率提升? 这个公司卖的铲子,是不是下一阶段需要的铲子?

前期,只要 AI 建设,铲子就强。

后期,只有赶上下一代推理形态的铲子,才继续强。

工作流阶段,买的是能降低推理成本的铲子。 智能体阶段,买的是能承载长上下文、多步骤、多工具调用的高端系统铲子。 物理 AI 阶段,买的是边缘端海量部署的车规/机器人铲子,同时云端训练和仿真铲子继续受益。

所以推理时代的硬件需求不是没有了。

而是更挑剔了。

普通铲子会被效率提升和供给扩张抵消。 高端铲子会被智能体和物理 AI 继续放大。

真正的分水岭不是“训练还是推理”。

而是:

这个铲子,到底能不能跟上 AI 从问答、到工作流、到智能体、到物理世界的升级。