推理时代硬件需求的真实倍数:从毛需求到净需求的跃迁
从能力验证,到使用扩散;从市占率确认,到最后的护城河审判。不同阶段,主线不一样:前半场看瓶颈,后半场看入口。
但写完之后,我发现还有一个问题没有拆透。
我们知道 AI 会从训练时代走向推理时代,也知道推理时代会带来新的芯片需求、光模块需求、存储需求、PCB/CCL 需求。可如果只知道“方向要从训练切到推理”,其实还不够。
更重要的是:
从训练到推理,中间到底会放大几个数量级?
是 1—3 倍? 是 5—10 倍? 是 10—100 倍? 还是 100 倍以上?
这个问题很关键。
因为数量级决定了我们对硬件链的预期,也决定了我们到底应该怎么拿这些铲子公司。
如果推理只是训练的 1—3 倍,那么硬件链还有增长,但要警惕估值和扩产。
如果推理是 5—10 倍,那么低成本推理芯片、光模块、HBM、PCB、存储就还有很大的增量。
如果推理进入 10—100 倍,那说明 AI 已经从问答进入智能体,硬件需求可能不是一轮景气,而是一轮系统重构。
如果推理真的走向 100 倍以上,那往往意味着 AI 不只是进入软件,而是进入物理世界。
这有点像我们之前研究产业时,一开始只知道“从树根到树干到树枝”,但后来发现还需要一个更明确的抓手:渗透率。
没有渗透率,我们就很难判断一个产业到底处在哪一段。
没有数量级,我们也很难判断推理时代到底能撑起多大的硬件需求。
所以这篇文章想补上的,就是这个问题:
推理时代的数量级,到底怎么计算?
效率提升会抵消多少?
最后真正落到芯片、光模块、HBM、PCB、存储上的,是毛需求,还是净需求?
如果上一篇文章解决的是“不同阶段主线会怎么切换”,那这一篇要解决的就是:
为什么推理时代的铲子还会继续分层,以及哪些铲子能真正跟上下一阶段。
我们可以先把推理需求拆成一个公式:
净推理算力需求 = 用户数 × 使用频次 × 单任务 token 数 × 推理步数 × 模型复杂度 ÷ 效率提升
前半段是需求放大。
用户变多,会放大需求。 使用频次变高,会放大需求。 每个任务 token 数变长,会放大需求。 普通问答变成多步 Agent,会放大需求。 模型越来越复杂,也会放大需求。
后半段是效率抵消。
芯片更强,会抵消需求。 模型蒸馏,会抵消需求。 量化,会抵消需求。 MoE 稀疏化,会抵消需求。 KV cache 优化,会抵消需求。 推理调度、小模型分流、ASIC 定制化,都会抵消需求。
所以推理时代的核心问题不是:
调用量会增长多少?
而是:
调用量增长之后,扣掉效率提升,还剩多少净需求要落到硬件上。
这才是芯片、光模块、HBM、PCB、存储真正关心的东西。
我觉得可以用两个词:
毛需求,就是用户数、调用频次、token、Agent 步数带来的原始需求放大。
净需求,就是毛需求扣掉硬件和算法效率提升之后,真正落到硬件上的需求。
举个例子。
假设现在是普通问答:
1 亿用户; 每天调用 1 次; 每次 1000 token; 每次只有 1 轮推理。
未来进入工作流阶段:
用户变成 5 亿,是 5 倍;
每天调用 20 次,是 20 倍; 每次任务 5000 token,是 5 倍; 任务复杂度提升 2 倍。
毛需求就是:
5 × 20 × 5 × 2 = 1000 倍
听起来非常夸张。
但如果这几年硬件效率、模型效率、推理调度、小模型分流一起提升了 100 倍,那么净需求就是:
1000 ÷ 100 = 10 倍
最后落到硬件上,可能就是 5—10 倍,而不是 1000 倍。
所以以后看到任何“推理需求百倍”的说法,都要先问一句:
这是毛需求,还是净需求?
投资看的是净需求。
毛需求负责讲故事。 净需求决定订单、产能、利润和股价。
下面的倍数不是精确预测,而是数量级推演。
它不是为了算出一个绝对答案,而是为了让我们知道:在什么情况下,推理需求只是训练时代的几倍;在什么情况下,它会变成几十倍,甚至上百倍。
我们还是用这个公式:
净推理需求 = 用户数 × 使用频次 × 单任务 token 数 × 推理步数 × 模型复杂度 ÷ 效率提升
这几个变量,任何一个放大,都会让需求上去。
比如:
用户数从 1 亿到 10 亿,是 10 倍。 每天使用从 1 次到 20 次,是 20 倍。
每次任务从 500 token 到 50,000 token,是 100 倍。 普通问答变成 Agent 多步任务,又可能是 10—100 倍。 模型变大,单 token 成本上升。 硬件和算法效率提升,又会把成本打下来。
所以推理时代的核心,不是一个单一数字,而是这些变量相乘。
这也是为什么它的弹性非常大。
如果只是普通聊天,需求增长可能没那么夸张。 但如果变成 Agent、代码、视频、办公流、企业流程、机器人、自动驾驶,那推理需求就不是线性增长。
因为它不是“人问一句,AI 答一句”。 而是“AI 替人持续执行任务”。
然后我们分别拆解这四个阶段。
第一档,是普通问答和轻量 Copilot 阶段。
这个阶段 AI 主要用来:
聊天; 搜索; 总结文件; 写邮件; 简单代码补全; 办公软件里的轻量助手; 基础客服。
它的特点是:人主动调用 AI,AI 辅助人完成单个动作。
用户确实变多了,但任务还比较浅。 上下文不算太长,推理步数不多,很多调用可以用小模型、缓存、量化和更好的调度去优化。
假设:
用户数增长 3—5 倍; 使用频次增长 2—3 倍; 单任务 token 数增长 1—2 倍; 推理步数基本 1 倍; 模型复杂度增长 1—2 倍。
那么毛需求大概是:
3—5 × 2—3 × 1—2 × 1 × 1—2 = 6—60 倍
看起来已经不低。
但问答阶段也是最容易被效率提升抵消的阶段。
因为它的任务比较标准化,可以通过模型量化、小模型分流、缓存、batching、推理调度、硬件升级,把单位成本大幅压下来。
如果效率提升 10—30 倍,那么最后净需求就是:
6—60 ÷ 10—30 ≈ 1—3 倍
所以问答阶段不是没有需求增长,而是因为任务比较浅,效率提升能抵消掉大部分毛需求。
这就是为什么它更像 1—3 倍,而不是 10 倍、100 倍。
这个阶段,硬件还有增长,但普通铲子不能给太夸张的预期。
真正值得看的,是仍然卡瓶颈的高端环节。
第二档,是 AI 嵌入工作流。
这时候 AI 不只是“我问一句,它答一句”,而是开始进入企业和个人每天的工作动作里。
比如:
程序员每天大量使用代码助手; 客服系统大部分问题由 AI 处理; 销售和营销用 AI 生成线索、内容和跟进方案; 投研、法务、财务、人力用 AI 做初稿和分析; 企业知识库、CRM、OA、ERP 开始接入 AI; 个人用户从偶尔问问题,变成每天很多工作节点都调用 AI。
这个阶段,最大的变化是:
调用频次明显提升。
以前一个人可能一天问 AI 3—5 次。 后来可能每封邮件、每个会议纪要、每段代码、每个搜索、每次数据分析、每个客户回复背后都有 AI。
AI 从工具变成工作流的一部分。
假设:
用户数增长 5—10 倍; 使用频次增长 10—20 倍;
单任务 token 数增长 3—5 倍; 推理步数增长 1—2 倍; 模型复杂度增长 1—2 倍。
那么毛需求大概是:
5—10 × 10—20 × 3—5 × 1—2 × 1—2 = 150—4000 倍
这个数字已经很大。
但工作流阶段也会发生明显效率提升。
比如:
更便宜的推理芯片; 专用 ASIC; 蒸馏模型; 企业场景小模型; 更好的缓存; 更好的调度系统; 更成熟的推理集群。
如果效率提升 50—300 倍,那么净需求大概就是:
150—4000 ÷ 50—300 ≈ 5—10 倍
所以工作流阶段的关键不是“单次推理变得特别重”,而是“调用频次变得很高”。
它从偶尔使用,变成每个工作动作背后都可能调用一次 AI。
这就是为什么工作流阶段可以从问答阶段的 1—3 倍,抬升到 5—10 倍。
这个阶段最重要的硬件逻辑,不再只是“能不能训练模型”,而是:
能不能把每一个 token 跑得足够便宜。
工作流阶段,最重要的铲子会变成:
低成本推理芯片; 高端光模块; 高端 PCB/CCL; HBM/HBM3E; 企业级 SSD; 液冷和电力; 初步的 CXL、Retimer、MRDIMM。
这个阶段高端铲子已经开始重要,但很多问题仍然可以靠扩容解决。
也就是在原来的数据中心上继续加楼层。
第三档,是智能体阶段。
智能体和普通工作流最大的区别是:
AI 不只是辅助一个动作,而是开始执行一串任务。
普通问答是:
你问一句,AI 答一句。
Agent 是:
理解目标; 拆解任务; 搜索资料; 读取文件; 调用数据库; 写代码; 运行测试; 检查错误; 修改方案; 再次验证; 最后交付。
这背后不是 1 次推理,而可能是 10 次、30 次、100 次推理。
而且每一步都可能带着更长上下文:
历史记录; 企业知识库; 文件; 代码库; 数据库; 工具返回结果; 用户偏好; 中间状态。
所以智能体阶段的放大,不只是“用户更多”,而是“单个任务变重”。
假设:
用户数增长 5—10 倍; 使用频次增长 10—30 倍; 单任务 token 数增长 10—50 倍; 推理步数增长 10—50 倍; 模型复杂度增长 1—3 倍。
那么毛需求区间会非常大。
保守一点算:
5 × 10 × 10 × 10 × 1 = 5000 倍
激进一点算:
10 × 30 × 50 × 50 × 3 = 2,250,000 倍
这就是为什么 Agent 阶段的毛需求会非常夸张。
但当然,不能直接把这个数字当成硬件需求。
因为 Agent 阶段也会有非常强的效率优化:
更强推理 ASIC; MoE 稀疏化; speculative decoding; KV cache 复用; 上下文压缩; 任务拆分; 小模型执行简单步骤; 大模型只处理关键步骤; 更强的调度系统; 更好的数据中心架构。
如果效率提升 500—5000 倍,那么净需求大概就是:
5000—2,250,000 ÷ 500—5000 ≈ 10—100 倍
所以智能体阶段之所以能到 10—100 倍,不是因为用户突然多了 100 倍,而是因为每个任务背后变成了多步骤、多轮次、多工具、多上下文。
问答阶段是一次推理。 Agent 阶段是一串推理。
这就是数量级差异。
智能体阶段的铲子,也不再是单点硬件,而是系统级硬件。
它要求:
算力够; 内存够; 网络够; 存储够; CPU 调度够; 数据流动够快; KV cache 能存、能取、能复用; 每个 token 的成本足够低。
这个阶段,高端铲子会变得极其重要。
第一,是高端推理芯片和 ASIC。
Agent 会带来大量 token、多轮调用、低延迟要求和高并发要求。推理芯片不只是要便宜,还要能承载复杂任务。
低端 ASIC 可以吃浅层推理。 高端 ASIC 才能吃智能体推理。
第二,是 HBM 和高速内存。
很多人会误以为推理比训练轻,所以 HBM 不重要。这个判断只对浅层推理成立。
高端 Agent 推理需要模型权重常驻、长上下文、多轮 KV cache、多模态数据和复杂 MoE 路由。HBM 不仅不会消失,反而可能继续升级到更大容量、更高带宽。
第三,是高端光模块和 CPO/硅光。
训练时代,光模块主要服务大集群训练。 智能体时代,光模块服务更多推理集群、更低延迟调度、更多模型调用、更多工具访问、更多跨节点和跨机柜数据流。
普通光模块可能会卷。 但 1.6T、3.2T、CPO、硅光、高端交换网络仍然是下一代瓶颈。
第四,是高端 PCB/CCL。
如果推理只是边缘小模型,PCB 不一定高端。 但如果是数据中心 Agent,高端 PCB/CCL 仍然重要。
因为系统复杂度上升:
GPU/ASIC 板更复杂; 交换机板更复杂; 高速背板/中板更复杂; 供电更复杂; 信号完整性要求更高; SerDes 更多; 板层更多; 低损耗材料要求更高; 热管理压力更大。
所以智能体阶段不是 PCB 用量简单增加,而是高端 PCB 价值量提升。
第五,是高端存储、KV cache 和企业级 SSD。
Agent 会产生大量状态数据:
历史上下文; 中间结果; 企业知识库; 向量数据库; 日志; KV cache; 文件和代码。
这些不可能全放在 HBM 里。
所以智能体阶段,存储不是普通冷仓库,而开始变成推理系统的一部分。
第六,是 CPU、CXL、Retimer、MRDIMM、内存接口。
Agent 不是只有矩阵计算。它还要调度工具、执行代码、跑环境、管理状态、调用外部系统。
所以服务器内部的 CPU—内存—I/O 通道会越来越重要。
如果光模块是城市之间的高速公路,PCB/CCL 是大楼的钢筋水泥,HBM 是工位旁边的高速工作台,那么 CXL、Retimer、MRDIMM、内存接口这些东西,就是大楼内部的电梯调度、物流中控和仓库分拣系统。
城市刚开始建设时,最缺的是路和楼。 但当楼越来越高、人流货流越来越复杂,内部调度系统就会越来越重要。
第四档,是物理 AI 阶段。
也就是 AI 不只是进入软件工作流,而是进入真实世界。
自动驾驶; 机器人; 无人机; 智能工厂; 仓储物流; 家庭机器人; 真实世界智能体。
这个阶段和办公 Agent 最大的区别是:
物理 AI 是持续运行的。
办公 AI 是你需要时调用。 机器人和自动驾驶是一直感知、判断、规划、控制。
一辆车不是一分钟调用一次 AI。 它是每秒都在看世界、理解世界、预测世界、控制车辆。
一个机器人不是用户问它一句才开始工作。 它要持续看、听、走、抓、避障、判断,和环境交互。
所以物理 AI 的放大器是:
设备数量巨大; 运行时间极长; 实时性要求高; 感知数据量大; 安全冗余高; 边缘推理持续运行; 云端训练和仿真持续进行。
这时,毛需求可能轻松超过智能体阶段。
即使效率提升 1000 倍、5000 倍,甚至更高,只要物理 AI 真的大规模普及,净需求仍然可能超过 100 倍。
但这里要特别注意:
物理 AI 的 100 倍以上,不一定全部落到数据中心 HBM、光模块、AI PCB 上。
它会分成两条链。
边缘端会吃:
车规芯片; 机器人芯片; 传感器; 车规 PCB; 功率器件; 电机控制; 连接器; 边缘散热。
云端会吃:
训练;
仿真; 世界模型; 数据回传; 模型更新; 高端数据中心硬件。
所以物理 AI 阶段确实可能是 100 倍以上,但它的受益链条会分叉。
不是原来所有数据中心铲子都简单放大 100 倍,而是边缘硬件和云端硬件一起扩张。
物理 AI 会让边缘铲子变重要,但不会让数据中心铲子消失。
只是数据中心铲子的逻辑会变成:为现实世界智能训练、仿真、更新模型。
边缘铲子的逻辑会变成:让每台车、每个机器人、每个设备都能实时推理。
这里还有一个很容易被误解的点:
效率提升到底是利空硬件,还是利好硬件?
答案是:它既是利空,也是利好。
从公式上看,效率提升在分母里。
硬件更强、模型更小、调度更好,单位任务消耗的算力就会下降。这会抵消一部分硬件需求。
如果毛需求增长 100 倍,效率提升 100 倍,那么净需求可能不增长。
这对硬件是压力。
但另一方面,效率提升会降低 token 成本。
当 token 变便宜,很多原来不划算的场景就会变得划算。
以前让 AI 跑 100 次检查太贵,现在可以跑。 以前企业不用 AI 做客服,因为成本高,现在可以部署。 以前 Agent 不能全天候运行,现在可以进入工作流。
所以效率提升一方面做除法,另一方面又会反过来刺激前面的用户数、调用频次、Agent 步数继续上升。
这就是 AI 里的杰文斯悖论:
单位成本下降,不一定让总消耗下降。 它可能让更多需求被释放出来,最后总消耗反而更高。
所以真正要跟踪的不是“效率会不会提升”。
效率一定会提升。
真正要跟踪的是:
需求放大的速度,能不能跑赢效率提升的速度。
如果跑不赢,普通铲子会降温。 如果跑得赢,推理时代的硬件预期还会继续上修。
推理时代还有一个很重要的分化:
不是所有推理芯片都会越来越高端。
它会分成两条路线。
第一条,是平房路线。
也就是低成本、低功耗、边缘推理。
比如:
手机 AI 芯片; PC NPU; 车端推理芯片; 机器人本地推理芯片; 企业小模型推理盒子; 低成本 ASIC。
这类芯片的特点是:
数量很大; 单颗价值不一定高; 不一定用 HBM; 不一定需要极高端 PCB; 更看功耗、成本、良率、量产能力。
未来平房路线一定会很多。
因为不是所有推理都需要大模型,也不是所有任务都需要高端数据中心。很多简单任务,比如摘要、翻译、语音助手、图片识别、基础客服、本地推荐、车端部分感知,都可以用小模型、轻量模型、端侧芯片去完成。
这类需求会非常广。
但问题在于:
数量多,不等于价格能涨。
平房路线最大的问题,是供给不一定稀缺。
因为低成本推理芯片更容易标准化,也更容易被不同厂商追赶。只要任务足够简单,模型可以被压缩,芯片可以被专用化,成本就会不断下降。
这类产品最后可能会很像很多成熟电子零部件:
量很大; 渗透率很高; 但价格持续下降; 毛利率被压缩; 公司靠规模、成本和客户关系赚钱,而不是靠持续涨价赚钱。
所以平房路线不一定没有机会。
它可以有很大的量,也可能诞生不错的公司。
但它更难出现我们最喜欢的那种“量价齐升”。
因为量上来了,价格却可能被更多供给、更多竞争、更强成本优化压下去。
真正要看的是:
谁能做得更便宜; 谁能量产能力更强; 谁能进入大客户供应链; 谁能在低毛利里守住成本优势。
它更像规模制造业,不像高端瓶颈资产。
第二条,是高楼路线。
也就是数据中心高端推理。
比如:
大模型 Agent; 长上下文; 多模态生成; 代码 Agent; 企业复杂工作流; AI 搜索; 实时视频生成; 大规模 MoE 推理。
这类推理不是简单问答。
它要处理更长上下文、更多工具调用、更多中间状态、更复杂的数据流动。它不只是算一下,而是要在算力、内存、网络、存储、CPU 调度之间不断协同。
所以这类推理芯片会越来越复杂。
它需要:
更大 HBM; 更高内存带宽; 更强芯片间互联; 更高功率密度; 更复杂封装; 更高端 PCB/CCL; 更强散热; 更强存储; 更强 CPU—内存—I/O 协同。
这就像盖房子。
早期推理可以盖平房。 但如果要承载百万 token 上下文、多 Agent、多模态、实时服务、企业大规模并发,就必须盖高楼。
高楼路线的特点是:
数量未必像平房那么大; 但单机价值量更高; 系统复杂度更高; 客户认证更难; 供应链门槛更高; 更容易出现阶段性供给稀缺。
所以高楼路线更容易出现“量价齐升”。
因为它不仅有量的增长,还有规格升级带来的价值量提升。
比如:
HBM 从 HBM3E 到 HBM4; 光模块从 800G 到 1.6T、3.2T; PCB/CCL 从普通高速板到更高层数、更低损耗、更高可靠性; 封装从普通封装到 2.5D/3D/Chiplet; 存储从普通 SSD 到 AI-native storage、KV cache 存储; 服务器从单机升级到 rack-scale、pod-scale 系统。
所以平房和高楼最大的区别,不是有没有需求。
两边都有需求。
真正的区别是:
平房吃的是数量,价格容易被竞争压低; 高楼吃的是复杂度,价格更可能被规格升级抬高。
这就是为什么后期不能简单说“推理芯片很多,所以所有铲子都好”。
要看它服务的是哪种推理。
如果服务的是平房路线,它可能有量,但要警惕价格和毛利率。 如果服务的是高楼路线,它才更可能继续卡住下一代瓶颈。
所以推理时代不是“硬件变简单”。
低端推理会变便宜。 高端推理会变复杂。
真正能长期受益的铲子,不是所有铲子,而是能跟上高楼路线的铲子。
推理时代的硬件机会,可以按阶段重新排一遍。
这个阶段,AI 刚开始大规模使用。
通用 GPU、基础推理卡、基础数据中心、基础服务器都能受益。
但净需求可能只是 1—3 倍,所以后期普通硬件容易被效率提升和供给扩张抵消。
这个阶段,净需求可能到 5—10 倍。
AI 进入办公、代码、客服、企业流程。 推理成本、并发能力、稳定性、低延迟开始重要。
这一阶段要看:
低成本推理 ASIC; 高端光模块; 高端 PCB/CCL; HBM; 企业级 SSD; 液冷电力; 初步的 CXL/Retimer/MRDIMM。
这个阶段,净需求可能到 10—100 倍。
AI 从“回答问题”变成“执行任务”。
真正重要的是:
高端推理芯片; HBM4;
高端光互联/CPO/硅光; 高端 PCB/CCL; KV cache 存储; 企业级 SSD; CXL; Retimer; MRDIMM; CPU 调度; 内存接口; 液冷电力。
这个阶段不是所有铲子都强,而是能承载长上下文、多步骤、多工具调用的高端系统铲子才强。
这个阶段,净需求可能超过 100 倍。
但受益链条会分叉。
边缘端看:
车规芯片; 机器人芯片; 传感器;
功率器件; 电机控制; 车规 PCB; 连接器; 边缘散热。
云端看:
训练、仿真、世界模型、数据回传、模型更新。
也就是说,物理 AI 不是简单加强原来的数据中心链,而是打开一条新的边缘硬件链。
阶段
毛需求主要由什么放大
效率抵消后
净推理需求
推理形态
硬件重点
问答阶段
用户变多、频次略升、短任务为主
效率提升能抵消大部分
1—3 倍
聊天、搜索、简单 Copilot
通用 GPU、基础推理卡、基础数据中心
工作流阶段
使用频次大幅提升,AI 嵌入日常流程
效率抵消后仍有明显增量
5—10 倍
办公、代码、客服、企业流程
低成本推理 ASIC、高端光模块、高端 PCB/CCL、HBM、企业级 SSD、液冷电力
智能体阶段
单任务变重,多步骤、多工具、长上下文
即使效率大幅提升,仍可能很高
10—100 倍
多步骤 Agent、长上下文、多工具调用
高端推理芯片、HBM4、CPO/硅光、高端 PCB/CCL、KV cache 存储、CXL、Retimer、MRDIMM、内存接口
物理 AI 阶段
设备持续运行,真实世界数据和边缘推理爆发
效率很强,但需求更强
100 倍以上
车、机器人、工厂、真实世界智能
车规/机器人芯片、传感器、功率器件、车规 PCB;同时云端训练和仿真链继续受益
推理时代的数量级,不取决于一句“推理会比训练大多少倍”。
它取决于 AI 走到哪一层。
如果 AI 停留在问答,可能只是 1—3 倍。 如果 AI 嵌入工作流,可能是 5—10 倍。 如果 AI 进入智能体,可能是 10—100 倍。 如果 AI 进入物理世界,才可能走向 100 倍以上。
而这几个倍数,应该理解成扣掉效率提升之后的净需求。
这才是投资上真正有意义的数字。
所以未来看 AI 硬件,不是简单问:
推理时代来了没有?
而是要问:
AI 现在是问答,还是工作流? 是 Copilot,还是 Agent? 是软件智能,还是物理智能? 需求放大速度有没有跑赢效率提升? 这个公司卖的铲子,是不是下一阶段需要的铲子?
前期,只要 AI 建设,铲子就强。
后期,只有赶上下一代推理形态的铲子,才继续强。
工作流阶段,买的是能降低推理成本的铲子。 智能体阶段,买的是能承载长上下文、多步骤、多工具调用的高端系统铲子。 物理 AI 阶段,买的是边缘端海量部署的车规/机器人铲子,同时云端训练和仿真铲子继续受益。
所以推理时代的硬件需求不是没有了。
而是更挑剔了。
普通铲子会被效率提升和供给扩张抵消。 高端铲子会被智能体和物理 AI 继续放大。
真正的分水岭不是“训练还是推理”。
而是:
这个铲子,到底能不能跟上 AI 从问答、到工作流、到智能体、到物理世界的升级。