推理时代硬件需求的真实倍数：从毛需求到净需求的跃迁

发布时间：2026-07-05 16:16阅读：2

从能力验证，到使用扩散；从市占率确认，到最后的护城河审判。不同阶段，主线不一样：前半场看瓶颈，后半场看入口。

但写完之后，我发现还有一个问题没有拆透。

我们知道 AI 会从训练时代走向推理时代，也知道推理时代会带来新的芯片需求、光模块需求、存储需求、PCB/CCL 需求。可如果只知道“方向要从训练切到推理”，其实还不够。

更重要的是：

从训练到推理，中间到底会放大几个数量级？

是 1—3 倍？是 5—10 倍？是 10—100 倍？还是 100 倍以上？

这个问题很关键。

因为数量级决定了我们对硬件链的预期，也决定了我们到底应该怎么拿这些铲子公司。

如果推理只是训练的 1—3 倍，那么硬件链还有增长，但要警惕估值和扩产。

如果推理是 5—10 倍，那么低成本推理芯片、光模块、HBM、PCB、存储就还有很大的增量。

如果推理进入 10—100 倍，那说明 AI 已经从问答进入智能体，硬件需求可能不是一轮景气，而是一轮系统重构。

如果推理真的走向 100 倍以上，那往往意味着 AI 不只是进入软件，而是进入物理世界。

这有点像我们之前研究产业时，一开始只知道“从树根到树干到树枝”，但后来发现还需要一个更明确的抓手：渗透率。

没有渗透率，我们就很难判断一个产业到底处在哪一段。

没有数量级，我们也很难判断推理时代到底能撑起多大的硬件需求。

所以这篇文章想补上的，就是这个问题：

推理时代的数量级，到底怎么计算？

效率提升会抵消多少？

最后真正落到芯片、光模块、HBM、PCB、存储上的，是毛需求，还是净需求？

如果上一篇文章解决的是“不同阶段主线会怎么切换”，那这一篇要解决的就是：

为什么推理时代的铲子还会继续分层，以及哪些铲子能真正跟上下一阶段。

我们可以先把推理需求拆成一个公式：

净推理算力需求 = 用户数 × 使用频次 × 单任务 token 数 × 推理步数 × 模型复杂度 ÷ 效率提升

前半段是需求放大。

用户变多，会放大需求。使用频次变高，会放大需求。每个任务 token 数变长，会放大需求。普通问答变成多步 Agent，会放大需求。模型越来越复杂，也会放大需求。

后半段是效率抵消。

芯片更强，会抵消需求。模型蒸馏，会抵消需求。量化，会抵消需求。 MoE 稀疏化，会抵消需求。 KV cache 优化，会抵消需求。推理调度、小模型分流、ASIC 定制化，都会抵消需求。

所以推理时代的核心问题不是：

调用量会增长多少？

而是：

调用量增长之后，扣掉效率提升，还剩多少净需求要落到硬件上。

这才是芯片、光模块、HBM、PCB、存储真正关心的东西。

我觉得可以用两个词：

毛需求，就是用户数、调用频次、token、Agent 步数带来的原始需求放大。

净需求，就是毛需求扣掉硬件和算法效率提升之后，真正落到硬件上的需求。

举个例子。

假设现在是普通问答：

1 亿用户；每天调用 1 次；每次 1000 token；每次只有 1 轮推理。

未来进入工作流阶段：

用户变成 5 亿，是 5 倍；

每天调用 20 次，是 20 倍；每次任务 5000 token，是 5 倍；任务复杂度提升 2 倍。

毛需求就是：

5 × 20 × 5 × 2 = 1000 倍

听起来非常夸张。

但如果这几年硬件效率、模型效率、推理调度、小模型分流一起提升了 100 倍，那么净需求就是：

1000 ÷ 100 = 10 倍

最后落到硬件上，可能就是 5—10 倍，而不是 1000 倍。

所以以后看到任何“推理需求百倍”的说法，都要先问一句：

这是毛需求，还是净需求？

投资看的是净需求。

毛需求负责讲故事。净需求决定订单、产能、利润和股价。

下面的倍数不是精确预测，而是数量级推演。

它不是为了算出一个绝对答案，而是为了让我们知道：在什么情况下，推理需求只是训练时代的几倍；在什么情况下，它会变成几十倍，甚至上百倍。

我们还是用这个公式：

净推理需求 = 用户数 × 使用频次 × 单任务 token 数 × 推理步数 × 模型复杂度 ÷ 效率提升

这几个变量，任何一个放大，都会让需求上去。

比如：

用户数从 1 亿到 10 亿，是 10 倍。每天使用从 1 次到 20 次，是 20 倍。

每次任务从 500 token 到 50,000 token，是 100 倍。普通问答变成 Agent 多步任务，又可能是 10—100 倍。模型变大，单 token 成本上升。硬件和算法效率提升，又会把成本打下来。

所以推理时代的核心，不是一个单一数字，而是这些变量相乘。

这也是为什么它的弹性非常大。

如果只是普通聊天，需求增长可能没那么夸张。但如果变成 Agent、代码、视频、办公流、企业流程、机器人、自动驾驶，那推理需求就不是线性增长。

因为它不是“人问一句，AI 答一句”。而是“AI 替人持续执行任务”。

然后我们分别拆解这四个阶段。

第一档，是普通问答和轻量 Copilot 阶段。

这个阶段 AI 主要用来：

聊天；搜索；总结文件；写邮件；简单代码补全；办公软件里的轻量助手；基础客服。

它的特点是：人主动调用 AI，AI 辅助人完成单个动作。

用户确实变多了，但任务还比较浅。上下文不算太长，推理步数不多，很多调用可以用小模型、缓存、量化和更好的调度去优化。

假设：

用户数增长 3—5 倍；使用频次增长 2—3 倍；单任务 token 数增长 1—2 倍；推理步数基本 1 倍；模型复杂度增长 1—2 倍。

那么毛需求大概是：

3—5 × 2—3 × 1—2 × 1 × 1—2 = 6—60 倍

看起来已经不低。

但问答阶段也是最容易被效率提升抵消的阶段。

因为它的任务比较标准化，可以通过模型量化、小模型分流、缓存、batching、推理调度、硬件升级，把单位成本大幅压下来。

如果效率提升 10—30 倍，那么最后净需求就是：

6—60 ÷ 10—30 ≈ 1—3 倍

所以问答阶段不是没有需求增长，而是因为任务比较浅，效率提升能抵消掉大部分毛需求。

这就是为什么它更像 1—3 倍，而不是 10 倍、100 倍。

这个阶段，硬件还有增长，但普通铲子不能给太夸张的预期。

真正值得看的，是仍然卡瓶颈的高端环节。

第二档，是 AI 嵌入工作流。

这时候 AI 不只是“我问一句，它答一句”，而是开始进入企业和个人每天的工作动作里。

比如：

程序员每天大量使用代码助手；客服系统大部分问题由 AI 处理；销售和营销用 AI 生成线索、内容和跟进方案；投研、法务、财务、人力用 AI 做初稿和分析；企业知识库、CRM、OA、ERP 开始接入 AI；个人用户从偶尔问问题，变成每天很多工作节点都调用 AI。

这个阶段，最大的变化是：

调用频次明显提升。

以前一个人可能一天问 AI 3—5 次。后来可能每封邮件、每个会议纪要、每段代码、每个搜索、每次数据分析、每个客户回复背后都有 AI。

AI 从工具变成工作流的一部分。

假设：

用户数增长 5—10 倍；使用频次增长 10—20 倍；

单任务 token 数增长 3—5 倍；推理步数增长 1—2 倍；模型复杂度增长 1—2 倍。

那么毛需求大概是：

5—10 × 10—20 × 3—5 × 1—2 × 1—2 = 150—4000 倍

这个数字已经很大。

但工作流阶段也会发生明显效率提升。

比如：

更便宜的推理芯片；专用 ASIC；蒸馏模型；企业场景小模型；更好的缓存；更好的调度系统；更成熟的推理集群。

如果效率提升 50—300 倍，那么净需求大概就是：

150—4000 ÷ 50—300 ≈ 5—10 倍

所以工作流阶段的关键不是“单次推理变得特别重”，而是“调用频次变得很高”。

它从偶尔使用，变成每个工作动作背后都可能调用一次 AI。

这就是为什么工作流阶段可以从问答阶段的 1—3 倍，抬升到 5—10 倍。

这个阶段最重要的硬件逻辑，不再只是“能不能训练模型”，而是：

能不能把每一个 token 跑得足够便宜。

工作流阶段，最重要的铲子会变成：

低成本推理芯片；高端光模块；高端 PCB/CCL； HBM/HBM3E；企业级 SSD；液冷和电力；初步的 CXL、Retimer、MRDIMM。

这个阶段高端铲子已经开始重要，但很多问题仍然可以靠扩容解决。

也就是在原来的数据中心上继续加楼层。

第三档，是智能体阶段。

智能体和普通工作流最大的区别是：

AI 不只是辅助一个动作，而是开始执行一串任务。

普通问答是：

你问一句，AI 答一句。

Agent 是：

理解目标；拆解任务；搜索资料；读取文件；调用数据库；写代码；运行测试；检查错误；修改方案；再次验证；最后交付。

这背后不是 1 次推理，而可能是 10 次、30 次、100 次推理。

而且每一步都可能带着更长上下文：

历史记录；企业知识库；文件；代码库；数据库；工具返回结果；用户偏好；中间状态。

所以智能体阶段的放大，不只是“用户更多”，而是“单个任务变重”。

假设：

用户数增长 5—10 倍；使用频次增长 10—30 倍；单任务 token 数增长 10—50 倍；推理步数增长 10—50 倍；模型复杂度增长 1—3 倍。

那么毛需求区间会非常大。

保守一点算：

5 × 10 × 10 × 10 × 1 = 5000 倍

激进一点算：

10 × 30 × 50 × 50 × 3 = 2,250,000 倍

这就是为什么 Agent 阶段的毛需求会非常夸张。

但当然，不能直接把这个数字当成硬件需求。

因为 Agent 阶段也会有非常强的效率优化：

更强推理 ASIC； MoE 稀疏化； speculative decoding； KV cache 复用；上下文压缩；任务拆分；小模型执行简单步骤；大模型只处理关键步骤；更强的调度系统；更好的数据中心架构。

如果效率提升 500—5000 倍，那么净需求大概就是：

5000—2,250,000 ÷ 500—5000 ≈ 10—100 倍

所以智能体阶段之所以能到 10—100 倍，不是因为用户突然多了 100 倍，而是因为每个任务背后变成了多步骤、多轮次、多工具、多上下文。

问答阶段是一次推理。 Agent 阶段是一串推理。

这就是数量级差异。

智能体阶段的铲子，也不再是单点硬件，而是系统级硬件。

它要求：

算力够；内存够；网络够；存储够； CPU 调度够；数据流动够快； KV cache 能存、能取、能复用；每个 token 的成本足够低。

这个阶段，高端铲子会变得极其重要。

第一，是高端推理芯片和 ASIC。

Agent 会带来大量 token、多轮调用、低延迟要求和高并发要求。推理芯片不只是要便宜，还要能承载复杂任务。

低端 ASIC 可以吃浅层推理。高端 ASIC 才能吃智能体推理。

第二，是 HBM 和高速内存。

很多人会误以为推理比训练轻，所以 HBM 不重要。这个判断只对浅层推理成立。

高端 Agent 推理需要模型权重常驻、长上下文、多轮 KV cache、多模态数据和复杂 MoE 路由。HBM 不仅不会消失，反而可能继续升级到更大容量、更高带宽。

第三，是高端光模块和 CPO/硅光。

训练时代，光模块主要服务大集群训练。智能体时代，光模块服务更多推理集群、更低延迟调度、更多模型调用、更多工具访问、更多跨节点和跨机柜数据流。

普通光模块可能会卷。但 1.6T、3.2T、CPO、硅光、高端交换网络仍然是下一代瓶颈。

第四，是高端 PCB/CCL。

如果推理只是边缘小模型，PCB 不一定高端。但如果是数据中心 Agent，高端 PCB/CCL 仍然重要。

因为系统复杂度上升：

GPU/ASIC 板更复杂；交换机板更复杂；高速背板/中板更复杂；供电更复杂；信号完整性要求更高； SerDes 更多；板层更多；低损耗材料要求更高；热管理压力更大。

所以智能体阶段不是 PCB 用量简单增加，而是高端 PCB 价值量提升。

第五，是高端存储、KV cache 和企业级 SSD。

Agent 会产生大量状态数据：

历史上下文；中间结果；企业知识库；向量数据库；日志； KV cache；文件和代码。

这些不可能全放在 HBM 里。

所以智能体阶段，存储不是普通冷仓库，而开始变成推理系统的一部分。

第六，是 CPU、CXL、Retimer、MRDIMM、内存接口。

Agent 不是只有矩阵计算。它还要调度工具、执行代码、跑环境、管理状态、调用外部系统。

所以服务器内部的 CPU—内存—I/O 通道会越来越重要。

如果光模块是城市之间的高速公路，PCB/CCL 是大楼的钢筋水泥，HBM 是工位旁边的高速工作台，那么 CXL、Retimer、MRDIMM、内存接口这些东西，就是大楼内部的电梯调度、物流中控和仓库分拣系统。

城市刚开始建设时，最缺的是路和楼。但当楼越来越高、人流货流越来越复杂，内部调度系统就会越来越重要。

第四档，是物理 AI 阶段。

也就是 AI 不只是进入软件工作流，而是进入真实世界。

自动驾驶；机器人；无人机；智能工厂；仓储物流；家庭机器人；真实世界智能体。

这个阶段和办公 Agent 最大的区别是：

物理 AI 是持续运行的。

办公 AI 是你需要时调用。机器人和自动驾驶是一直感知、判断、规划、控制。

一辆车不是一分钟调用一次 AI。它是每秒都在看世界、理解世界、预测世界、控制车辆。

一个机器人不是用户问它一句才开始工作。它要持续看、听、走、抓、避障、判断，和环境交互。

所以物理 AI 的放大器是：

设备数量巨大；运行时间极长；实时性要求高；感知数据量大；安全冗余高；边缘推理持续运行；云端训练和仿真持续进行。

这时，毛需求可能轻松超过智能体阶段。

即使效率提升 1000 倍、5000 倍，甚至更高，只要物理 AI 真的大规模普及，净需求仍然可能超过 100 倍。

但这里要特别注意：

物理 AI 的 100 倍以上，不一定全部落到数据中心 HBM、光模块、AI PCB 上。

它会分成两条链。

边缘端会吃：

车规芯片；机器人芯片；传感器；车规 PCB；功率器件；电机控制；连接器；边缘散热。

云端会吃：

训练；

仿真；世界模型；数据回传；模型更新；高端数据中心硬件。

所以物理 AI 阶段确实可能是 100 倍以上，但它的受益链条会分叉。

不是原来所有数据中心铲子都简单放大 100 倍，而是边缘硬件和云端硬件一起扩张。

物理 AI 会让边缘铲子变重要，但不会让数据中心铲子消失。

只是数据中心铲子的逻辑会变成：为现实世界智能训练、仿真、更新模型。

边缘铲子的逻辑会变成：让每台车、每个机器人、每个设备都能实时推理。

这里还有一个很容易被误解的点：

效率提升到底是利空硬件，还是利好硬件？

答案是：它既是利空，也是利好。

从公式上看，效率提升在分母里。

硬件更强、模型更小、调度更好，单位任务消耗的算力就会下降。这会抵消一部分硬件需求。

如果毛需求增长 100 倍，效率提升 100 倍，那么净需求可能不增长。

这对硬件是压力。

但另一方面，效率提升会降低 token 成本。

当 token 变便宜，很多原来不划算的场景就会变得划算。

以前让 AI 跑 100 次检查太贵，现在可以跑。以前企业不用 AI 做客服，因为成本高，现在可以部署。以前 Agent 不能全天候运行，现在可以进入工作流。

所以效率提升一方面做除法，另一方面又会反过来刺激前面的用户数、调用频次、Agent 步数继续上升。

这就是 AI 里的杰文斯悖论：

单位成本下降，不一定让总消耗下降。它可能让更多需求被释放出来，最后总消耗反而更高。

所以真正要跟踪的不是“效率会不会提升”。

效率一定会提升。

真正要跟踪的是：

需求放大的速度，能不能跑赢效率提升的速度。

如果跑不赢，普通铲子会降温。如果跑得赢，推理时代的硬件预期还会继续上修。

推理时代还有一个很重要的分化：

不是所有推理芯片都会越来越高端。

它会分成两条路线。

第一条，是平房路线。

也就是低成本、低功耗、边缘推理。

比如：

手机 AI 芯片； PC NPU；车端推理芯片；机器人本地推理芯片；企业小模型推理盒子；低成本 ASIC。

这类芯片的特点是：

数量很大；单颗价值不一定高；不一定用 HBM；不一定需要极高端 PCB；更看功耗、成本、良率、量产能力。

未来平房路线一定会很多。

因为不是所有推理都需要大模型，也不是所有任务都需要高端数据中心。很多简单任务，比如摘要、翻译、语音助手、图片识别、基础客服、本地推荐、车端部分感知，都可以用小模型、轻量模型、端侧芯片去完成。

这类需求会非常广。

但问题在于：

数量多，不等于价格能涨。

平房路线最大的问题，是供给不一定稀缺。

因为低成本推理芯片更容易标准化，也更容易被不同厂商追赶。只要任务足够简单，模型可以被压缩，芯片可以被专用化，成本就会不断下降。

这类产品最后可能会很像很多成熟电子零部件：

量很大；渗透率很高；但价格持续下降；毛利率被压缩；公司靠规模、成本和客户关系赚钱，而不是靠持续涨价赚钱。

所以平房路线不一定没有机会。

它可以有很大的量，也可能诞生不错的公司。

但它更难出现我们最喜欢的那种“量价齐升”。

因为量上来了，价格却可能被更多供给、更多竞争、更强成本优化压下去。

真正要看的是：

谁能做得更便宜；谁能量产能力更强；谁能进入大客户供应链；谁能在低毛利里守住成本优势。

它更像规模制造业，不像高端瓶颈资产。

第二条，是高楼路线。

也就是数据中心高端推理。

比如：

大模型 Agent；长上下文；多模态生成；代码 Agent；企业复杂工作流； AI 搜索；实时视频生成；大规模 MoE 推理。

这类推理不是简单问答。

它要处理更长上下文、更多工具调用、更多中间状态、更复杂的数据流动。它不只是算一下，而是要在算力、内存、网络、存储、CPU 调度之间不断协同。

所以这类推理芯片会越来越复杂。

它需要：

更大 HBM；更高内存带宽；更强芯片间互联；更高功率密度；更复杂封装；更高端 PCB/CCL；更强散热；更强存储；更强 CPU—内存—I/O 协同。

这就像盖房子。

早期推理可以盖平房。但如果要承载百万 token 上下文、多 Agent、多模态、实时服务、企业大规模并发，就必须盖高楼。

高楼路线的特点是：

数量未必像平房那么大；但单机价值量更高；系统复杂度更高；客户认证更难；供应链门槛更高；更容易出现阶段性供给稀缺。

所以高楼路线更容易出现“量价齐升”。

因为它不仅有量的增长，还有规格升级带来的价值量提升。

比如：

HBM 从 HBM3E 到 HBM4；光模块从 800G 到 1.6T、3.2T； PCB/CCL 从普通高速板到更高层数、更低损耗、更高可靠性；封装从普通封装到 2.5D/3D/Chiplet；存储从普通 SSD 到 AI-native storage、KV cache 存储；服务器从单机升级到 rack-scale、pod-scale 系统。

所以平房和高楼最大的区别，不是有没有需求。

两边都有需求。

真正的区别是：

平房吃的是数量，价格容易被竞争压低；高楼吃的是复杂度，价格更可能被规格升级抬高。

这就是为什么后期不能简单说“推理芯片很多，所以所有铲子都好”。

要看它服务的是哪种推理。

如果服务的是平房路线，它可能有量，但要警惕价格和毛利率。如果服务的是高楼路线，它才更可能继续卡住下一代瓶颈。

所以推理时代不是“硬件变简单”。

低端推理会变便宜。高端推理会变复杂。

真正能长期受益的铲子，不是所有铲子，而是能跟上高楼路线的铲子。

推理时代的硬件机会，可以按阶段重新排一遍。

这个阶段，AI 刚开始大规模使用。

通用 GPU、基础推理卡、基础数据中心、基础服务器都能受益。

但净需求可能只是 1—3 倍，所以后期普通硬件容易被效率提升和供给扩张抵消。

这个阶段，净需求可能到 5—10 倍。

AI 进入办公、代码、客服、企业流程。推理成本、并发能力、稳定性、低延迟开始重要。

这一阶段要看：

低成本推理 ASIC；高端光模块；高端 PCB/CCL； HBM；企业级 SSD；液冷电力；初步的 CXL/Retimer/MRDIMM。

这个阶段，净需求可能到 10—100 倍。

AI 从“回答问题”变成“执行任务”。

真正重要的是：

高端推理芯片； HBM4；

高端光互联/CPO/硅光；高端 PCB/CCL； KV cache 存储；企业级 SSD； CXL； Retimer； MRDIMM； CPU 调度；内存接口；液冷电力。

这个阶段不是所有铲子都强，而是能承载长上下文、多步骤、多工具调用的高端系统铲子才强。

这个阶段，净需求可能超过 100 倍。

但受益链条会分叉。

边缘端看：

车规芯片；机器人芯片；传感器；

功率器件；电机控制；车规 PCB；连接器；边缘散热。

云端看：

训练、仿真、世界模型、数据回传、模型更新。

也就是说，物理 AI 不是简单加强原来的数据中心链，而是打开一条新的边缘硬件链。

阶段

毛需求主要由什么放大

效率抵消后

净推理需求

推理形态

硬件重点

问答阶段

用户变多、频次略升、短任务为主

效率提升能抵消大部分

1—3 倍

聊天、搜索、简单 Copilot

通用 GPU、基础推理卡、基础数据中心

工作流阶段

使用频次大幅提升，AI 嵌入日常流程

效率抵消后仍有明显增量

5—10 倍

办公、代码、客服、企业流程

低成本推理 ASIC、高端光模块、高端 PCB/CCL、HBM、企业级 SSD、液冷电力

智能体阶段

单任务变重，多步骤、多工具、长上下文

即使效率大幅提升，仍可能很高

10—100 倍

多步骤 Agent、长上下文、多工具调用

高端推理芯片、HBM4、CPO/硅光、高端 PCB/CCL、KV cache 存储、CXL、Retimer、MRDIMM、内存接口

物理 AI 阶段

设备持续运行，真实世界数据和边缘推理爆发

效率很强，但需求更强

100 倍以上

车、机器人、工厂、真实世界智能

车规/机器人芯片、传感器、功率器件、车规 PCB；同时云端训练和仿真链继续受益

推理时代的数量级，不取决于一句“推理会比训练大多少倍”。

它取决于 AI 走到哪一层。

如果 AI 停留在问答，可能只是 1—3 倍。如果 AI 嵌入工作流，可能是 5—10 倍。如果 AI 进入智能体，可能是 10—100 倍。如果 AI 进入物理世界，才可能走向 100 倍以上。

而这几个倍数，应该理解成扣掉效率提升之后的净需求。

这才是投资上真正有意义的数字。

所以未来看 AI 硬件，不是简单问：

推理时代来了没有？

而是要问：

AI 现在是问答，还是工作流？是 Copilot，还是 Agent？是软件智能，还是物理智能？需求放大速度有没有跑赢效率提升？这个公司卖的铲子，是不是下一阶段需要的铲子？

前期，只要 AI 建设，铲子就强。

后期，只有赶上下一代推理形态的铲子，才继续强。

工作流阶段，买的是能降低推理成本的铲子。智能体阶段，买的是能承载长上下文、多步骤、多工具调用的高端系统铲子。物理 AI 阶段，买的是边缘端海量部署的车规/机器人铲子，同时云端训练和仿真铲子继续受益。

所以推理时代的硬件需求不是没有了。

而是更挑剔了。

普通铲子会被效率提升和供给扩张抵消。高端铲子会被智能体和物理 AI 继续放大。

真正的分水岭不是“训练还是推理”。

而是：

这个铲子，到底能不能跟上 AI 从问答、到工作流、到智能体、到物理世界的升级。

← 上一篇：人工智能驱动实体产业的关键价值解析下一篇：AI教研深耕不息，青春蓄力稳步前行——温州双屿中学AI青年工作坊第四次研修回顾 →