推理时代下的产业链变革与投资机遇

发布时间：2026-06-28 02:55阅读：3

过去三年，AI行业的核心叙事是"训练更大的模型"。从GPT-3到GPT-4，从Llama到Gemini，行业竞争围绕着参数规模、训练数据和GPU集群展开。Scaling Law（规模定律）是所有讨论的起点和终点。

但2025年下半年开始，一个微妙而深刻的变化正在发生：行业关注的焦点，正从"训练"转向"推理"。

这不仅仅是一个技术路线的调整，而是整个AI产业链的价值重构。Agent（智能体）的出现，成为这一转变的核心驱动力——它让AI从"回答问题"进化为"完成任务"，也让推理阶段的算力需求呈现出指数级增长。

本文试图回答一个问题：在这场从训练时代向推理时代的跃迁中，哪些方向、哪些公司真正具备长期价值？

从2020年到2025年，AI能力的提升主要依赖"更大"——更大的模型、更多的数据、更长的训练时间。但行业逐渐发现，这种路径正在逼近收益递减的拐点：

模型参数量翻倍，训练成本翻倍

但模型能力（如推理、数学、代码）的提升幅度，从早期的跳跃式进步，变成了几个百分点的缓慢爬升

继续沿着"大即是好"的路线前行，边际成本越来越高，边际收益越来越低。

与此同时，研究人员发现了一条新的路径：与其让模型更大，不如让模型思考更久。

这就是Inference Scaling（推理规模定律）的核心思想：

模型参数不变

但增加推理步骤、自我反思、多轮规划、工具调用

复杂任务的解决能力反而提升更明显

这条路径的经济账算得过来——在模型已经训好的前提下，增加推理时的计算量，比重新训练一个更大的模型要便宜得多。

Agent的出现，彻底改变了"一次推理"的定义。

在传统的大模型对话中，用户输入问题，模型输出答案，一次推理结束。但在Agent模式下：

text

一次Agent任务，可能包含几十次甚至上百次模型推理调用。训练是一次性投资，而推理是持续性消耗。当Agent开始大规模部署，推理算力的总消耗量将远超训练。

一个关键判断：未来AI算力消耗中，推理将占70%以上，训练不足30%。

推理需求的爆发，不是简单地"多买一些GPU"，而是对整套AI基础设施提出了新的要求。以下五个层面正在发生深刻变化。

训练时代追求的是单卡峰值算力——谁能在最短时间内训完最大模型，谁就是王者。英伟达的旗舰GPU因此占据统治地位。

推理时代的评价标准完全不同：

延迟：Agent需要实时响应

吞吐：大规模并发推理

功耗：7×24小时运行的电力成本

性价比：每美元能产生多少Token

这意味着：

通用GPU仍是主力，但专用ASIC将获得重要份额。

推理工作负载是高度结构化的——矩阵乘法、注意力机制、KV Cache访问，这些操作非常适合用专用硬件加速。当模型架构趋于稳定（如Transformer成为事实标准），专门针对推理优化的ASIC就能比通用GPU实现更低的成本和功耗。

目前走得最远的是Broadcom——它已经成为全球AI ASIC的"设计平台"，客户包括OpenAI、Google、Meta和字节跳动。OpenAI已公开推出与Broadcom合作开发的推理ASIC Jalapeño，专门针对Agent和LLM推理优化。

推理时代对存储的需求被严重低估。

首先，大模型推理需要巨大的显存来承载模型权重和KV Cache。长上下文（如百万Token级别）进一步放大了这一需求。HBM（高带宽内存）因此成为推理芯片的核心瓶颈——GPU算力再强，如果数据喂不进去，就是空转。

其次，Agent驱动的RAG（检索增强生成）模式，意味着每一次推理都需要实时访问企业知识库、PDF、图片、数据库。这带来了企业级SSD需求的结构性增长。

HBM和SSD，是推理时代两个被低估的"刚需"方向。

训练时代，网络已经很关键——大规模分布式训练需要高速互联。但推理时代，网络的重要性进一步提升，原因在于：

Agent需要频繁访问外部数据源，产生大量网络I/O

模型并行推理（如PD分离）需要GPU之间高速交换KV Cache

大规模推理集群的内部通信密度持续上升

一个值得关注的判断：未来GPU价格可能下降，但高速网络设备的价格将持续坚挺，因为网络瓶颈比算力瓶颈更难突破。

硬件是基础，但软件才是决定推理经济账能否算过来的关键。未来AI推理的竞争焦点，将从"拥有多少GPU"变成"让GPU利用率达到多高"。

关键的软件优化技术包括：

模型量化：用更低精度运行推理

KV Cache管理：优化显存占用

Speculative Decoding（推测解码）：用小模型加速大模型推理

Continuous Batching（连续批处理）：最大化GPU利用率

PD分离：将Prefill和Decode阶段拆分到不同硬件上运行

英伟达的护城河从来不只是硬件，而是CUDA + TensorRT-LLM + NIM + NVLink这一整套推理软件栈。

当Agent可以连续运行几十分钟，GPU进入7×24小时满载状态，数据中心的电力供应和散热能力就会成为硬约束。

单卡功耗从300W（A100）→ 700W（H100）→ 1000W+（下一代）

一个万卡集群的功耗相当于一个小型城镇

风冷已接近极限，液冷将成为标配

未来AI基础设施竞争，不只是芯片之争，也是电力之争、散热之争。

基于以上分析，我将推理时代的受益公司分为四个层级，每个层级的受益逻辑和确定性各不相同。

这一层的特点是：无论哪家AI公司最终胜出，推理需求有多大，这些公司都必然受益。

这三家公司是推理时代确定性最强的受益者。它们的业务不依赖于任何一家AI公司的成败，而是依赖于整个行业的增长。

这一层的增长弹性可能最大，因为ASIC在推理中的渗透率正在从低位快速上升。

Broadcom尤其值得关注——它同时占据ASIC设计和高速交换芯片两个关键位置，是AI推理时代隐藏的"基础设施之王"。

未来的AI服务，本质上就是推理即服务（Inference as a Service）。云厂商既是AI芯片的最大买家，也是推理服务的最终提供者。

这些公司的受益逻辑不同于"卖铲人"——它们是通过提供推理服务本身来获取价值。随着Agent的普及，推理服务将成为云业务的核心增长引擎。

这一层包括高速网络、企业存储、光模块、液冷等方向。它们不直接参与AI推理，但AI推理离不开它们。

在推理时代，国产替代的逻辑比训练时代更强。

原因在于：

推理对"单卡绝对算力"的要求低于训练，对"综合性价比"要求更高。这降低了国产芯片进入的门槛。

推理是ToB/ToC的在线业务，对供应链自主可控的需求比训练更迫切——断供意味着业务直接瘫痪。

国产芯片在推理场景下的适配进展较快，华为昇腾、寒武纪、海光信息等都在与主流大模型厂商进行推理适配。

值得长期跟踪的A股/H股方向包括：

AI芯片：寒武纪、海光信息、华为昇腾生态

HBM产业链：相关封装和材料企业

光模块：中际旭创、新易盛、天孚通信

制造能力：中芯国际的先进制程进展

需要客观指出的是，与国际龙头相比，国产产业链在技术水平和生态成熟度上仍有明显差距。但在推理时代，差距缩小的速度可能比训练时代更快。

最确定的是第一层"卖铲人"——NVIDIA、TSMC、SK hynix、Micron。无论推理需求如何增长，这些公司都将持续受益。同时，云厂商的大规模资本开支将直接转化为它们的收入。

ASIC和高速网络的渗透率将快速提升。Broadcom、Marvell、Arista在这一阶段有望实现超出行业平均的增长。核心逻辑是：推理成本的优化压力，将使ASIC在推理中的占比从目前的低位持续上升。

软件平台和Agent生态可能成为新的价值中心。

目前，推理软件的价值被硬件的光芒掩盖。但随着硬件差异缩小，软件优化能力——让GPU利用率从60%提升到90%——将成为AI推理的核心竞争力。未来可能出现"推理时代的操作系统"，这一层的价值量可能远超今天的预期。

AI行业没有停止卷模型，但竞争的主战场已经从"实验室"转移到了"工厂"。

训练时代，核心竞争力是谁能造出最聪明的模型。

推理时代，核心竞争力是谁能以最低成本、最高效率运营"推理工厂"——让Agent真正替代人完成工作。

未来的赢家，不是造出最大模型的人，而是构建起最完整推理基础设施的人。

这个转变，正在重塑整个AI产业链的价值分布。理解它的人，将看到未来十年真正的投资主线；忽视它的人，将错过AI下半场最重要的结构性机会。

← 上一篇：零基础学AI证书前需做哪些准备？非技术背景考证攻略与含金量解析下一篇：AI浪潮下,设计院面临怎样的变革冲击? →