标签

推理时代下的产业链变革与投资机遇

发布时间:2026-06-28 02:55阅读:3

过去三年,AI行业的核心叙事是"训练更大的模型"。从GPT-3到GPT-4,从Llama到Gemini,行业竞争围绕着参数规模、训练数据和GPU集群展开。Scaling Law(规模定律)是所有讨论的起点和终点。

但2025年下半年开始,一个微妙而深刻的变化正在发生:行业关注的焦点,正从"训练"转向"推理"。

这不仅仅是一个技术路线的调整,而是整个AI产业链的价值重构。Agent(智能体)的出现,成为这一转变的核心驱动力——它让AI从"回答问题"进化为"完成任务",也让推理阶段的算力需求呈现出指数级增长。

本文试图回答一个问题:在这场从训练时代向推理时代的跃迁中,哪些方向、哪些公司真正具备长期价值?

从2020年到2025年,AI能力的提升主要依赖"更大"——更大的模型、更多的数据、更长的训练时间。但行业逐渐发现,这种路径正在逼近收益递减的拐点:

模型参数量翻倍,训练成本翻倍

但模型能力(如推理、数学、代码)的提升幅度,从早期的跳跃式进步,变成了几个百分点的缓慢爬升

继续沿着"大即是好"的路线前行,边际成本越来越高,边际收益越来越低。

与此同时,研究人员发现了一条新的路径:与其让模型更大,不如让模型思考更久。

这就是Inference Scaling(推理规模定律)的核心思想:

模型参数不变

但增加推理步骤、自我反思、多轮规划、工具调用

复杂任务的解决能力反而提升更明显

这条路径的经济账算得过来——在模型已经训好的前提下,增加推理时的计算量,比重新训练一个更大的模型要便宜得多。

Agent的出现,彻底改变了"一次推理"的定义。

在传统的大模型对话中,用户输入问题,模型输出答案,一次推理结束。但在Agent模式下:

text

一次Agent任务,可能包含几十次甚至上百次模型推理调用。训练是一次性投资,而推理是持续性消耗。当Agent开始大规模部署,推理算力的总消耗量将远超训练。

一个关键判断:未来AI算力消耗中,推理将占70%以上,训练不足30%。

推理需求的爆发,不是简单地"多买一些GPU",而是对整套AI基础设施提出了新的要求。以下五个层面正在发生深刻变化。

训练时代追求的是单卡峰值算力——谁能在最短时间内训完最大模型,谁就是王者。英伟达的旗舰GPU因此占据统治地位。

推理时代的评价标准完全不同:

延迟:Agent需要实时响应

吞吐:大规模并发推理

功耗:7×24小时运行的电力成本

性价比:每美元能产生多少Token

这意味着:

通用GPU仍是主力,但专用ASIC将获得重要份额。

推理工作负载是高度结构化的——矩阵乘法、注意力机制、KV Cache访问,这些操作非常适合用专用硬件加速。当模型架构趋于稳定(如Transformer成为事实标准),专门针对推理优化的ASIC就能比通用GPU实现更低的成本和功耗。

目前走得最远的是Broadcom——它已经成为全球AI ASIC的"设计平台",客户包括OpenAI、Google、Meta和字节跳动。OpenAI已公开推出与Broadcom合作开发的推理ASIC Jalapeño,专门针对Agent和LLM推理优化。

推理时代对存储的需求被严重低估。

首先,大模型推理需要巨大的显存来承载模型权重和KV Cache。长上下文(如百万Token级别)进一步放大了这一需求。HBM(高带宽内存)因此成为推理芯片的核心瓶颈——GPU算力再强,如果数据喂不进去,就是空转。

其次,Agent驱动的RAG(检索增强生成)模式,意味着每一次推理都需要实时访问企业知识库、PDF、图片、数据库。这带来了企业级SSD需求的结构性增长。

HBM和SSD,是推理时代两个被低估的"刚需"方向。

训练时代,网络已经很关键——大规模分布式训练需要高速互联。但推理时代,网络的重要性进一步提升,原因在于:

Agent需要频繁访问外部数据源,产生大量网络I/O

模型并行推理(如PD分离)需要GPU之间高速交换KV Cache

大规模推理集群的内部通信密度持续上升

一个值得关注的判断:未来GPU价格可能下降,但高速网络设备的价格将持续坚挺,因为网络瓶颈比算力瓶颈更难突破。

硬件是基础,但软件才是决定推理经济账能否算过来的关键。未来AI推理的竞争焦点,将从"拥有多少GPU"变成"让GPU利用率达到多高"。

关键的软件优化技术包括:

模型量化:用更低精度运行推理

KV Cache管理:优化显存占用

Speculative Decoding(推测解码):用小模型加速大模型推理

Continuous Batching(连续批处理):最大化GPU利用率

PD分离:将Prefill和Decode阶段拆分到不同硬件上运行

英伟达的护城河从来不只是硬件,而是CUDA + TensorRT-LLM + NIM + NVLink这一整套推理软件栈。

当Agent可以连续运行几十分钟,GPU进入7×24小时满载状态,数据中心的电力供应和散热能力就会成为硬约束。

单卡功耗从300W(A100)→ 700W(H100)→ 1000W+(下一代)

一个万卡集群的功耗相当于一个小型城镇

风冷已接近极限,液冷将成为标配

未来AI基础设施竞争,不只是芯片之争,也是电力之争、散热之争。

基于以上分析,我将推理时代的受益公司分为四个层级,每个层级的受益逻辑和确定性各不相同。

这一层的特点是:无论哪家AI公司最终胜出,推理需求有多大,这些公司都必然受益。

这三家公司是推理时代确定性最强的受益者。它们的业务不依赖于任何一家AI公司的成败,而是依赖于整个行业的增长。

这一层的增长弹性可能最大,因为ASIC在推理中的渗透率正在从低位快速上升。

Broadcom尤其值得关注——它同时占据ASIC设计和高速交换芯片两个关键位置,是AI推理时代隐藏的"基础设施之王"。

未来的AI服务,本质上就是推理即服务(Inference as a Service)。云厂商既是AI芯片的最大买家,也是推理服务的最终提供者。

这些公司的受益逻辑不同于"卖铲人"——它们是通过提供推理服务本身来获取价值。随着Agent的普及,推理服务将成为云业务的核心增长引擎。

这一层包括高速网络、企业存储、光模块、液冷等方向。它们不直接参与AI推理,但AI推理离不开它们。

在推理时代,国产替代的逻辑比训练时代更强。

原因在于:

推理对"单卡绝对算力"的要求低于训练,对"综合性价比"要求更高。这降低了国产芯片进入的门槛。

推理是ToB/ToC的在线业务,对供应链自主可控的需求比训练更迫切——断供意味着业务直接瘫痪。

国产芯片在推理场景下的适配进展较快,华为昇腾、寒武纪、海光信息等都在与主流大模型厂商进行推理适配。

值得长期跟踪的A股/H股方向包括:

AI芯片:寒武纪、海光信息、华为昇腾生态

HBM产业链:相关封装和材料企业

光模块:中际旭创、新易盛、天孚通信

制造能力:中芯国际的先进制程进展

需要客观指出的是,与国际龙头相比,国产产业链在技术水平和生态成熟度上仍有明显差距。但在推理时代,差距缩小的速度可能比训练时代更快。

最确定的是第一层"卖铲人"——NVIDIA、TSMC、SK hynix、Micron。无论推理需求如何增长,这些公司都将持续受益。同时,云厂商的大规模资本开支将直接转化为它们的收入。

ASIC和高速网络的渗透率将快速提升。Broadcom、Marvell、Arista在这一阶段有望实现超出行业平均的增长。核心逻辑是:推理成本的优化压力,将使ASIC在推理中的占比从目前的低位持续上升。

软件平台和Agent生态可能成为新的价值中心。

目前,推理软件的价值被硬件的光芒掩盖。但随着硬件差异缩小,软件优化能力——让GPU利用率从60%提升到90%——将成为AI推理的核心竞争力。未来可能出现"推理时代的操作系统",这一层的价值量可能远超今天的预期。

AI行业没有停止卷模型,但竞争的主战场已经从"实验室"转移到了"工厂"。

训练时代,核心竞争力是谁能造出最聪明的模型。

推理时代,核心竞争力是谁能以最低成本、最高效率运营"推理工厂"——让Agent真正替代人完成工作。

未来的赢家,不是造出最大模型的人,而是构建起最完整推理基础设施的人。

这个转变,正在重塑整个AI产业链的价值分布。理解它的人,将看到未来十年真正的投资主线;忽视它的人,将错过AI下半场最重要的结构性机会。