标签

中金:AI 推理新时代,CPU 核心地位重估

发布时间:2026-05-22 13:37来源:新浪新闻阅读:7

中金点睛

随着智能体 AI 的迅猛崛起,CPU 在推理阶段的角色正面临重新定义。本文深入剖析了 CPU 需求增长的驱动因素、市场规模预测及竞争态势,旨在探索其未来发展空间。尽管短期内的配置比例尚存变数,但长期来看,CPU 地位的回升具备充分合理性。

为何 CPU 需求将显著增长?在大模型训练期,以 GPU 为核心的矩阵算力是决定模型上限的关键,行业焦点也多集中于 FLOPs 等 GPU 性能优化。然而自 2025 年下半年起,局势发生两方面转变:1)训练端,强化学习地位凸显,使得 CPU 与 GPU 的配比成为系统关键指标;2)推理端主要体现为三大领域:a)推理宿主 CPU,协助 GPU 进行任务调度与利用率优化,甚至承接简单推理任务,形成对 GPU 的部分替代;b)编排节点 CPU,在复杂的智能体任务中作为独立节点负责逻辑运算与任务编排;c)沙盒执行层,随并发任务激增而带来的 CPU 刚性需求。

AI 驱动下,CPU 市场空间几何?我们从两个维度测算:1)中性假设下,若 CPU 与 GPU 配比为 1:1,预计至 2030 年全球 CPU 市场规模将突破 1300 亿美元;2)在当前智能体 AI 情景下(5 亿日活或日均 3000 亿 token),测算出 CPU 新增需求约 840 万颗。从技术演进看,作为新操作系统“调度器”的 CPU 将朝向更强单核性能、更大内存带宽、更强 I/O 能力及更多核心数升级。长远而言,数据中心 CPU 迭代将围绕数据带宽提升、任务分工专业化及与加速器深度融合三条主线。此外,面对需求的快速攀升,我们认为 2026 年服务器 CPU 的涨价趋势有望延续。

竞争格局:x86 与 Arm 谁主沉浮?目前全球服务器 CPU 市场中 Arm 占有率不足两成,x86 架构仍占主导。鉴于智能体类产品具有高并发、持续运行及大量轻量级推理请求等特征,Arm 精简指令集在功耗效率上优势明显,能支持更多核心处理并发请求,适用于高吞吐推理服务,预计其市场份额将逐步提升。

风险提示:CPU 需求不及预期,市场竞争加剧,上游产能供应紧张。

伴随推理需求的持续增长,关于服务器系统从以 GPU(矩阵计算)为核心转向重视 CPU(任务编排等)的讨论日益热烈。我们认为,长期来看服务器内部异构系统化将是必然趋势。本文重点探讨四个问题:1)从需求视角看,本轮 CPU 需求提升的动因何在?2)类比存储行业变化,当前 CPU 市场供需呈现何种状态?3)放眼长远,CPU 未来发展趋势如何?4)CPU 市场竞争格局怎样?

在大模型训练阶段,以 GPU 为核心的矩阵算力确是决定模型能力的关键,产业焦点也集中于 FLOPs 等 GPU 性能优化。但自 2025 年下半年起,两方面变化显现:1)训练端,强化学习重要性上升,使 CPU/GPU 配比成为系统关键指标之一;2)推理端主要体现在三方面:a)推理宿主 CPU,配合 GPU 优化任务调度与利用率,甚至执行简单推理,对 GPU 形成替代;b)编排节点 CPU,在复杂智能体任务中独立承担逻辑运算与编排;c)沙盒执行层随并发任务增加带来的 CPU 需求。

强化学习对 CPU/GPU 配比提出新挑战。不同于以往认为训练阶段 GPU 是唯一核心指标的观点,随着强化学习重要性提升,CPU 资源约束成为关注焦点。当前强化学习实践中,环境交互及硬件资源分配已成系统瓶颈,因需大量 CPU 运行模拟环境,CPU 不足会导致 GPU 空转。因此,合理设计 CPU/GPU 配比,使 CPU 线程数等于或大于 GPU SM 数量,成为重要方向。但从绝对量看,我们判断强化学习带来的 CPU 需求相对推理侧较为有限。

简单推理:成本视角下 CPU 对 GPU 的替代潜力

从成本角度考量,CPU 存在替代 GPU 的可能性。当前 GPU 仍处紧缺状态,高性能 GPU 无论是租赁价格还是缺货情况均未见明显缓解。训练场景难有其他芯片替代 GPU,但在推理场景,一方面对矩阵计算性能要求降低,另一方面在聊天机器人等简单推理任务中,业内已开始采用浮点性能较低的 RTX 系列等芯片。

鉴于 CPU 相比 GPU 具有显著价格优势,我们判断在部分简单推理任务中,CPU 可能一定程度替代 GPU 从而拉动需求。从海内外头部云厂商对 ASIC 芯片的推动及对定制化 CPU 的探索思路看,二者有异曲同工之妙。但这部分难以精确测算,且潜在空间有限。

图表 1:CPU 在推理中的重要性提升

资料来源:The Rising CPU:GPU Ratio in AI Infrastructure:Drivers,Trends,and Implications(Intel,2026 年),中金公司(33.840, -0.30, -0.88%)研究部

智能体 AI:Token 消耗占比攀升,复杂任务编排致 CPU 成新瓶颈

我们认为智能体 AI 时代 CPU 的变化具备三大特点:1)总体来看,任务链条与流程复杂化提升了 CPU 的重要性;2)工作负载复杂化,不同负载对 CPU 要求各异,在 RAG、ChemCrow 等场景中 CPU 已成核心瓶颈;3)并发量增加,进一步加剧 CPU 瓶颈约束,进而推动执行层对沙箱需求的增长。

智能体 AI 拥有更泛化的应用能力,正渐成主流。其以生成模型为基础,增加编排、记忆与目标导向行为,可规划多步任务、调用工具、迭代结果并在长流程中运行。据 OpenRouter 数据,至 2025 年底,推理产生的 Token 已超总量 50%,15% 的推理过程以“外部工具调用”结束。

图表 2:推理产生的 Token 数占比

资料来源:OpenRouter,中金公司研究部

图表 3:以“外部工具调用”结束的推理过程占比

资料来源:OpenRouter,中金公司研究部

多步骤、多工具调用的智能体 AI 导致任务流程复杂化。从工作流视角看,传统生成式 AI(如单轮对话大模型)输入输出流程简单、步骤少。但随着 AI 向智能体化演进,推理过程步骤繁杂、频繁调用不同工具及外部 API,使得作为任务编排核心的 CPU 重要性上升。

图表 4:智能体 AI 在编译器,任务执行流程,执行复杂度方面的变化

资料来源:A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI(Georgia Institute of Technology,Intel,2025 年),中金公司研究部

智能体 AI 任务中工具处理需求的出现,使 CPU 在部分负载场景下成为新瓶颈。在大语言模型执行方式下,推理流程为:推理 1—工具调用 1—推理 2—工具调用 2—推理 3……,由于系统须待 LLM 生成完整工具调用 Token 后才执行,导致 GPU 空转(等待工具返回)和工具空转(等待指令),因此需 CPU 进行处理。这使得系统从原以 GPU 为核心转变为 CPU 在工具处理上重要性大增。《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》论文列举了不同负载延迟表现,显示 CPU 上的工具处理可能占据端到端延迟大部分,行业优化重点转向以 CPU 为核心。

图表 5:在没有部分工具调用的情况下,会形成 GPU 空转带来延迟

资料来源:Conveyor:Efficient tool-aware llm serving with tool partial execution(Duke University,2024 年),中金公司研究部

图表 6:不同工作负载下端到端运行的延迟情况,CPU 已经成为了核心瓶颈

资料来源:A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI(Georgia Institute of Technology,Intel,2025 年),中金公司研究部

动态视角下,随并发任务增加,CPU 超额订阅将更严重。随着批处理大小及输入输出 Token 长度增加,在不同负载下 CPU 作为瓶颈的影响逐渐增大。即用户数或并发任务增加会提高对 CPU 核心数要求。例如当 Batch-size 达 128 时,系统需同时调度数百个工具执行进程,CPU 核心数成新短板。而增加 CPU 资源在改善延迟和提高系统效率方面效果显著。

图表 7:增加 CPU 资源的分配可以减轻延迟

资料来源:Characterizing CPU-Induced Slowdowns inMulti-GPU LLM Inference(Georgia Institute of Technology,2026 年),中金公司研究部

图表 8:分配更多的 CPU 核心可以缩短高利用率时间

资料来源:Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference(Georgia Institute of Technology,2026 年),中金公司研究部

沙盒执行层:驱动多核并发与硬件虚拟化需求增长

复杂智能体任务引发沙箱需求快速增长。在企业级应用中,为确保系统安全与环境纯净,系统会针对每个外部工具调用请求,瞬时创建并随后销毁独立的微型虚拟机或容器,即沙箱 [1]。从当前任务分类看,除少数只读、纯 API 调用或本地调试任务外,涉及自主执行代码或调用外部工具的任务,沙箱在安全、效率控制及环境一致性等方面优势明显,不可或缺。

图表 9:多智能体架构中,执行智能体利用虚拟机(VM)作为沙箱来运行代码

资料来源:The Rising CPU:GPU Ratio in AI Infrastructure:Drivers,Trends,and Implications(Intel,2026 年),中金公司研究部

沙箱消耗 CPU 硬件虚拟化指令集(如 Intel VT-x/AMD-V)性能,更对 CPU 物理核心数提出线性增长需求。当系统面临同时执行数十个网页抓取、代码编译或数据清洗等并发任务时,庞大的物理核心数是实现横向扩展、降低任务间上下文切换损耗的唯一解,因此对 CPU 调度能力要求更高。而 CPU 核数决定了能开启多少个沙箱(即并行环境)。

图表 10:智能体 AI 对沙箱的需求

资料来源:微软,中金公司研究部

综上可见,训练和简单推理对 CPU 需求处于次要地位,核心在于智能体 AI。随着其快速发展及多步骤复杂推理任务比重难度增加,对任务编排调度要求持续提高,进而引发 CPU 需求增加及未来 GPU:CPU 配比变化的探讨,本章节从两个维度尝试测算。

我们预计 2030 年全球 CPU 市场规模将突破 1300 亿美元

CPU 在单台 AI 服务器中的配比将提升,从而提高系统边际效率。从第一章对 CPU 需求的分析可见,过去 AI 服务器中 CPU 在数量、核数等方面已无法满足需求,为保持高吞吐量,服务器架构需显著提升 CPU 核心数和缓存性能,导致 CPU 在整体算力采购成本中占比提高。因此我们预计 CPU 需求将迎来增长。

配比的具体数字是关键。聚焦几家 CPU 厂商最新表述:1)英特尔:CEO 陈立武在 1Q26 业绩会上提到 CPU:GPU 配比有望从 1:8/1:4 进一步提升;2)AMD:1Q26 业绩会上苏姿丰预计全球服务器 CPU 市场有望在 2030 年达 1200 亿美元规模;3)ARM:4Q26 业绩会上 CEO 预计全球服务器 CPU 市场有望在 2030 年超 1000 亿美元规模。

需指出的是,当前对 GPU:CPU 配比并无一致结论。由于现有服务器架构较固定,预计推理服务器中仍将以 2 个 GPU 配 1 个 CPU 方式配置;但考虑到智能体 AI 需求,纯 CPU 机柜也将陆续部署,因此综合来看,CPU:GPU 配比将从目前 8 卡服务器中 1:4 的比例逐渐提升,2030 年或将达 1:1 甚至更多。

基于 1:1 的中性假设倒推,我们测算至 2030 年全球 CPU 市场规模将超 1300 亿美元。核心假设包括:1)全球算力卡预计 2030 年达 4240 万颗;2)AI 服务器 CPU:GPU 配比 2030 年达 1:1;3)AI 服务器 CPU 单价随核心数增加、性能提升及代工升级,2026-2030 年增幅在 16%。

图表 11:数据中心 CPU 市场规模测算

注:图中 CPU 价格为预估,并不代表实际售价

资料来源:BBG,各公司官网,中金公司研究部

总量:当前情境下智能体 AI 对 CPU 新增需求超过 800 万颗

我们测算智能体 AI 当前情景下对 CPU 的新增需求约为 840 万颗。从需求端测算 CPU 较为复杂,我们简化后通过并发任务数量形式,讨论智能体 AI 对 CPU 的拉动作用。测算核心思路为:1)通过日活用户数或日均 Token 消耗量预估并发任务数量;2)对任务按复杂度分配核心参数,包括任务占比、占用核数、调用智能体数量等;3)分四种情况计算对应 CPU 核数需求;4)测算所需 CPU 数量。

图表 12:智能体 AI 对 CPU 额外需求测算

资料来源:各公司官网,中金公司研究部

结构:CPU 应用场景需求进一步细化

从技术发展趋势看,作为新操作系统“调度器”的 CPU 升级趋势主要有:1)更强的单核性能以降低单次推理延迟;2)更大的内存带宽和更强的 I/O 能力以调度更长上下文及管理海量数据;3)更多核心数以支持高并发查询及虚拟化。

图表 13:智能体 AI 下数据中心 CPU 三大应用场景

资料来源:各公司官网,中金公司研究部

由于 CPU 产能分配存在模糊性,缺乏供给侧较好测算,但从定性视角看,智能体 AI 等需求对 CPU 拉动持续增长,导致 CPU 市场出现一定程度缺货涨价。

受供需缺口影响,我们认为 2026 年服务器 CPU 涨价趋势可持续。截至 2026 年 5 月,我们观察到 Intel 服务器 CPU 在 2 月、3 月已历两次涨价,涨幅在 5-15% 之间,同时部分型号 CPU 交期持续拉长,侧面体现需求增长。

►需求侧来看,如前所述,主要受益于 AI 推理需求增长,同时通用型服务器面临更新换代,预计 2026 年全球服务器出货量有望同比增长近 20%,未来智能体 AI 有望拉动 AI 及配套服务器需求加速增长。

►供给侧来看,AMD 和 Arm 均采用台积电先进制程代工,结合 GPU、ASIC 等算力芯片需求持续上修,台积电 2-5nm 制程订单旺盛,产能扩张有限,预计供需缺口将持续至 27 年。目前来看,AMD CPU 27 年产能供给仍有一定弹性。根据陈立武 5.19JPM 大会发言,英特尔 18A 良率每月稳步提升,有望在 26 年底前实现成熟良率目标。结合来看,预计供需缺口将持续至 27 年,2026 年服务器 CPU 有望迎来进一步涨价。

此外,受益于服务器 CPU 旺盛需求,服务器 CPU 配套芯片,如 PCIe retimer、PCIe switch 以及内存接口芯片等细分赛道,亦值得关注。

图表 14:Intel 产能预计

注:绿色为目前主力产能,统计截至 1Q26

资料来源:Intel 官网,中金公司研究部

未来十年,数据中心 CPU 演进路径不太可能回到单纯追求频率或核心数扩张的传统逻辑,而将围绕三条主线展开:数据带宽能力提升、任务分工专业化,以及与加速器深度融合。

► CPU 将进一步向高带宽数据设备演进。随着 AI 负载从单次张量计算扩展至大规模上下文管理与状态维护,预计内存通道数量、内存带宽密度和缓存容量重要性将持续上升。LPDDR 在数据中心的采用、SOCAMM 模组发展,以及更高通道数 DDR 设计,均指向一个方向:隐藏内存延迟、提升带宽密度、支撑大容量上下文成为核心目标。我们认为未来竞争焦点将不再仅是每核心性能,而是数据 fabric 组织能力与片上网络带宽。

► CPU 将持续分化以匹配不同工作负载,朝三类方向并行发展:1)高单核性能、高内存带宽、与 AI 加速器保持一致性互连的紧耦合型 CPU;2)面向 KV-cache 管理、网络分层与数据路径处理的 DPU/数据平面型 CPU;3)高核心密度、重吞吐的云型 CPU。这种分化说明 CPU 并未被 GPU 替代,而是在 AI 体系中承担更专业化的角色。

图表 15:NVIDIA BlueField-4 将 Grace CPU 与 NIC 协同封装

资料来源:英伟达官网,SemiAnalysis,中金公司研究部

图表 16:英伟达发布 Vera CPU 机柜

资料来源:英伟达官网,中金公司研究部

► CPU 与加速器边界可能进一步模糊。APU 架构(如集成 CPU+GPU 设计)可能减少独立 head node 需求;部分 RL 训练负载可能迁移至具备本地环境执行能力的专用加速器;同时,内存池化与 CXL 扩展可能降低传统每机架必配独立 CPU 的绑定比例。从更长远角度看,CPU 甚至可能嵌入交换芯片或数据中心网络核心之中,成为数据流调度的基础控制单元。

我们认为,未来 CPU 的价值不在于替代 GPU,而在于承载系统复杂性。在 AI 2.0 时代,模型能力提升带来更多交互、更长上下文与更多外部调用,CPU 作为通用执行与控制单元,仍将是维持系统可扩展性的基础组件。其形态可能变化,但其在计算体系中的核心地位不会消失。

目前,全球服务器 CPU 市场中 Arm 市占率不到 20%,仍以 x86 架构为主。

X86 vs Arm:x86 生态成熟度仍较为领先,Arm 在云端推理份额预计将持续增长。智能体类产品拥有高并发、持续运行、大量轻量级推理请求(比如多轮对话、工具调用、规划推理等)的特点,ARM 精简指令集的功耗效率占优,可以支持更多核心处理并发请求,适用于高吞吐的推理 serving。

x86 在生态成熟度上仍然保持领先优势。大量推理框架在 x86 上优化更成熟,部分指令集对矩阵运算有专门加速,因此我们认为对于较大模型运行、混合精度计算或和传统软件栈深度集成的场景下,x86 的兼容性和工具链优势明显。

总结来说,Arm 架构的 CPU 因为高能效比在 CSP 中获得大规模部署,为 CSP 自有业务、有能力为 Arm 架构进行软件优化的客户提供更具性价比的选择;x86 CPU 的服务器具有更完整的生态和极强的兼容性,对中小型企业意味着开箱即用的通用性与最低的迁移摩擦,具有广泛而稳定的需求。我们预计随着智能体 AI 带动 AI 服务器 CPU 配比提升,以及 ARM 在 CSP 厂商及企业级客户的持续突破,在 2030 年全球服务器 CPU 市场中占比有望接近一半。

图表 17:x86 vs ARM 市场规模预测及份额

资料来源:IDC,中金公司研究部

CPU 需求不及预期。CPU 需求主要来自智能体 AI 趋势下各场景的应用。若智能体 AI 进展不及预期,或 CPU 在服务器集群中配比提升程度不及预期,或各大云厂商资本开支节奏放缓,CPU 的需求增速或不及预期。

市场竞争加剧。服务器 CPU 市场主要分为 x86 与 Arm 两大阵营。若 x86 与 Arm 架构竞争加剧,x86 阵营内 AMD 与 Intel 竞争加剧,Arm 阵营内各厂商与云厂商自研 CPU 竞争加剧,或将引发份额争夺与价格压力。

上游产能供应紧张。CPU 上游供应链涉及环节众多。若先进制程及先进封装产能持续紧张,晶圆供应紧张,内存等关键配套器件供应紧张,薄膜沉积、量测检测等关键设备供应受限,CPU 的产能供应及市场增长或将遇到瓶颈。

[1] 一个与宿主机(Host OS)严格隔离的、受限的虚拟化计算环境(通常基于 Docker 容器或更轻量级的 MicroVM,如 Firecracker)。当需要运行代码时,它会将代码发送到 Sandbox 中执行,而不是在系统现有的环境中运行。