中金：AI 推理新时代，CPU 核心地位重估

发布时间：2026-05-22 13:37阅读：25

中金点睛

随着智能体 AI 的迅猛崛起，CPU 在推理阶段的角色正面临重新定义。本文深入剖析了 CPU 需求增长的驱动因素、市场规模预测及竞争态势，旨在探索其未来发展空间。尽管短期内的配置比例尚存变数，但长期来看，CPU 地位的回升具备充分合理性。

为何 CPU 需求将显著增长？在大模型训练期，以 GPU 为核心的矩阵算力是决定模型上限的关键，行业焦点也多集中于 FLOPs 等 GPU 性能优化。然而自 2025 年下半年起，局势发生两方面转变：1）训练端，强化学习地位凸显，使得 CPU 与 GPU 的配比成为系统关键指标；2）推理端主要体现为三大领域：a）推理宿主 CPU，协助 GPU 进行任务调度与利用率优化，甚至承接简单推理任务，形成对 GPU 的部分替代；b）编排节点 CPU，在复杂的智能体任务中作为独立节点负责逻辑运算与任务编排；c）沙盒执行层，随并发任务激增而带来的 CPU 刚性需求。

AI 驱动下，CPU 市场空间几何？我们从两个维度测算：1）中性假设下，若 CPU 与 GPU 配比为 1:1，预计至 2030 年全球 CPU 市场规模将突破 1300 亿美元；2）在当前智能体 AI 情景下（5 亿日活或日均 3000 亿 token），测算出 CPU 新增需求约 840 万颗。从技术演进看，作为新操作系统“调度器”的 CPU 将朝向更强单核性能、更大内存带宽、更强 I/O 能力及更多核心数升级。长远而言，数据中心 CPU 迭代将围绕数据带宽提升、任务分工专业化及与加速器深度融合三条主线。此外，面对需求的快速攀升，我们认为 2026 年服务器 CPU 的涨价趋势有望延续。

竞争格局：x86 与 Arm 谁主沉浮？目前全球服务器 CPU 市场中 Arm 占有率不足两成，x86 架构仍占主导。鉴于智能体类产品具有高并发、持续运行及大量轻量级推理请求等特征，Arm 精简指令集在功耗效率上优势明显，能支持更多核心处理并发请求，适用于高吞吐推理服务，预计其市场份额将逐步提升。

风险提示：CPU 需求不及预期，市场竞争加剧，上游产能供应紧张。

伴随推理需求的持续增长，关于服务器系统从以 GPU（矩阵计算）为核心转向重视 CPU（任务编排等）的讨论日益热烈。我们认为，长期来看服务器内部异构系统化将是必然趋势。本文重点探讨四个问题：1）从需求视角看，本轮 CPU 需求提升的动因何在？2）类比存储行业变化，当前 CPU 市场供需呈现何种状态？3）放眼长远，CPU 未来发展趋势如何？4）CPU 市场竞争格局怎样？

在大模型训练阶段，以 GPU 为核心的矩阵算力确是决定模型能力的关键，产业焦点也集中于 FLOPs 等 GPU 性能优化。但自 2025 年下半年起，两方面变化显现：1）训练端，强化学习重要性上升，使 CPU/GPU 配比成为系统关键指标之一；2）推理端主要体现在三方面：a）推理宿主 CPU，配合 GPU 优化任务调度与利用率，甚至执行简单推理，对 GPU 形成替代；b）编排节点 CPU，在复杂智能体任务中独立承担逻辑运算与编排；c）沙盒执行层随并发任务增加带来的 CPU 需求。

强化学习对 CPU/GPU 配比提出新挑战。不同于以往认为训练阶段 GPU 是唯一核心指标的观点，随着强化学习重要性提升，CPU 资源约束成为关注焦点。当前强化学习实践中，环境交互及硬件资源分配已成系统瓶颈，因需大量 CPU 运行模拟环境，CPU 不足会导致 GPU 空转。因此，合理设计 CPU/GPU 配比，使 CPU 线程数等于或大于 GPU SM 数量，成为重要方向。但从绝对量看，我们判断强化学习带来的 CPU 需求相对推理侧较为有限。

简单推理：成本视角下 CPU 对 GPU 的替代潜力

从成本角度考量，CPU 存在替代 GPU 的可能性。当前 GPU 仍处紧缺状态，高性能 GPU 无论是租赁价格还是缺货情况均未见明显缓解。训练场景难有其他芯片替代 GPU，但在推理场景，一方面对矩阵计算性能要求降低，另一方面在聊天机器人等简单推理任务中，业内已开始采用浮点性能较低的 RTX 系列等芯片。

鉴于 CPU 相比 GPU 具有显著价格优势，我们判断在部分简单推理任务中，CPU 可能一定程度替代 GPU 从而拉动需求。从海内外头部云厂商对 ASIC 芯片的推动及对定制化 CPU 的探索思路看，二者有异曲同工之妙。但这部分难以精确测算，且潜在空间有限。

图表 1：CPU 在推理中的重要性提升

资料来源：The Rising CPU：GPU Ratio in AI Infrastructure：Drivers，Trends，and Implications（Intel，2026 年），中金公司(33.840, -0.30, -0.88%)研究部

智能体 AI：Token 消耗占比攀升，复杂任务编排致 CPU 成新瓶颈

我们认为智能体 AI 时代 CPU 的变化具备三大特点：1）总体来看，任务链条与流程复杂化提升了 CPU 的重要性；2）工作负载复杂化，不同负载对 CPU 要求各异，在 RAG、ChemCrow 等场景中 CPU 已成核心瓶颈；3）并发量增加，进一步加剧 CPU 瓶颈约束，进而推动执行层对沙箱需求的增长。

智能体 AI 拥有更泛化的应用能力，正渐成主流。其以生成模型为基础，增加编排、记忆与目标导向行为，可规划多步任务、调用工具、迭代结果并在长流程中运行。据 OpenRouter 数据，至 2025 年底，推理产生的 Token 已超总量 50%，15% 的推理过程以“外部工具调用”结束。

图表 2：推理产生的 Token 数占比

资料来源：OpenRouter，中金公司研究部

图表 3：以“外部工具调用”结束的推理过程占比

资料来源：OpenRouter，中金公司研究部

多步骤、多工具调用的智能体 AI 导致任务流程复杂化。从工作流视角看，传统生成式 AI（如单轮对话大模型）输入输出流程简单、步骤少。但随着 AI 向智能体化演进，推理过程步骤繁杂、频繁调用不同工具及外部 API，使得作为任务编排核心的 CPU 重要性上升。

图表 4：智能体 AI 在编译器，任务执行流程，执行复杂度方面的变化

资料来源：A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI（Georgia Institute of Technology，Intel，2025 年），中金公司研究部

智能体 AI 任务中工具处理需求的出现，使 CPU 在部分负载场景下成为新瓶颈。在大语言模型执行方式下，推理流程为：推理 1—工具调用 1—推理 2—工具调用 2—推理 3……，由于系统须待 LLM 生成完整工具调用 Token 后才执行，导致 GPU 空转（等待工具返回）和工具空转（等待指令），因此需 CPU 进行处理。这使得系统从原以 GPU 为核心转变为 CPU 在工具处理上重要性大增。《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》论文列举了不同负载延迟表现，显示 CPU 上的工具处理可能占据端到端延迟大部分，行业优化重点转向以 CPU 为核心。

图表 5：在没有部分工具调用的情况下，会形成 GPU 空转带来延迟

资料来源：Conveyor：Efficient tool-aware llm serving with tool partial execution（Duke University，2024 年），中金公司研究部

图表 6：不同工作负载下端到端运行的延迟情况，CPU 已经成为了核心瓶颈

资料来源：A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI（Georgia Institute of Technology，Intel，2025 年），中金公司研究部

动态视角下，随并发任务增加，CPU 超额订阅将更严重。随着批处理大小及输入输出 Token 长度增加，在不同负载下 CPU 作为瓶颈的影响逐渐增大。即用户数或并发任务增加会提高对 CPU 核心数要求。例如当 Batch-size 达 128 时，系统需同时调度数百个工具执行进程，CPU 核心数成新短板。而增加 CPU 资源在改善延迟和提高系统效率方面效果显著。

图表 7：增加 CPU 资源的分配可以减轻延迟

资料来源：Characterizing CPU-Induced Slowdowns inMulti-GPU LLM Inference（Georgia Institute of Technology，2026 年），中金公司研究部

图表 8：分配更多的 CPU 核心可以缩短高利用率时间

资料来源：Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference（Georgia Institute of Technology，2026 年），中金公司研究部

沙盒执行层：驱动多核并发与硬件虚拟化需求增长

复杂智能体任务引发沙箱需求快速增长。在企业级应用中，为确保系统安全与环境纯净，系统会针对每个外部工具调用请求，瞬时创建并随后销毁独立的微型虚拟机或容器，即沙箱 [1]。从当前任务分类看，除少数只读、纯 API 调用或本地调试任务外，涉及自主执行代码或调用外部工具的任务，沙箱在安全、效率控制及环境一致性等方面优势明显，不可或缺。

图表 9：多智能体架构中，执行智能体利用虚拟机（VM）作为沙箱来运行代码

资料来源：The Rising CPU：GPU Ratio in AI Infrastructure：Drivers，Trends，and Implications（Intel，2026 年），中金公司研究部

沙箱消耗 CPU 硬件虚拟化指令集（如 Intel VT-x/AMD-V）性能，更对 CPU 物理核心数提出线性增长需求。当系统面临同时执行数十个网页抓取、代码编译或数据清洗等并发任务时，庞大的物理核心数是实现横向扩展、降低任务间上下文切换损耗的唯一解，因此对 CPU 调度能力要求更高。而 CPU 核数决定了能开启多少个沙箱（即并行环境）。

图表 10：智能体 AI 对沙箱的需求

资料来源：微软，中金公司研究部

综上可见，训练和简单推理对 CPU 需求处于次要地位，核心在于智能体 AI。随着其快速发展及多步骤复杂推理任务比重难度增加，对任务编排调度要求持续提高，进而引发 CPU 需求增加及未来 GPU：CPU 配比变化的探讨，本章节从两个维度尝试测算。

我们预计 2030 年全球 CPU 市场规模将突破 1300 亿美元

CPU 在单台 AI 服务器中的配比将提升，从而提高系统边际效率。从第一章对 CPU 需求的分析可见，过去 AI 服务器中 CPU 在数量、核数等方面已无法满足需求，为保持高吞吐量，服务器架构需显著提升 CPU 核心数和缓存性能，导致 CPU 在整体算力采购成本中占比提高。因此我们预计 CPU 需求将迎来增长。

配比的具体数字是关键。聚焦几家 CPU 厂商最新表述：1）英特尔：CEO 陈立武在 1Q26 业绩会上提到 CPU：GPU 配比有望从 1:8/1:4 进一步提升；2）AMD：1Q26 业绩会上苏姿丰预计全球服务器 CPU 市场有望在 2030 年达 1200 亿美元规模；3）ARM：4Q26 业绩会上 CEO 预计全球服务器 CPU 市场有望在 2030 年超 1000 亿美元规模。

需指出的是，当前对 GPU：CPU 配比并无一致结论。由于现有服务器架构较固定，预计推理服务器中仍将以 2 个 GPU 配 1 个 CPU 方式配置；但考虑到智能体 AI 需求，纯 CPU 机柜也将陆续部署，因此综合来看，CPU：GPU 配比将从目前 8 卡服务器中 1:4 的比例逐渐提升，2030 年或将达 1:1 甚至更多。

基于 1:1 的中性假设倒推，我们测算至 2030 年全球 CPU 市场规模将超 1300 亿美元。核心假设包括：1）全球算力卡预计 2030 年达 4240 万颗；2）AI 服务器 CPU：GPU 配比 2030 年达 1:1；3）AI 服务器 CPU 单价随核心数增加、性能提升及代工升级，2026-2030 年增幅在 16%。

图表 11：数据中心 CPU 市场规模测算

注：图中 CPU 价格为预估，并不代表实际售价

资料来源：BBG，各公司官网，中金公司研究部

总量：当前情境下智能体 AI 对 CPU 新增需求超过 800 万颗

我们测算智能体 AI 当前情景下对 CPU 的新增需求约为 840 万颗。从需求端测算 CPU 较为复杂，我们简化后通过并发任务数量形式，讨论智能体 AI 对 CPU 的拉动作用。测算核心思路为：1）通过日活用户数或日均 Token 消耗量预估并发任务数量；2）对任务按复杂度分配核心参数，包括任务占比、占用核数、调用智能体数量等；3）分四种情况计算对应 CPU 核数需求；4）测算所需 CPU 数量。

图表 12：智能体 AI 对 CPU 额外需求测算

资料来源：各公司官网，中金公司研究部

结构：CPU 应用场景需求进一步细化

从技术发展趋势看，作为新操作系统“调度器”的 CPU 升级趋势主要有：1）更强的单核性能以降低单次推理延迟；2）更大的内存带宽和更强的 I/O 能力以调度更长上下文及管理海量数据；3）更多核心数以支持高并发查询及虚拟化。

图表 13：智能体 AI 下数据中心 CPU 三大应用场景

资料来源：各公司官网，中金公司研究部

由于 CPU 产能分配存在模糊性，缺乏供给侧较好测算，但从定性视角看，智能体 AI 等需求对 CPU 拉动持续增长，导致 CPU 市场出现一定程度缺货涨价。

受供需缺口影响，我们认为 2026 年服务器 CPU 涨价趋势可持续。截至 2026 年 5 月，我们观察到 Intel 服务器 CPU 在 2 月、3 月已历两次涨价，涨幅在 5-15% 之间，同时部分型号 CPU 交期持续拉长，侧面体现需求增长。

►需求侧来看，如前所述，主要受益于 AI 推理需求增长，同时通用型服务器面临更新换代，预计 2026 年全球服务器出货量有望同比增长近 20%，未来智能体 AI 有望拉动 AI 及配套服务器需求加速增长。

►供给侧来看，AMD 和 Arm 均采用台积电先进制程代工，结合 GPU、ASIC 等算力芯片需求持续上修，台积电 2-5nm 制程订单旺盛，产能扩张有限，预计供需缺口将持续至 27 年。目前来看，AMD CPU 27 年产能供给仍有一定弹性。根据陈立武 5.19JPM 大会发言，英特尔 18A 良率每月稳步提升，有望在 26 年底前实现成熟良率目标。结合来看，预计供需缺口将持续至 27 年，2026 年服务器 CPU 有望迎来进一步涨价。

此外，受益于服务器 CPU 旺盛需求，服务器 CPU 配套芯片，如 PCIe retimer、PCIe switch 以及内存接口芯片等细分赛道，亦值得关注。

图表 14：Intel 产能预计

注：绿色为目前主力产能，统计截至 1Q26

资料来源：Intel 官网，中金公司研究部

未来十年，数据中心 CPU 演进路径不太可能回到单纯追求频率或核心数扩张的传统逻辑，而将围绕三条主线展开：数据带宽能力提升、任务分工专业化，以及与加速器深度融合。

► CPU 将进一步向高带宽数据设备演进。随着 AI 负载从单次张量计算扩展至大规模上下文管理与状态维护，预计内存通道数量、内存带宽密度和缓存容量重要性将持续上升。LPDDR 在数据中心的采用、SOCAMM 模组发展，以及更高通道数 DDR 设计，均指向一个方向：隐藏内存延迟、提升带宽密度、支撑大容量上下文成为核心目标。我们认为未来竞争焦点将不再仅是每核心性能，而是数据 fabric 组织能力与片上网络带宽。

► CPU 将持续分化以匹配不同工作负载，朝三类方向并行发展：1）高单核性能、高内存带宽、与 AI 加速器保持一致性互连的紧耦合型 CPU；2）面向 KV-cache 管理、网络分层与数据路径处理的 DPU/数据平面型 CPU；3）高核心密度、重吞吐的云型 CPU。这种分化说明 CPU 并未被 GPU 替代，而是在 AI 体系中承担更专业化的角色。

图表 15：NVIDIA BlueField-4 将 Grace CPU 与 NIC 协同封装

资料来源：英伟达官网，SemiAnalysis，中金公司研究部

图表 16：英伟达发布 Vera CPU 机柜

资料来源：英伟达官网，中金公司研究部

► CPU 与加速器边界可能进一步模糊。APU 架构（如集成 CPU+GPU 设计）可能减少独立 head node 需求；部分 RL 训练负载可能迁移至具备本地环境执行能力的专用加速器；同时，内存池化与 CXL 扩展可能降低传统每机架必配独立 CPU 的绑定比例。从更长远角度看，CPU 甚至可能嵌入交换芯片或数据中心网络核心之中，成为数据流调度的基础控制单元。

我们认为，未来 CPU 的价值不在于替代 GPU，而在于承载系统复杂性。在 AI 2.0 时代，模型能力提升带来更多交互、更长上下文与更多外部调用，CPU 作为通用执行与控制单元，仍将是维持系统可扩展性的基础组件。其形态可能变化，但其在计算体系中的核心地位不会消失。

目前，全球服务器 CPU 市场中 Arm 市占率不到 20%，仍以 x86 架构为主。

X86 vs Arm：x86 生态成熟度仍较为领先，Arm 在云端推理份额预计将持续增长。智能体类产品拥有高并发、持续运行、大量轻量级推理请求（比如多轮对话、工具调用、规划推理等）的特点，ARM 精简指令集的功耗效率占优，可以支持更多核心处理并发请求，适用于高吞吐的推理 serving。

x86 在生态成熟度上仍然保持领先优势。大量推理框架在 x86 上优化更成熟，部分指令集对矩阵运算有专门加速，因此我们认为对于较大模型运行、混合精度计算或和传统软件栈深度集成的场景下，x86 的兼容性和工具链优势明显。

总结来说，Arm 架构的 CPU 因为高能效比在 CSP 中获得大规模部署，为 CSP 自有业务、有能力为 Arm 架构进行软件优化的客户提供更具性价比的选择；x86 CPU 的服务器具有更完整的生态和极强的兼容性，对中小型企业意味着开箱即用的通用性与最低的迁移摩擦，具有广泛而稳定的需求。我们预计随着智能体 AI 带动 AI 服务器 CPU 配比提升，以及 ARM 在 CSP 厂商及企业级客户的持续突破，在 2030 年全球服务器 CPU 市场中占比有望接近一半。

图表 17：x86 vs ARM 市场规模预测及份额

资料来源：IDC，中金公司研究部

CPU 需求不及预期。CPU 需求主要来自智能体 AI 趋势下各场景的应用。若智能体 AI 进展不及预期，或 CPU 在服务器集群中配比提升程度不及预期，或各大云厂商资本开支节奏放缓，CPU 的需求增速或不及预期。

市场竞争加剧。服务器 CPU 市场主要分为 x86 与 Arm 两大阵营。若 x86 与 Arm 架构竞争加剧，x86 阵营内 AMD 与 Intel 竞争加剧，Arm 阵营内各厂商与云厂商自研 CPU 竞争加剧，或将引发份额争夺与价格压力。

上游产能供应紧张。CPU 上游供应链涉及环节众多。若先进制程及先进封装产能持续紧张，晶圆供应紧张，内存等关键配套器件供应紧张，薄膜沉积、量测检测等关键设备供应受限，CPU 的产能供应及市场增长或将遇到瓶颈。

[1] 一个与宿主机（Host OS）严格隔离的、受限的虚拟化计算环境（通常基于 Docker 容器或更轻量级的 MicroVM，如 Firecracker）。当需要运行代码时，它会将代码发送到 Sandbox 中执行，而不是在系统现有的环境中运行。

← 上一篇：联想 Q4 财报亮眼：营收劲增 27%，净利飙升近五倍下一篇：AI时代下"优秀员工"标准的重塑 →