AI算力转向推理，CPU配置迎来上行

发布时间：2026-04-28 02:04阅读：22

AI算力的重心正从训练阶段逐步转向推理环节，国产算力底座的再搭建，已成为当前算力与芯片相关板块最关键的产业走向。

本文着重梳理了英特尔关于CPU/GPU配比变化的公开数据（由1:8调整到1:1，甚至出现2:1的情况），并进一步解读DeepSeek V4对华为CANN架构的系统性适配所带来的战略意义。

算力重构：从GPU单核主导到CPU-GPU协同发力，DeepSeek V4如何重新定义国产算力的新“底座”

就在近日，全球人工智能产业出现了明显的结构性转向。DeepSeek V4的发布，以及其对华为昇腾CANN生态的全面契合，意味着一款万亿参数级大模型的落地，同时也将推动AI算力逻辑发生根本性的重塑。

此前讨论AI算力时，通常把关注点放在GPU的浮点计算能力；但当AI从“训练”迈向“推理”，从“模型”走向“智能体（Agent）”，算力天平就开始明显向另一侧倾斜。

算力架构的“关键支点”：从1:12到2:1的阶段性反转

在大模型“军备竞赛”的早期阶段，行业普遍选择“重训练”路线。彼时，GPU凭借并行计算优势承担海量数据的矩阵运算，而CPU更多负责数据加载与任务调度。在典型的数据中心体系里，GPU与CPU的配比曾一度达到12:1，CPU仿佛成为GPU算力金字塔中处于底端的配角。

但随着2026年AI产业进入“推理主导”的关键时期，这套架构正被迫进行一轮激烈的“心脏换位”式调整。

英特尔CEO陈立武在近期财报沟通中指出：当AI工作负载从训练切换到推理，CPU与GPU的配比正在加速向更均衡方向收敛，由1:8快速走向1:1；并且在更复杂的智能体（Agentic AI）场景下，还可能出现“2颗CPU带1颗GPU”的倒挂现象。

这种变化背后，本质来自AI应用形态的升级：

•推理阶段的“空中管控”：进入推理后，尤其是长上下文需求（如DeepSeek V4所覆盖的百万级窗口）更突出GPU计算瓶颈的缓解，而CPU反而成为新的瓶颈。CPU需要完成数据摄入、清洗、转换、批处理，以及KV缓存相关的调度。行业实测表明，在推理流水线中CPU的耗时占比可能高达90%。

•智能体时代的“逻辑中枢”：当AI从“输出一段文本”升级为“完成一项跨区域出差方案”，任务不再只是单纯运算，而是涵盖逻辑规划、工具调用以及多步回顾。此类场景下，GPU往往只在关键代码生成或推理片段介入；CPU则承担约50%至90%的任务组织工作，包括拆分流程、执行API调用和协调资源。

DeepSeek V4与CANN：国产算力的“破局”行动

若说CPU重要性的上升属于算力架构的“物理层”调整，那么DeepSeek V4联合华为CANN，则更像是对生态层的集中突破。

长期以来，中国AI产业常面临“缺芯少魂”的现实：高端模型仍高度依赖英伟达CUDA生态。但DeepSeek V4的推出打破了这种僵局。该旗舰模型具备万亿参数能力，并支持百万级上下文窗口，不仅实现了对华为昇腾950PR的全栈深度适配，也标志着国产大模型首次在底层架构层面完成对CUDA依赖的实质脱钩。

这并不是简单的“模型搬家”，而是跨越硬件、驱动、框架与模型四个环节的系统性工程：

•性能对标的底气：根据实测，在昇腾950PR上运行DeepSeek V4-Pro，其推理性能可达到英伟达特供版H20的2.87倍，并实现能耗降低40%。这表明国产算力底座在承载前沿大模型推理时，已具备与国际一流水平对齐的实力。

•生态闭环的成型：CANN作为华为AI异构计算架构，正在逐步成为国产算力的“操作系统”。DeepSeek V4的适配相当于为CANN生态注入了一个“杀手级应用”，既验证了国产芯片在复杂MoE（混合专家）结构下的高效表现，也为阿里、字节跳动等云服务商大规模切换国产算力提供了可参考的标杆方案。

从1:12到2:1的配比反转，折射出AI产业由“粗放式算力堆叠”向“精细化推理能力”演进；而DeepSeek V4与CANN的深度耦合，则进一步宣示中国AI正在从“软件层面的内部竞争”迈向“底层关键技术自主可控”的新阶段。