标签

AI算力转向推理,CPU配置迎来上行

发布时间:2026-04-28 02:04来源:微信阅读:5

AI算力的重心正从训练阶段逐步转向推理环节,国产算力底座的再搭建,已成为当前算力与芯片相关板块最关键的产业走向。

本文着重梳理了英特尔关于CPU/GPU配比变化的公开数据(由1:8调整到1:1,甚至出现2:1的情况),并进一步解读DeepSeek V4对华为CANN架构的系统性适配所带来的战略意义。

算力重构:从GPU单核主导到CPU-GPU协同发力,DeepSeek V4如何重新定义国产算力的新“底座”

就在近日,全球人工智能产业出现了明显的结构性转向。DeepSeek V4的发布,以及其对华为昇腾CANN生态的全面契合,意味着一款万亿参数级大模型的落地,同时也将推动AI算力逻辑发生根本性的重塑。

此前讨论AI算力时,通常把关注点放在GPU的浮点计算能力;但当AI从“训练”迈向“推理”,从“模型”走向“智能体(Agent)”,算力天平就开始明显向另一侧倾斜。

算力架构的“关键支点”:从1:12到2:1的阶段性反转

在大模型“军备竞赛”的早期阶段,行业普遍选择“重训练”路线。彼时,GPU凭借并行计算优势承担海量数据的矩阵运算,而CPU更多负责数据加载与任务调度。在典型的数据中心体系里,GPU与CPU的配比曾一度达到12:1,CPU仿佛成为GPU算力金字塔中处于底端的配角。

但随着2026年AI产业进入“推理主导”的关键时期,这套架构正被迫进行一轮激烈的“心脏换位”式调整。

英特尔CEO陈立武在近期财报沟通中指出:当AI工作负载从训练切换到推理,CPU与GPU的配比正在加速向更均衡方向收敛,由1:8快速走向1:1;并且在更复杂的智能体(Agentic AI)场景下,还可能出现“2颗CPU带1颗GPU”的倒挂现象。

这种变化背后,本质来自AI应用形态的升级:

•推理阶段的“空中管控”:进入推理后,尤其是长上下文需求(如DeepSeek V4所覆盖的百万级窗口)更突出GPU计算瓶颈的缓解,而CPU反而成为新的瓶颈。CPU需要完成数据摄入、清洗、转换、批处理,以及KV缓存相关的调度。行业实测表明,在推理流水线中CPU的耗时占比可能高达90%。

•智能体时代的“逻辑中枢”:当AI从“输出一段文本”升级为“完成一项跨区域出差方案”,任务不再只是单纯运算,而是涵盖逻辑规划、工具调用以及多步回顾。此类场景下,GPU往往只在关键代码生成或推理片段介入;CPU则承担约50%至90%的任务组织工作,包括拆分流程、执行API调用和协调资源。

DeepSeek V4与CANN:国产算力的“破局”行动

若说CPU重要性的上升属于算力架构的“物理层”调整,那么DeepSeek V4联合华为CANN,则更像是对生态层的集中突破。

长期以来,中国AI产业常面临“缺芯少魂”的现实:高端模型仍高度依赖英伟达CUDA生态。但DeepSeek V4的推出打破了这种僵局。该旗舰模型具备万亿参数能力,并支持百万级上下文窗口,不仅实现了对华为昇腾950PR的全栈深度适配,也标志着国产大模型首次在底层架构层面完成对CUDA依赖的实质脱钩。

这并不是简单的“模型搬家”,而是跨越硬件、驱动、框架与模型四个环节的系统性工程:

•性能对标的底气:根据实测,在昇腾950PR上运行DeepSeek V4-Pro,其推理性能可达到英伟达特供版H20的2.87倍,并实现能耗降低40%。这表明国产算力底座在承载前沿大模型推理时,已具备与国际一流水平对齐的实力。

•生态闭环的成型:CANN作为华为AI异构计算架构,正在逐步成为国产算力的“操作系统”。DeepSeek V4的适配相当于为CANN生态注入了一个“杀手级应用”,既验证了国产芯片在复杂MoE(混合专家)结构下的高效表现,也为阿里、字节跳动等云服务商大规模切换国产算力提供了可参考的标杆方案。

从1:12到2:1的配比反转,折射出AI产业由“粗放式算力堆叠”向“精细化推理能力”演进;而DeepSeek V4与CANN的深度耦合,则进一步宣示中国AI正在从“软件层面的内部竞争”迈向“底层关键技术自主可控”的新阶段。