训练时代落幕：AI推理新纪元，科技巨头集体转向

发布时间：2026-04-24 07:57阅读：30

在AI算力需求结构重构、争夺推理时代入场券的竞赛中，国产算力厂商正加大押注力度。

行业认知趋于统一，AI推理的临界点已然到来。英伟达创始人兼CEO黄仁勋指出，AI推理的规模，很快将达到训练负载的十亿倍。

AI推理芯片企业曦望董事长徐冰认为，2026年AI推理计算需求将达到训练需求的4—5倍，推理算力租赁价格半年涨幅近40％。

市场调研机构IDC则预计，到2028年推理工作负载占比将达到73％。随着OpenClaw智能体应用规模化铺开，将进一步推动算力需求向推理侧迁移。

头部厂商步调统一，种种动作表明，AI算力的焦点，已从训练逐步切换至推理，国产算力厂商无法忽视这一趋势。

AI运算主要包含两个阶段，首先是对模型进行训练，整个过程可能持续数天甚至数周；之后是利用训练好的模型响应实际请求，执行推理任务。训练属于一次性、集中式投入，对单卡峰值算力与集群规模敏感；推理则是长期性、分散式的运营成本，对延迟、并发和单位Token成本更为敏感。

伴随智能体在商用场景快速普及，推理算力始终是行业竞逐焦点，相较于传统对话式AI的单轮交互模式，智能体处理任务通常需多次推理、调用工具并维持长时记忆，单次任务Token消耗或达传统对话数十倍。

当前英伟达GPU虽主导训练领域，但大部分推理工作仍依赖CPU完成。GPU虽具备高速并行处理能力，可同时处理海量简单运算，但其核心优势体现在训练场景。

然而推理实际所需算力往往低于GPU峰值，却对内存容量提出更高要求。内存短缺将导致数据读取延迟，进而造成性能瓶颈，使用户等待时间延长，严重影响体验。

“用户对于AI推理延迟的要求极为严苛。”云服务商Akamai亚太区云架构负责人李文涛告诉21世纪经济报道记者，他介绍，以首个Token延迟为例，游戏玩家通常期望15毫秒内获得首个Token，电商场景约为20毫秒，智能体自助服务约50毫秒，客服机器人等应用约100毫秒。

各类场景对延迟的差异化需求，表明单一规格芯片难以适配所有负载，芯片设计需在吞吐量、延迟与成本间权衡。

黄仁勋指出推理Token价值正快速提升，市场已具备按响应速度分层收费的条件。其以程序员群体为例，高价值用户愿为低延迟Token支付溢价以提升效率。因此英伟达将Groq整合进CUDA生态系统，在常规高吞吐量路线之外，开拓响应速度优先但吞吐量受限的推理细分领域，满足对延迟敏感的高端应用需求。

华泰证券(19.080, -0.30, -1.55%)分析指出，云服务价格步入上涨周期，算力资源紧缺态势加剧。在此背景下，国产模型与硬件协同优化不断深入，国产加速卡与超节点方案正密集落地，国内算力市场景气度与国产化替代将持续提升。

面对推理需求的爆发式增长，谷歌成为最新布局的科技巨头。在Google Cloud Next26峰会期间，谷歌推出第八代TPU双新品，分别针对训练场景的TPU 8t与推理场景的TPU 8i，标志着TPU首次实现训练/推理架构分离。

其中TPU 8i引发市场高度关注，该芯片专注AI实时推理场景，主攻多智能体协作等复杂应用，为提升任务响应速度，TPU 8i重点优化内存配置与片上数据吞吐，减少数据传输时延，并增强多芯片通信效能。

谷歌方面表示，通过架构优化，TPU 8i推理性价比提升近八成，意味着同等成本下，企业可承载更大规模AI并发请求。

谷歌云AI与基础设施CTO Amin Vahdat表示：“伴随AI智能体兴起，我们认为芯片若能针对训练与服务需求定制，整个生态都将获益。”

国际巨头纷纷布局，本土算力企业亦紧随技术潮流。可见中国企业并未盲目追随海外巨头，而是依托自身技术基础与本土应用场景，探索出符合本土需求的特色化路径。

当前中国AI训练与推理需求呈现爆发态势，全国总算力规模已升至全球第二，占全球总量逾三成。国际投研机构Bernstein指出，华为昇腾、寒武纪(1323.000, -14.00, -1.05%)思元等国产AI芯片正快速崛起，市场地位稳步提升。

技术层面，华为推理产品采用Prefill-Decode解耦设计。

寒武纪则聚焦训推一体架构与生态。寒武纪硬件已演进至第五代MLUarch微架构，7nm思元590芯片集群FP16算力达2.048PFLOPS，支持Chiplet异构集成与MLU-Link 8卡互联，性能可对标国际主流产品。新一代微架构与指令集持续迭代，聚焦大模型训推场景优化。

寒武纪技术路径双核驱动。其一为自研指令集，自2016年起已演进至第四代商用指令集，统一指令集支持训练与推理，覆盖云端、边缘及终端，为构建统一软件生态奠定底层基础。其二为训推一体软件平台Cambricon NeuWare整合底层软件栈，与TensorFlow、PyTorch等主流框架深度集成，以压缩模型从研发到部署的周期。目前思元590已在头部互联网公司千卡集群中实现商用。

除华为与寒武纪外，其他本土厂商亦在推理领域实施差异化战略。摩尔线程(605.620, -23.08, -3.67%)等企业持续深耕通用GPU路径，在推理场景中聚焦多卡互联与软件工具链技术突破；曦望等AI芯片企业则专注垂直场景，提升效率、压降成本，如推荐系统、长文本推理、端侧部署等，力求在巨头主导的通用市场外开辟新空间。

更具挑战性的在于生态建设。CUDA历经近二十年发展，已形成覆盖编程模型、核心库、分布式框架、优化工具、推理引擎及主流框架原生支持的完整生态，构成英伟达最坚实的壁垒。华为此前宣布CANN编译器与Mind系列套件将于2025年底前开源，寒武纪亦在持续开放NeuWare工具链，旨在降低开发者迁移门槛。

（作者：彭新编辑：倪雨晴,朱益民）

← 上一篇：AI赋能财政：从规划到落地有多远下一篇：深度解析：2025中国医务人员AI应用与循证决策新趋势 →