标签

训练时代落幕:AI推理新纪元,科技巨头集体转向

发布时间:2026-04-24 07:57来源:新浪新闻阅读:5

在AI算力需求结构重构、争夺推理时代入场券的竞赛中,国产算力厂商正加大押注力度。

行业认知趋于统一,AI推理的临界点已然到来。英伟达创始人兼CEO黄仁勋指出,AI推理的规模,很快将达到训练负载的十亿倍。

AI推理芯片企业曦望董事长徐冰认为,2026年AI推理计算需求将达到训练需求的4—5倍,推理算力租赁价格半年涨幅近40%。

市场调研机构IDC则预计,到2028年推理工作负载占比将达到73%。随着OpenClaw智能体应用规模化铺开,将进一步推动算力需求向推理侧迁移。

头部厂商步调统一,种种动作表明,AI算力的焦点,已从训练逐步切换至推理,国产算力厂商无法忽视这一趋势。

AI运算主要包含两个阶段,首先是对模型进行训练,整个过程可能持续数天甚至数周;之后是利用训练好的模型响应实际请求,执行推理任务。训练属于一次性、集中式投入,对单卡峰值算力与集群规模敏感;推理则是长期性、分散式的运营成本,对延迟、并发和单位Token成本更为敏感。

伴随智能体在商用场景快速普及,推理算力始终是行业竞逐焦点,相较于传统对话式AI的单轮交互模式,智能体处理任务通常需多次推理、调用工具并维持长时记忆,单次任务Token消耗或达传统对话数十倍。

当前英伟达GPU虽主导训练领域,但大部分推理工作仍依赖CPU完成。GPU虽具备高速并行处理能力,可同时处理海量简单运算,但其核心优势体现在训练场景。

然而推理实际所需算力往往低于GPU峰值,却对内存容量提出更高要求。内存短缺将导致数据读取延迟,进而造成性能瓶颈,使用户等待时间延长,严重影响体验。

“用户对于AI推理延迟的要求极为严苛。”云服务商Akamai亚太区云架构负责人李文涛告诉21世纪经济报道记者,他介绍,以首个Token延迟为例,游戏玩家通常期望15毫秒内获得首个Token,电商场景约为20毫秒,智能体自助服务约50毫秒,客服机器人等应用约100毫秒。

各类场景对延迟的差异化需求,表明单一规格芯片难以适配所有负载,芯片设计需在吞吐量、延迟与成本间权衡。

黄仁勋指出推理Token价值正快速提升,市场已具备按响应速度分层收费的条件。其以程序员群体为例,高价值用户愿为低延迟Token支付溢价以提升效率。因此英伟达将Groq整合进CUDA生态系统,在常规高吞吐量路线之外,开拓响应速度优先但吞吐量受限的推理细分领域,满足对延迟敏感的高端应用需求。

华泰证券(19.080, -0.30, -1.55%)分析指出,云服务价格步入上涨周期,算力资源紧缺态势加剧。在此背景下,国产模型与硬件协同优化不断深入,国产加速卡与超节点方案正密集落地,国内算力市场景气度与国产化替代将持续提升。

面对推理需求的爆发式增长,谷歌成为最新布局的科技巨头。在Google Cloud Next26峰会期间,谷歌推出第八代TPU双新品,分别针对训练场景的TPU 8t与推理场景的TPU 8i,标志着TPU首次实现训练/推理架构分离。

其中TPU 8i引发市场高度关注,该芯片专注AI实时推理场景,主攻多智能体协作等复杂应用,为提升任务响应速度,TPU 8i重点优化内存配置与片上数据吞吐,减少数据传输时延,并增强多芯片通信效能。

谷歌方面表示,通过架构优化,TPU 8i推理性价比提升近八成,意味着同等成本下,企业可承载更大规模AI并发请求。

谷歌云AI与基础设施CTO Amin Vahdat表示:“伴随AI智能体兴起,我们认为芯片若能针对训练与服务需求定制,整个生态都将获益。”

国际巨头纷纷布局,本土算力企业亦紧随技术潮流。可见中国企业并未盲目追随海外巨头,而是依托自身技术基础与本土应用场景,探索出符合本土需求的特色化路径。

当前中国AI训练与推理需求呈现爆发态势,全国总算力规模已升至全球第二,占全球总量逾三成。国际投研机构Bernstein指出,华为昇腾、寒武纪(1323.000, -14.00, -1.05%)思元等国产AI芯片正快速崛起,市场地位稳步提升。

技术层面,华为推理产品采用Prefill-Decode解耦设计。

寒武纪则聚焦训推一体架构与生态。寒武纪硬件已演进至第五代MLUarch微架构,7nm思元590芯片集群FP16算力达2.048PFLOPS,支持Chiplet异构集成与MLU-Link 8卡互联,性能可对标国际主流产品。新一代微架构与指令集持续迭代,聚焦大模型训推场景优化。

寒武纪技术路径双核驱动。其一为自研指令集,自2016年起已演进至第四代商用指令集,统一指令集支持训练与推理,覆盖云端、边缘及终端,为构建统一软件生态奠定底层基础。其二为训推一体软件平台Cambricon NeuWare整合底层软件栈,与TensorFlow、PyTorch等主流框架深度集成,以压缩模型从研发到部署的周期。目前思元590已在头部互联网公司千卡集群中实现商用。

除华为与寒武纪外,其他本土厂商亦在推理领域实施差异化战略。摩尔线程(605.620, -23.08, -3.67%)等企业持续深耕通用GPU路径,在推理场景中聚焦多卡互联与软件工具链技术突破;曦望等AI芯片企业则专注垂直场景,提升效率、压降成本,如推荐系统、长文本推理、端侧部署等,力求在巨头主导的通用市场外开辟新空间。

更具挑战性的在于生态建设。CUDA历经近二十年发展,已形成覆盖编程模型、核心库、分布式框架、优化工具、推理引擎及主流框架原生支持的完整生态,构成英伟达最坚实的壁垒。华为此前宣布CANN编译器与Mind系列套件将于2025年底前开源,寒武纪亦在持续开放NeuWare工具链,旨在降低开发者迁移门槛。

(作者:彭新 编辑:倪雨晴,朱益民)