AI推理崛起:从训练狂热到应用变现
👆点击关注,让每个人都看见AI红利
前两年大家挂在嘴边的都是这个大模型多少亿参数,那个模型烧了多少块显卡,训练一次花了几千万美金。各路大厂像军备竞赛一样,不停地宣布自己的模型又大了多少倍,而今年这个声音明显弱下去了。
现在冒出来个新词叫"AI推理"——这个词你大概率听过。但大多数人只说了"推理比训练重要",很少有人追问:推理赛道里,谁在真正赚钱?今天这篇文章就是把产业链上的几家纯血玩家翻出来。
01
简单理解,AI训练就是上大学。
一个大模型被投喂海量的数据,像学生一样一遍又一遍地学习、考试、纠错,最后顺利毕业,这个过程叫训练。它要花几年时间、烧掉天文数字的电费和算力,频率很低,,可能一年甚至更久才做一次。
而AI推理,就是上班干活。模型学成之后,被部署到各种软件里,用户每发一个问题,它就动用脑子里的知识快速回答你。这个过程叫推理。它不需要重新学习,只需要现场发挥。
现状:AI算力的增长重心,正在从训练向推理倾斜。
权威咨询机构德勤在《2026科技、传媒和电信行业预测报告》中明确指出:2026年,推理任务将占据全球AI总计算负载的三分之二,首次压倒训练,且这个趋势将持续深化。
中国市场自然不甘人后。根据IDC《中国人工智能算力发展评估报告》,到2027年我国推理算力占整体算力的比例将突破70%,到2029年有望接近八成。
这意味着,AI的算力重心,正在从过去那个“一次性、集中化”的过程,转向持续不断的、分布式的实时服务。
02
原因一,预训练的账越来越算不过来了。
这两年行业越来越认识到,靠无脑堆参数、堆数据,边际收益已经快速递减。每投进去一亿美金,带来的性能提升越来越小。高质量训练数据的获取难度显著增加,边际收益递减。继续押注大规模预训练的商业逻辑开始动摇,产业被迫把资源转向更有回报的推理环节。
原因二,推理是停不下来的真金白银。
训练花一次大钱,训练完了可以吃很多年老本。推理是每次调用都要实打实消耗资源。你现在用的每个AI应用,每给你回复一条内容,背后就是一次推理调用。随着AI应用越来越普及,推理消耗的算力必然持续攀升,而且规模越大,需求量越大。
原因三,推理成本在大幅降低,降低了使用门槛。
过去几年,主流大模型的API调用成本下降了整整一两个数量级。成本越低,涌入的应用场景就越多。应用越多,推理量的增长就越陡峭。
03
蛋糕在重新分配,自然有人受益。
推理算力的爆发,不是空中楼阁——它需要实实在在的芯片、服务器、软件和服务来承载。产业链上的每一个环节,都在被这股浪潮重新定价。
云天励飞的官方定位非常清晰:长期专注于AI推理芯片的研发设计及商业化。它是全球第一批提出NPU(神经网络处理器)驱动的AI推理芯片概念并成功商业化的公司之一。
2026年一季度营收5.62亿元,同比增长75.37%。产品矩阵上已经形成了三层覆盖:
曦云C系列:训推一体GPU,兼容CUDA生态,首款基于全国产工艺的曦云C600已于2025年底实现风险量产;下一代曦云C700据公司称性能接近英伟达H100,目前核心设计大部分完成,但尚待量产验证。
曦思N系列:专攻AI推理,曦思N100已于2023年量产。
曦彩G系列:图形渲染方向。
与之配套的MXMACA软件栈正全面开源,开发者社区已有近50万人。沐曦是典型的"训推一体"打法,两条腿同时踩在训练和推理两个主赛道上。
海光是国内唯一实现x86架构CPU和DCU(AI加速芯片)双芯规模化量产的企业。可以把它理解为国产算力产业链里的“卖铲人”。
在在信创(党政及八大关键行业)2027年底全面信创替代目标驱动下,国产化的替代空间极为广阔。海光CPU+DCU双轮驱动,正好踩中信创深化与AI算力爆发两大红利。
中科曙光不只是卖服务器。2025年年报显示,其软件开发、系统集成及技术服务收入达到24.46亿元,同比增长75.34%,毛利率高达47.25%。这部分高毛利的“卖服务”收入,正是AI推理应用规模化落地的直接印证。
此外,曙光手握6万卡规模的超集群并已上线对外服务,形成难以复制的标杆效应。
风险关注:地方政府智算中心建设节奏、应收账款较高。
去年这个行业还在比谁的模型更大。今天,风向彻底变了。
国际巨头英伟达、AMD也在全力转向推理优化——英伟达提出“Token工厂经济学”,把每瓦token吞吐量作为竞争核心;AMD MI350系列宣称推理性能提升3-5倍,但受出口管制影响,国产替代的空间被进一步打开。
推理芯片、推理服务器、算力服务、云平台整条产业链的钱,都在向一个方向流动:让AI不再只是实验室的参数,而是变成每个人的工具。
以前这笔钱都花在“上学”上。以后,绝大多数都要花在“上班”上。
点击关注👇,在喧嚣的时代理性独立思考