AI推理崛起：从训练狂热到应用变现

发布时间：2026-06-13 20:01阅读：26

👆点击关注，让每个人都看见AI红利

前两年大家挂在嘴边的都是这个大模型多少亿参数，那个模型烧了多少块显卡，训练一次花了几千万美金。各路大厂像军备竞赛一样，不停地宣布自己的模型又大了多少倍，而今年这个声音明显弱下去了。

现在冒出来个新词叫"AI推理"——这个词你大概率听过。但大多数人只说了"推理比训练重要"，很少有人追问：推理赛道里，谁在真正赚钱？今天这篇文章就是把产业链上的几家纯血玩家翻出来。

简单理解，AI训练就是上大学。

一个大模型被投喂海量的数据，像学生一样一遍又一遍地学习、考试、纠错，最后顺利毕业，这个过程叫训练。它要花几年时间、烧掉天文数字的电费和算力，频率很低，，可能一年甚至更久才做一次。

而AI推理，就是上班干活。模型学成之后，被部署到各种软件里，用户每发一个问题，它就动用脑子里的知识快速回答你。这个过程叫推理。它不需要重新学习，只需要现场发挥。

现状：AI算力的增长重心，正在从训练向推理倾斜。

权威咨询机构德勤在《2026科技、传媒和电信行业预测报告》中明确指出：2026年，推理任务将占据全球AI总计算负载的三分之二，首次压倒训练，且这个趋势将持续深化。

中国市场自然不甘人后。根据IDC《中国人工智能算力发展评估报告》，到2027年我国推理算力占整体算力的比例将突破70%，到2029年有望接近八成。

这意味着，AI的算力重心，正在从过去那个“一次性、集中化”的过程，转向持续不断的、分布式的实时服务。

原因一，预训练的账越来越算不过来了。

这两年行业越来越认识到，靠无脑堆参数、堆数据，边际收益已经快速递减。每投进去一亿美金，带来的性能提升越来越小。高质量训练数据的获取难度显著增加，边际收益递减。继续押注大规模预训练的商业逻辑开始动摇，产业被迫把资源转向更有回报的推理环节。

原因二，推理是停不下来的真金白银。

训练花一次大钱，训练完了可以吃很多年老本。推理是每次调用都要实打实消耗资源。你现在用的每个AI应用，每给你回复一条内容，背后就是一次推理调用。随着AI应用越来越普及，推理消耗的算力必然持续攀升，而且规模越大，需求量越大。

原因三，推理成本在大幅降低，降低了使用门槛。

过去几年，主流大模型的API调用成本下降了整整一两个数量级。成本越低，涌入的应用场景就越多。应用越多，推理量的增长就越陡峭。

蛋糕在重新分配，自然有人受益。

推理算力的爆发，不是空中楼阁——它需要实实在在的芯片、服务器、软件和服务来承载。产业链上的每一个环节，都在被这股浪潮重新定价。

云天励飞的官方定位非常清晰：长期专注于AI推理芯片的研发设计及商业化。它是全球第一批提出NPU（神经网络处理器）驱动的AI推理芯片概念并成功商业化的公司之一。

2026年一季度营收5.62亿元，同比增长75.37%。产品矩阵上已经形成了三层覆盖：

曦云C系列：训推一体GPU，兼容CUDA生态，首款基于全国产工艺的曦云C600已于2025年底实现风险量产；下一代曦云C700据公司称性能接近英伟达H100，目前核心设计大部分完成，但尚待量产验证。

曦思N系列：专攻AI推理，曦思N100已于2023年量产。

曦彩G系列：图形渲染方向。

与之配套的MXMACA软件栈正全面开源，开发者社区已有近50万人。沐曦是典型的"训推一体"打法，两条腿同时踩在训练和推理两个主赛道上。

海光是国内唯一实现x86架构CPU和DCU（AI加速芯片）双芯规模化量产的企业。可以把它理解为国产算力产业链里的“卖铲人”。

在在信创（党政及八大关键行业）2027年底全面信创替代目标驱动下，国产化的替代空间极为广阔。海光CPU+DCU双轮驱动，正好踩中信创深化与AI算力爆发两大红利。

中科曙光不只是卖服务器。2025年年报显示，其软件开发、系统集成及技术服务收入达到24.46亿元，同比增长75.34%，毛利率高达47.25%。这部分高毛利的“卖服务”收入，正是AI推理应用规模化落地的直接印证。

此外，曙光手握6万卡规模的超集群并已上线对外服务，形成难以复制的标杆效应。

风险关注：地方政府智算中心建设节奏、应收账款较高。

去年这个行业还在比谁的模型更大。今天，风向彻底变了。

国际巨头英伟达、AMD也在全力转向推理优化——英伟达提出“Token工厂经济学”，把每瓦token吞吐量作为竞争核心；AMD MI350系列宣称推理性能提升3-5倍，但受出口管制影响，国产替代的空间被进一步打开。

推理芯片、推理服务器、算力服务、云平台整条产业链的钱，都在向一个方向流动：让AI不再只是实验室的参数，而是变成每个人的工具。

以前这笔钱都花在“上学”上。以后，绝大多数都要花在“上班”上。

点击关注👇，在喧嚣的时代理性独立思考