AI云端博弈与推理优化策略
AI云端博弈与推理优化策略
全文摘要 1、AI云行业竞争格局 ·AI云玩家分类:AI云服务提供商可依据核心业务划分为两大主要赛道,各赛道领军企业格局已定。GPU租赁赛道的关键参与者包括CoreWeave、Nebius、Lambda,其主营业务为出租GPU算力资源。推理服务赛道的核心力量有Baseten、Firework,专注于提供推理相关服务。目前,GPU租赁与推理服务的界限正逐渐模糊,部分租赁厂商不断升级软件能力,而AI应用公司同时也成为租赁厂商的客户,推理服务的具体定义及两类业务的关联成为行业焦点。 ·传统云与AI原生云差异:传统云厂商与AI原生云厂商在成本架构、定价策略、服务特性及目标客户方面存在显著区别,主要对比如下: a. 成本与定价差异:以AWS为代表的传统云厂商GPU租赁价格偏高,单价通常比市场价高出2至4倍,且包含多项额外费用,如跨区域数据传输费高昂;部分初期无自有算力、基于AWS构建服务的推理厂商,因底层成本远高于自有算力厂商,整体利润率较低。AI原生云厂商定价优势明显,部分厂商价格甚至低于头部同行的底价,且无额外传输费,支持按分钟计费,规则透明。 b. 服务能力差异:传统云厂商的基础设施经过全面优化,网络传输快、存储强,配套服务完善,涵盖EKS、EC2等多元产品,能满足复杂需求;AI原生云厂商更贴合AI开发场景,交互流程更便捷。 c. 适用场景差异:AI原生云性价比高、使用灵活,更受初创企业及AI开发者欢迎。 2、推理层软件优化与效率提升 ·核心优化技术路径:推理层软件优化主要涉及四大核心技术方向,各方向的优化逻辑、效果及成熟度如下: a. 推理引擎优化:当前行业通用的推理引擎包括传统VR、VRM、STR、TensorRT(TRT)等,所有企业开展推理业务均需使用这些引擎,不同企业的优化效果差异显著,核心取决于技术研发团队的配置。具备核心研发能力的企业拥有STR核心贡献者、TRT及kernel、TRT LLM优化专项团队,可实现大模型推理吞吐量的更大提升,其他企业优化能力不足的主要原因是缺乏足够的专项研发人员,技术储备有限导致效果受限。不同模型的优化效果各异,头部企业整体可实现模型2至3倍的速度提升,例如经过优化的Kimi模型是当前速度最快的大模型,相关表现可通过公开人工智能分析平台查询。 b. 投机解码:这是当前重要的推理优化技术,其中成熟度较高的Eagle3技术可实现任意模型2倍以上提速;尚在验证阶段的DeepFlash技术可实现模型3至4倍提速,需更多时间验证成熟后推广。该技术的核心逻辑是训练出最优的speculator,核心衡量指标为accept rate与accept length,accept rate每提升10%,对应模型速度提升8%至10%,同时利润率同步提升8%至10%,可直接体现在GPU的token per minute(TPM)指标增长上,相关优化效果可通过与MiniMax的合作项目数据直观体现,随技术升级提升显著。 c. 量化技术:主流量化方案包括FP8与FP4两类,其中FP8量化几乎无效果损失,FP4量化的效果损失仅为1%至3%,处于可控范围。针对原生支持FP4的英伟达Blackwell(B200)系列芯片,FP4量化可实现更优的提速表现,整体而言量化技术可实现模型1.5至2倍的速度提升,针对新发布的大模型可提前获取并完成量化适配,在保障效果的前提下实现效率升级。 d. Flash Attention:该技术的核心发明者为相关团队创始人,技术迭代速度快,最新发布的Flash Attention Four在Flash Attention Two的基础上实现进一步优化,Flash Attention Three可适配H100等芯片,可大幅提升kernel运行效率,实现单卡吞吐量提升2倍。 上述四大类软件优化技术叠加应用后,单GPU节点的整体算力可提升10倍以上,是当前AI推理层效率提升的核心支撑。 ·优化后的盈利提升:当前海外市场英伟达B系列裸卡的租赁基础毛利率约为30%,该水平随芯片供需、迭代等市场情况存在一定波动。在叠加上述推理层软件优化技术后,裸卡租赁业务的毛利率可大幅提升至70%至90%,软件优化对盈利的拉动作用十分显著。软件优化带来的效率提升可直接转化为盈利能力的增长,核心逻辑在于优化技术可直接提升GPU的token per minute(TPM)指标,在硬件投入成本相对固定的前提下,单位GPU可承载的推理输出量大幅提升,直接带动利润率同步增长。 3、不同云厂商优化能力对比 ·传统云厂商优化能力:传统云厂商并未将通用推理服务作为核心成熟业务,虽具备基础的instance供给能力,但未针对具体开源模型做深度推理优化,仅开放通用调用接口,相关服务未形成规模化成熟体系。AI开发者及创业公司选择推理服务供应商时,会优先考虑Together AI、Fireworks AI、Base Ten等专业推理厂商,传统云厂商的相关服务存在价格缺乏竞争力、配套服务不完善等明显短板。推理服务的低价策略不具备长期普适性,部分较低定价可能仅为营销性质,若无足够需求规模与持续调用请求支撑,厂商难以长期维持低价供给。 ·闭开源模型服务差异:推理服务运营及闭开源模型的相关合作模式存在以下差异: a. 运营策略:多数模型刚上线时热度较高,盈利性较好,但经过112个月后热度下降易出现亏损,厂商可通过低价策略吸引用户,引导其转向专属GPU服务,通过连续、大量的请求提升GPU利用率以摊薄成本。 b. 闭源模型:核心推理优化工作由厂商自主完成,Anthropic等闭源大模型厂商会预先完成模型层面的深度优化,与云厂商合作时,仅提供打包好的镜像、专属密钥等内容,不允许云厂商接触模型核心代码;云厂商仅需提供集群、硬件资源与基础网络、路由等配套支持,无需参与模型层面的优化。部分闭源大模型为提升GPU利用率,可能采用量化等相对激进的操作,这是模型流量上升后出现“降智”问题的潜在原因。 c. 开源模型:推理优化可由第三方服务商完成,为专业推理服务厂商提供了充足的市场空间。 ·AI原生云核心价值:CoreWeave等AI原生云厂商的核心竞争力首先来自底层硬件资源,硬件资源价值占AI云服务总价值的85%,是当前阶段的核心壁垒,在现阶段市场算力供给短缺的背景下,激进拿卡获得的算力容量是这类厂商的核心优势。长期来看,硬件基础之上的软件优化、基础设施调度能力是提升毛利率的重要手段,可在现有硬件的利润基础上进一步抬升盈利空间,但软件优化本身不构成核心壁垒。若云厂商的主力服务对象为闭源模型,其在软件层面可开展的优化空间较为有限,但这类厂商往往SOP更成熟,整体服务效果可能更好,基础设施调度能力也是影响云厂商服务能力的重要因素。 4、基础设施层优化与盈利测算 ·基础设施核心优化方向:基础设施层优化是保障AI业务稳定运行的核心前提,核心优化要点涵盖集群稳定性、通信能力、存储可靠性三大维度,各维度配置水平直接决定AI服务运行效率。a. 通信与存储配置是核心基础:AI集群通信层需基于InfiniBand架构搭建,配套使用NCCL、RDMA、共享存储等集群组件,上述组件的可靠性需充分保障,配置不到位会引发系列运行故障。若基础设施稳定性不足,会直接影响GPU的可用性,单节点故障修复周期可达2天,期间节点完全无法使用,严重拖累AI训练、推理任务推进。当前部分仅拥有算力卡资源的厂商,比如拥有算力卡资源但基础设施能力薄弱的iron,其服务稳定性极差,因通信层、存储层配置不完善,经常出现模型下载相关的共享存储故障,难以满足大规模AI业务的运行需求。b. 不同厂商基础设施能力差异显著:CoreWeave拥有成熟稳定的硬件适配名单及标准化RDMA接口,在其提供的算力资源上开展AI训练、推理业务的稳定性远高于其他普通厂商。 ·GPU租赁盈利测算:当前GPU租赁业务依托上游算力资源合作开展,核心盈利