标签

Token工厂:AI算力飞轮如何驱动20倍增长

发布时间:2026-06-20 18:02阅读:2

出品|虎嗅科技组

作者|陈伊凡

编辑|苗正卿

头图|AI生成

过去两年,Token的生产成本持续走低,但价格却稳步攀升。

看似矛盾的现象,实则源于Token商业模式的成熟与落地。

硬件与模型持续迭代,核心目标愈发一致:降低推理成本、提升算力效率。

与此同时,智能体系统日趋完善,业务闭环逐步形成。“真正靠AI赚钱的人,从不因价格退缩,只会想办法降本。”夏立雪说,他几乎瞬间得出这一结论,仿佛早已洞悉本质。作为无问芯穹联合创始人兼CEO,他所在的公司成立于2023年,与清华大学电子工程系渊源深厚,其业务在业内被称为“Token工厂”。

市场上难觅与无问芯穹模式雷同的企业。它精准卡位了一个此前被忽视的结构性机会——在AI需求激增催生的新生态中,扮演算力调度中枢。它不研发通用大模型,不造芯片,也不做C端应用,而是居于芯片与模型之间,高效调度稀缺算力,将其转化为可交易的Token。芯片商、模型方、应用方均需接入其Agentic Infra体系,由无问芯穹统一调度与分配。这是一种由先进软件与算法定义的新型商业模式。

这种独特架构,让无问芯穹比任何Token产业链参与者更早感知市场细微变化。

我在上海模速空间的会议室见到夏立雪,身穿黑色文化衫,语速飞快,谈及技术时进入“心流”状态。模速空间是上海AI创新核心,以无问芯穹为中心的两公里内,上下游企业密集汇聚。

据公司2024年5月披露,2023年12月至2024年4月,其Agentic MaaS平台Token调用量增长超20倍,创下行业罕见纪录。

这一数字背后,是现实的转折:推理,正成为远大于训练的市场。

过去三年,AI叙事聚焦训练:谁拥有更多GPU、训练出更大模型,谁就占据主导。算力竞赛逻辑简单粗暴:堆卡、堆电、堆钱。英伟达H100在黑市价格飙升,甚至需提前囤货。

但自2025年底起,逻辑悄然改变。2026年,推理数据量首次超越训练。据国际机构统计,2026年全球企业推理基础设施支出预计达680亿美元,训练支出为450亿美元。

当AI不再仅回答问题,而是执行复杂任务——写完整代码、审阅合同、追踪项目——其Token消耗量是对话场景的数十至上百倍。无问芯穹数据显示,其平台调用的Token中,95%以上来自智能体场景。

推理需求激增,正推动AI价值链重心下移。芯片商、模型方、云服务商均在重新定价,而位于中枢的基础设施商,正从“管道”演变为“工厂”,再升格为价值链中关键的Token生产力转化者。

衡量这家“工厂”效率,无问芯穹内部有一核心指标:每月产出多少有价值的万亿参数模型Token。该指标包含两部分:效率——单位时间Token产出量;稳定性——系统能否持续稳定运行。在万亿参数场景下,过去一两年,其性价比提升5至10倍。

在无问芯穹,有一公式:AI生产力=智能规模×Token生产效率×Token价值转化。

当Token业务实现商业闭环,就能持续输出更充足、稳定、高性价比的优质Token,赢得市场口碑,吸引用户涌入。

需求增长带来更丰富的场景反馈,从而优化技术路径;资源调度空间扩大,不同模型与芯片的组合优化潜力呈指数级增长——M种模型×N种芯片的适配空间持续扩大。

这也解释了为何智能体崛起对无问芯穹是乘数效应,而非简单叠加。

在这套机制下,飞轮已开始加速转动。

推理需求爆发,国产芯片与解决方案迎来全新机遇。这与以往“国产替代”叙事截然不同:中国厂商对成本的极致敏感与工程化能力,正赋予产业链全球竞争力。

AI算力市场的现实是:芯片种类激增,无一能通吃所有任务;模型规模膨胀,单机八卡已无法承载万亿参数,需集群协作;不同推理任务对延迟、吞吐、精度要求迥异。这些叠加,让“高效用好算力”成为复杂系统工程——而这,正是中国工程能力的优势所在。

这一判断在推理的P/D分离中得到验证。大模型推理分两阶段:prefill(预填充)负责理解输入,计算密集;decode(解码)负责逐字生成,通信密集、对延迟敏感。两类任务对芯片需求完全不同,催生新场景。

依托软硬协同技术积累,无问芯穹早年即深耕P/D分离,将任务精准分配至适配芯片——国产芯片已在prefill场景落地,意味着国产算力不再只是“能否用”,而是“在哪用最合适”“如何用得更好”。

无问芯穹将Token作为AI生产力公式核心变量,始于2026年,其优化目标从“用满芯片”升级为“让每个Token创造最大价值”——技术节省的成本直接转化为毛利,反哺研发,形成正循环。Token,正成为AI产业中最接近货币的单位:可生产、可消耗、可定价、可交易。

夏立雪用一个类比:Token爆发,如同移动互联网从3G迈向4G。

但他补充:4G时代最成功的应用,不是微信或淘宝,而是那些敢于在流量便宜后重构组织的公司。Token时代,真正颠覆格局的,未必是某款AI应用,而是那些用AI重构分工、实现人机协作的微型组织——十人、二十人,甚至单兵作战,效率却远超传统团队。

这类组织已悄然出现。“现在不缺场景,关键是能否接住需求。”

这句话引出无问芯穹下一步:突破纯Token工厂边界,切入Token价值转化环节。

虎嗅:当华为、中兴等系统厂商也用集群提升Token性价比,无问芯穹的壁垒何在?

夏立雪:表层壁垒在于软硬协同的深厚积累。我们基于系统算法做硬件适配,不绑定单一厂商或模型,能力覆盖全生态,是中立第三方,适配性强,场景通用。

其次,我们以全产业视角布局,将所有芯片产能作为优化变量,最大化生态中各主体价值。这不是单点优化,当生态复杂度提升——多模型、多芯片并存——我们的系统级优化能力便形成生态壁垒。

核心壁垒在于持续跟进前沿。从稠密模型到MoE优化,再到万亿参数扩展难题,我们早早布局P/D分离与半分离技术,现正研发凸显国产芯片优势的创新方案。

我们的壁垒不是单点领先,而是系统化、滚动式创新。

虎嗅:针对Token经济学,华为等提出“超节点”方案,无问芯穹如何构建中间优化层?

夏立雪:当前是算法牵引系统与硬件的时代。我们与芯片商目标一致:实现产业落地。只要能对接、跑通业务,就是健康生态。芯片商负责做好“产品说明书”,如何高效使用芯片,是我们作为行业专家的使命。国内各类芯片已出现类似CUDA的层,如CAN、SUCA、MARCA,我们的生态统一接入、调度、管理、分配,保障稳定,实现商业化闭环。

虎嗅:能否提供具体数据,说明客户使用你们方案后,Token成本下降多少?稳定性如何?

夏立雪:在万亿参数场景下,我们实现的Token每秒产能性价比较两年前提升5至10倍,源自软硬协同优化。

Token产能有两个维度:微观效率——单位时间产出量;宏观稳定性——避免频繁宕机。我们在两项指标上均表现优异,最直接证明是客户持续复购。

虎嗅:内部最关注的核心指标是什么?

夏立雪:最终归结为单位时间Token产出量,这是唯一检验标准。我们核心关注每月产出多少有价值的万亿参数模型Token。

该指标包含两部分:Token生产效率与可调度资源规模。软硬协同优化也涵盖系统稳定性,这点常被忽视,却至关重要。

当我们从技术团队转型为系统服务商,必须交付大规模持续稳定的服务,规模扩张必须以稳定性为根基。

虎嗅:2026年是推理大年,哪条业务线增长最明显?

夏立雪:以Agentic MaaS平台为例,2025年底至2024年5月,Token调用量增速超20倍。这种增长是健康、结构化的,多需求并存、分层演进,非单点爆发。

当前模型产业像金字塔底部向上突破,尖端应用不断拓展新场景:写代码、做设计、搞营销,未来或覆盖法律。推理需求激增带动全链健康发展,覆盖模型商、应用商、基础设施商乃至芯片商。

从经验看,全链路数字化、所有信号可闭环的任务与组织,将最快实现自我迭代,率先享受AI进化红利。

虎嗅:具体场景有哪些?举例说明?

夏立雪:代码生成最早爆发,因程序员最熟悉该场景,且全流程数字化。类似地,线上营销也具备完整数字记录。总体看,数字化基础好或互联网原生的场景,需求增长最快。

按复杂度划分,公司95%需求来自智能体场景——AI完成完整可交付任务,非简单对话。用户愿为生产力与结果付费,是良性趋势。代码生成赛道已实现AI协作:不同AI分工编写与质检,模式跑通,未来将扩展至更多行业。AI落地节奏良好,我们作为资源打通者也将收获价值。

虎嗅:这是否由OpenClaw引发拐点?

夏立雪:OpenClaw推出前需求已存在,它是产业成熟后的产物。核心是AI智能突破临界点——能处理子任务、具备长上下文记忆,才具备作为“大脑”指挥工作的基础。未来将涌现更多场景化产品。

虎嗅:无问芯穹公式中,如何通过这三个变量赚钱?飞轮如何转动?

夏立雪:Token业务在闭环产业中是极优模式。当优化能力足够强,就能提供更充沛、稳定、高性价比Token,赢得口碑,吸引用户。

需求增长带来真实场景反馈,明确技术价值;需求丰富则资源调度空间扩大,M×N组合优化潜力倍增。

需求越多、资源越足,优化能力越强;优化越强,服务越稳定、便宜、充足,吸引更多需求——飞轮由此启动。

虎嗅:这种精细化需求下,你们的商业模式是按结果收费还是按案例?

夏立雪:Token工厂模式已成熟,更倾向结果导向定价,即按Token计费。Token本身有差异,类似广告CPM。Token已成为贴近业务的定价指标,用户能直观感知价值,无需关心底层芯片。

以Token结算有双重优势:一是引导行业关注AI产出价值而非资源消耗,技术节省的成本直接提升毛利率,反哺研发,形成正循环;二是兼容跨行业差异,无需每行业定制计价,利于生态扩展。

虎嗅:推理大年,国产芯片机会大吗?

夏立雪:2026年行业普遍看好,国产芯片机会巨大。市场健康,各类需求缺口明显,当前任务是填补缺口。

虎嗅:Prefill与Decode分化,国产芯片在细分需求上有优势吗?

夏立雪:国产芯片已从“能否用”进入“好不好用”阶段。

当前算力需求多样:应用端有低延迟需求,也有容忍度高的;模型端有万亿参数挑战,也有千亿参数即可胜任的场景。

回到P/D细分:Prefill更契合国产芯片现状,因其为计算密集型;Decode则对访存、通信带宽、软硬件生态要求严苛得多。

虎嗅:若抛开国产化叙事,无问芯穹业务仍能高速增长吗?

夏立雪:到2026年,国内外市场无本质区别,均面临资源紧缺。我们所处赛道核心,正是解决供不应求。

虎嗅:你将Token增长比作3G到4G。4G催生微信、电商,Token 4G/5G时代,最可能爆发的AI应用是什么?

夏立雪:不是单一应用,而是AI型组织。一人公司难普及,但十人、二十人小团队,充分融合AI、人机协作的组织将大量涌现,这才是Token 4G时代真正的“应用”。

4G/5G时代移动应用特点是高流量消耗,基于流量充裕诞生。AI领域,不是某类应用用AI,而是某类组织用AI创造新成果。已完成数字化的赛道,将率先诞生原生AI组织。

虎嗅:这类AI组织已出现吗?

夏立雪:已大量存在。许多有趣组织将AI融入工作全流程,不同AI间交互,形成人机共生形态,它们产出的产品,正是AI 4G时代最精彩的新兴产物。

虎嗅:AI快速发展,无问芯穹最大挑战是什么?未来潜在对手是谁?

夏立雪:核心仍是资源限制。表面看有两点:模型能否突破下一范式?距离AGI尚有一至两个范式差距,突破需海量资源。但短期内难有根本突破,AI已越过可用临界点,正拓展新场景,核心问题是能否接住需求——取决于资源是否充足、效率是否足够高。

关于对手,当前是需求远大于供给的市场,远未进入零和博弈。产业链上下游分工明确,各主体有独特禀赋,横向纵向皆有空间。只要创造价值,就能获利,产业竞争稀薄,自身发展才是关键。

虎嗅:若AI进入下一范式,当前模式还成立吗?

夏立雪:AI范式不会跳变,如5G后4G仍广泛应用,存在过渡期。若范式突破带来新基础设施,反而创造新机会。我们不怕难题——团队从成立起就瞄准最难技术问题,并找到了良好TMF(技术-市场适配)。

虎嗅:Token产业何时迎来类似通信5G的拐点?

夏立雪:用通信4G/5G类比AI不完全贴切。下一跳变有两种可能:一是模型发生范式跃迁,但方向尚不可测;二是成本降至极低水平。当前计费已从千Token降至百万Token,若再降1-2个数量级,将出现“流量包”“包月”式付费,产业模式将质变。

成本下降1-2个数量级有可行路径:深化软硬结合,优化模型结构、组合与硬件架构,提升匹配度,仍有1-2个量级优化空间。我们既在成本下降过程中创造价值,也在提前布局匹配未来生产关系的新产品与能力。