Token工厂：AI算力飞轮如何驱动20倍增长

发布时间：2026-06-20 18:02阅读：2

出品|虎嗅科技组

作者|陈伊凡

编辑|苗正卿

头图|AI生成

过去两年，Token的生产成本持续走低，但价格却稳步攀升。

看似矛盾的现象，实则源于Token商业模式的成熟与落地。

硬件与模型持续迭代，核心目标愈发一致：降低推理成本、提升算力效率。

与此同时，智能体系统日趋完善，业务闭环逐步形成。“真正靠AI赚钱的人，从不因价格退缩，只会想办法降本。”夏立雪说，他几乎瞬间得出这一结论，仿佛早已洞悉本质。作为无问芯穹联合创始人兼CEO，他所在的公司成立于2023年，与清华大学电子工程系渊源深厚，其业务在业内被称为“Token工厂”。

市场上难觅与无问芯穹模式雷同的企业。它精准卡位了一个此前被忽视的结构性机会——在AI需求激增催生的新生态中，扮演算力调度中枢。它不研发通用大模型，不造芯片，也不做C端应用，而是居于芯片与模型之间，高效调度稀缺算力，将其转化为可交易的Token。芯片商、模型方、应用方均需接入其Agentic Infra体系，由无问芯穹统一调度与分配。这是一种由先进软件与算法定义的新型商业模式。

这种独特架构，让无问芯穹比任何Token产业链参与者更早感知市场细微变化。

我在上海模速空间的会议室见到夏立雪，身穿黑色文化衫，语速飞快，谈及技术时进入“心流”状态。模速空间是上海AI创新核心，以无问芯穹为中心的两公里内，上下游企业密集汇聚。

据公司2024年5月披露，2023年12月至2024年4月，其Agentic MaaS平台Token调用量增长超20倍，创下行业罕见纪录。

这一数字背后，是现实的转折：推理，正成为远大于训练的市场。

过去三年，AI叙事聚焦训练：谁拥有更多GPU、训练出更大模型，谁就占据主导。算力竞赛逻辑简单粗暴：堆卡、堆电、堆钱。英伟达H100在黑市价格飙升，甚至需提前囤货。

但自2025年底起，逻辑悄然改变。2026年，推理数据量首次超越训练。据国际机构统计，2026年全球企业推理基础设施支出预计达680亿美元，训练支出为450亿美元。

当AI不再仅回答问题，而是执行复杂任务——写完整代码、审阅合同、追踪项目——其Token消耗量是对话场景的数十至上百倍。无问芯穹数据显示，其平台调用的Token中，95%以上来自智能体场景。

推理需求激增，正推动AI价值链重心下移。芯片商、模型方、云服务商均在重新定价，而位于中枢的基础设施商，正从“管道”演变为“工厂”，再升格为价值链中关键的Token生产力转化者。

衡量这家“工厂”效率，无问芯穹内部有一核心指标：每月产出多少有价值的万亿参数模型Token。该指标包含两部分：效率——单位时间Token产出量；稳定性——系统能否持续稳定运行。在万亿参数场景下，过去一两年，其性价比提升5至10倍。

在无问芯穹，有一公式：AI生产力=智能规模×Token生产效率×Token价值转化。

当Token业务实现商业闭环，就能持续输出更充足、稳定、高性价比的优质Token，赢得市场口碑，吸引用户涌入。

需求增长带来更丰富的场景反馈，从而优化技术路径；资源调度空间扩大，不同模型与芯片的组合优化潜力呈指数级增长——M种模型×N种芯片的适配空间持续扩大。

这也解释了为何智能体崛起对无问芯穹是乘数效应，而非简单叠加。

在这套机制下，飞轮已开始加速转动。

推理需求爆发，国产芯片与解决方案迎来全新机遇。这与以往“国产替代”叙事截然不同：中国厂商对成本的极致敏感与工程化能力，正赋予产业链全球竞争力。

AI算力市场的现实是：芯片种类激增，无一能通吃所有任务；模型规模膨胀，单机八卡已无法承载万亿参数，需集群协作；不同推理任务对延迟、吞吐、精度要求迥异。这些叠加，让“高效用好算力”成为复杂系统工程——而这，正是中国工程能力的优势所在。

这一判断在推理的P/D分离中得到验证。大模型推理分两阶段：prefill（预填充）负责理解输入，计算密集；decode（解码）负责逐字生成，通信密集、对延迟敏感。两类任务对芯片需求完全不同，催生新场景。

依托软硬协同技术积累，无问芯穹早年即深耕P/D分离，将任务精准分配至适配芯片——国产芯片已在prefill场景落地，意味着国产算力不再只是“能否用”，而是“在哪用最合适”“如何用得更好”。

无问芯穹将Token作为AI生产力公式核心变量，始于2026年，其优化目标从“用满芯片”升级为“让每个Token创造最大价值”——技术节省的成本直接转化为毛利，反哺研发，形成正循环。Token，正成为AI产业中最接近货币的单位：可生产、可消耗、可定价、可交易。

夏立雪用一个类比：Token爆发，如同移动互联网从3G迈向4G。

但他补充：4G时代最成功的应用，不是微信或淘宝，而是那些敢于在流量便宜后重构组织的公司。Token时代，真正颠覆格局的，未必是某款AI应用，而是那些用AI重构分工、实现人机协作的微型组织——十人、二十人，甚至单兵作战，效率却远超传统团队。

这类组织已悄然出现。“现在不缺场景，关键是能否接住需求。”

这句话引出无问芯穹下一步：突破纯Token工厂边界，切入Token价值转化环节。

虎嗅：当华为、中兴等系统厂商也用集群提升Token性价比，无问芯穹的壁垒何在？

夏立雪：表层壁垒在于软硬协同的深厚积累。我们基于系统算法做硬件适配，不绑定单一厂商或模型，能力覆盖全生态，是中立第三方，适配性强，场景通用。

其次，我们以全产业视角布局，将所有芯片产能作为优化变量，最大化生态中各主体价值。这不是单点优化，当生态复杂度提升——多模型、多芯片并存——我们的系统级优化能力便形成生态壁垒。

核心壁垒在于持续跟进前沿。从稠密模型到MoE优化，再到万亿参数扩展难题，我们早早布局P/D分离与半分离技术，现正研发凸显国产芯片优势的创新方案。

我们的壁垒不是单点领先，而是系统化、滚动式创新。

虎嗅：针对Token经济学，华为等提出“超节点”方案，无问芯穹如何构建中间优化层？

夏立雪：当前是算法牵引系统与硬件的时代。我们与芯片商目标一致：实现产业落地。只要能对接、跑通业务，就是健康生态。芯片商负责做好“产品说明书”，如何高效使用芯片，是我们作为行业专家的使命。国内各类芯片已出现类似CUDA的层，如CAN、SUCA、MARCA，我们的生态统一接入、调度、管理、分配，保障稳定，实现商业化闭环。

虎嗅：能否提供具体数据，说明客户使用你们方案后，Token成本下降多少？稳定性如何？

夏立雪：在万亿参数场景下，我们实现的Token每秒产能性价比较两年前提升5至10倍，源自软硬协同优化。

Token产能有两个维度：微观效率——单位时间产出量；宏观稳定性——避免频繁宕机。我们在两项指标上均表现优异，最直接证明是客户持续复购。

虎嗅：内部最关注的核心指标是什么？

夏立雪：最终归结为单位时间Token产出量，这是唯一检验标准。我们核心关注每月产出多少有价值的万亿参数模型Token。

该指标包含两部分：Token生产效率与可调度资源规模。软硬协同优化也涵盖系统稳定性，这点常被忽视，却至关重要。

当我们从技术团队转型为系统服务商，必须交付大规模持续稳定的服务，规模扩张必须以稳定性为根基。

虎嗅：2026年是推理大年，哪条业务线增长最明显？

夏立雪：以Agentic MaaS平台为例，2025年底至2024年5月，Token调用量增速超20倍。这种增长是健康、结构化的，多需求并存、分层演进，非单点爆发。

当前模型产业像金字塔底部向上突破，尖端应用不断拓展新场景：写代码、做设计、搞营销，未来或覆盖法律。推理需求激增带动全链健康发展，覆盖模型商、应用商、基础设施商乃至芯片商。

从经验看，全链路数字化、所有信号可闭环的任务与组织，将最快实现自我迭代，率先享受AI进化红利。

虎嗅：具体场景有哪些？举例说明？

夏立雪：代码生成最早爆发，因程序员最熟悉该场景，且全流程数字化。类似地，线上营销也具备完整数字记录。总体看，数字化基础好或互联网原生的场景，需求增长最快。

按复杂度划分，公司95%需求来自智能体场景——AI完成完整可交付任务，非简单对话。用户愿为生产力与结果付费，是良性趋势。代码生成赛道已实现AI协作：不同AI分工编写与质检，模式跑通，未来将扩展至更多行业。AI落地节奏良好，我们作为资源打通者也将收获价值。

虎嗅：这是否由OpenClaw引发拐点？

夏立雪：OpenClaw推出前需求已存在，它是产业成熟后的产物。核心是AI智能突破临界点——能处理子任务、具备长上下文记忆，才具备作为“大脑”指挥工作的基础。未来将涌现更多场景化产品。

虎嗅：无问芯穹公式中，如何通过这三个变量赚钱？飞轮如何转动？

夏立雪：Token业务在闭环产业中是极优模式。当优化能力足够强，就能提供更充沛、稳定、高性价比Token，赢得口碑，吸引用户。

需求增长带来真实场景反馈，明确技术价值；需求丰富则资源调度空间扩大，M×N组合优化潜力倍增。

需求越多、资源越足，优化能力越强；优化越强，服务越稳定、便宜、充足，吸引更多需求——飞轮由此启动。

虎嗅：这种精细化需求下，你们的商业模式是按结果收费还是按案例？

夏立雪：Token工厂模式已成熟，更倾向结果导向定价，即按Token计费。Token本身有差异，类似广告CPM。Token已成为贴近业务的定价指标，用户能直观感知价值，无需关心底层芯片。

以Token结算有双重优势：一是引导行业关注AI产出价值而非资源消耗，技术节省的成本直接提升毛利率，反哺研发，形成正循环；二是兼容跨行业差异，无需每行业定制计价，利于生态扩展。

虎嗅：推理大年，国产芯片机会大吗？

夏立雪：2026年行业普遍看好，国产芯片机会巨大。市场健康，各类需求缺口明显，当前任务是填补缺口。

虎嗅：Prefill与Decode分化，国产芯片在细分需求上有优势吗？

夏立雪：国产芯片已从“能否用”进入“好不好用”阶段。

当前算力需求多样：应用端有低延迟需求，也有容忍度高的；模型端有万亿参数挑战，也有千亿参数即可胜任的场景。

回到P/D细分：Prefill更契合国产芯片现状，因其为计算密集型；Decode则对访存、通信带宽、软硬件生态要求严苛得多。

虎嗅：若抛开国产化叙事，无问芯穹业务仍能高速增长吗？

夏立雪：到2026年，国内外市场无本质区别，均面临资源紧缺。我们所处赛道核心，正是解决供不应求。

虎嗅：你将Token增长比作3G到4G。4G催生微信、电商，Token 4G/5G时代，最可能爆发的AI应用是什么？

夏立雪：不是单一应用，而是AI型组织。一人公司难普及，但十人、二十人小团队，充分融合AI、人机协作的组织将大量涌现，这才是Token 4G时代真正的“应用”。

4G/5G时代移动应用特点是高流量消耗，基于流量充裕诞生。AI领域，不是某类应用用AI，而是某类组织用AI创造新成果。已完成数字化的赛道，将率先诞生原生AI组织。

虎嗅：这类AI组织已出现吗？

夏立雪：已大量存在。许多有趣组织将AI融入工作全流程，不同AI间交互，形成人机共生形态，它们产出的产品，正是AI 4G时代最精彩的新兴产物。

虎嗅：AI快速发展，无问芯穹最大挑战是什么？未来潜在对手是谁？

夏立雪：核心仍是资源限制。表面看有两点：模型能否突破下一范式？距离AGI尚有一至两个范式差距，突破需海量资源。但短期内难有根本突破，AI已越过可用临界点，正拓展新场景，核心问题是能否接住需求——取决于资源是否充足、效率是否足够高。

关于对手，当前是需求远大于供给的市场，远未进入零和博弈。产业链上下游分工明确，各主体有独特禀赋，横向纵向皆有空间。只要创造价值，就能获利，产业竞争稀薄，自身发展才是关键。

虎嗅：若AI进入下一范式，当前模式还成立吗？

夏立雪：AI范式不会跳变，如5G后4G仍广泛应用，存在过渡期。若范式突破带来新基础设施，反而创造新机会。我们不怕难题——团队从成立起就瞄准最难技术问题，并找到了良好TMF（技术-市场适配）。

虎嗅：Token产业何时迎来类似通信5G的拐点？

夏立雪：用通信4G/5G类比AI不完全贴切。下一跳变有两种可能：一是模型发生范式跃迁，但方向尚不可测；二是成本降至极低水平。当前计费已从千Token降至百万Token，若再降1-2个数量级，将出现“流量包”“包月”式付费，产业模式将质变。

成本下降1-2个数量级有可行路径：深化软硬结合，优化模型结构、组合与硬件架构，提升匹配度，仍有1-2个量级优化空间。我们既在成本下降过程中创造价值，也在提前布局匹配未来生产关系的新产品与能力。

← 上一篇：“前沿模型”溢价堪比“奢侈手袋”！德银警告：AI市场或迎重估下一篇：生物燃料热潮冲击全球糖市供应趋紧能否推升价格至24美分？ →