AI费用失控与token激增的矛盾现象

发布时间：2026-05-27 06:26阅读：12

AI 费用失控:微软封杀Claude code,Uber4个月烧完全年预算

为什么如今 AI 账单如此难以预测，以及当行业逐渐解决这个问题之后，会发生什么？

Token 激增悖论

我们估算，在过去四年里，全球每季度处理的 token 数量增长了大约 17000 倍。

在此期间，token 价格大幅下跌。机器智能的需求具有高弹性，即价格下降时，使用量的涨幅会超过价格的跌幅。

原因之一是，价格走低的token让智能代理具备了商业可行性。

与此同时，在单次查询场景中，智能代理的token消耗速率远高于聊天机器人。

这一点体现在单位输出token对应的总处理token量上：高端模型会在用户不可见的后台，完成大量运算处理。

有个细节是，这一轮增长中，很大一部分来自中国国内需求，以及中国模型提供商的推动，尤其是字节和阿里巴巴这两个大厂。

"幽灵 Token" 的成本

当使用 AI agent 时，最终看到的结果，其实只是 agent 完成全部工作之后的一份总结。

在背后，它可能已经进行了几十次工具调用，比如浏览网页、加载文件、检查与验证结果等，所有这些步骤，都会消耗 token。

这些成本会变成隐藏的成本乘数，这就是token amplification（Token 放大效应）。

一个运行 10 个回合的 coding agent，可能在每一轮都需要重新读取完整上下文。

这种反复读取上下文的行为，所消耗的 token 数量，可能达到同一个任务单轮请求的 55 倍。

与之相比，真正用于 active inference（主动推理）的 token，实际上可能只占总消耗的 15% 到 20%。

剩余的大部分 token 消耗，都是用户看不见的"隐形工作"。

而无论是作为用户，还是为此付费的公司，很多时候都没有真正把这些成本计算进去。

Tool Calls 的长尾成本

Agents 在一次任务中，通常会进行 5 到 25 次 tool call（工具调用）。

而每一次调用，都会带来更多上下文、token 和API 成本。

同时，它还会提高模型需要重新尝试任务（retry）的概率，以便得到正确结果。

更关键的是，同一个任务的 token 成本甚至可能相差 30 倍，因为 agent workflow 本身具有高度随机性。