标签

AI费用失控与token激增的矛盾现象

发布时间:2026-05-27 06:26来源:微信阅读:5

AI 费用失控:微软封杀Claude code,Uber4个月烧完全年预算

为什么如今 AI 账单如此难以预测,以及当行业逐渐解决这个问题之后,会发生什么?

Token 激增悖论

我们估算,在过去四年里,全球每季度处理的 token 数量增长了大约 17000 倍。

在此期间,token 价格大幅下跌。机器智能的需求具有高弹性,即价格下降时,使用量的涨幅会超过价格的跌幅。

原因之一是,价格走低的token让智能代理具备了商业可行性。

与此同时,在单次查询场景中,智能代理的token消耗速率远高于聊天机器人。

这一点体现在单位输出token对应的总处理token量上:高端模型会在用户不可见的后台,完成大量运算处理。

有个细节是,这一轮增长中,很大一部分来自中国国内需求,以及中国模型提供商的推动,尤其是字节和阿里巴巴这两个大厂。

"幽灵 Token" 的成本

当使用 AI agent 时,最终看到的结果,其实只是 agent 完成全部工作之后的一份总结。

在背后,它可能已经进行了几十次工具调用,比如浏览网页、加载文件、检查与验证结果等,所有这些步骤,都会消耗 token。

这些成本会变成隐藏的成本乘数,这就是token amplification(Token 放大效应)。

一个运行 10 个回合的 coding agent,可能在每一轮都需要重新读取完整上下文。

这种反复读取上下文的行为,所消耗的 token 数量,可能达到同一个任务单轮请求的 55 倍。

与之相比,真正用于 active inference(主动推理)的 token,实际上可能只占总消耗的 15% 到 20%。

剩余的大部分 token 消耗,都是用户看不见的"隐形工作"。

而无论是作为用户,还是为此付费的公司,很多时候都没有真正把这些成本计算进去。

Tool Calls 的长尾成本

Agents 在一次任务中,通常会进行 5 到 25 次 tool call(工具调用)。

而每一次调用,都会带来更多上下文、token 和API 成本。

同时,它还会提高模型需要重新尝试任务(retry)的概率,以便得到正确结果。

更关键的是,同一个任务的 token 成本甚至可能相差 30 倍,因为 agent workflow 本身具有高度随机性。