算力投入≠AI产出,行业是否该告别token指标?
本篇内容来自“超线性学院”:鸭哥的分享
你用 Claude Code 写了一天代码。
晚上复盘,你脑海里浮现的是“今天搞定了三个功能模块”还是“今天消耗了两千万 token”?
绝大多数 builder 说的是前一句。但行业算账用的是后一句——接口调用按 token 计费,投资人看 token 消耗评估增速,NVIDIA 的博客标题直接写过“cost per token is the only metric that matters”。
这是两个截然不同的衡量维度。Token 属于过程指标:它衡量你投入了多少算力。你脑海里那个“搞定了几个功能模块”是结果指标:它衡量你交付了什么。过程指标和结果指标指向不同的优化方向,这在企业管理中是个老话题——但放在 AI 行业,它正在变成一个不能再回避的问题。
用过程指标管理任何事物,都存在一个固有缺陷:它鼓励投入,不鼓励产出。
这不是 token 独有的。如果你用“代码行数”考核程序员,程序员会写出更多行。如果你用“会议场次”考核管理者,管理者会开更多会。过程指标天生倾向于被虚增——因为把它刷上去的成本比把输出指标刷上去低得多。
亚马逊和 Meta 内部已经出现了员工故意让 agent 执行不必要的任务来虚增 token 消耗量,因为这个数字在他们的内部 leaderboard 上代表“AI 使用活跃度”。
Agent 把这个缺陷进一步放大了。一个人跟 Claude 对话,token 消耗是线性的、可预估的。一个 agent 在执行任务时会进入循环、反复调用工具、扩展上下文——它的 token 消耗曲线不是线性的,可能在某个步骤突然跳一个数量级。做企业计费的 Portal26 观察到,客户“不敢扩大 agent 使用量,因为不知道下个月账单是三位数还是五位数”。