AI智能体进入算账时代

发布时间：2026-06-26 04:13阅读：3

今天 AI 领域有个信号值得注意：Google 原定 6 月发布的 Gemini 3.5 Pro，据报道推迟到了 7 月。表面看，这只是模型发布时间的调整；但放在近期的行业背景下，它其实指向一个更现实的问题：AI 智能体越做越长、越做越复杂，成本和稳定性开始影响发布节奏。

这个问题并非 Google 一家独有。过去一年，大家都在谈 agent，谈长任务，谈让 AI 自己规划、搜索、写代码、调用工具、检查结果。听起来很接近“自动干活”，但企业真正上线时会发现：智能体不是一次回答，而是一连串高频调用。

所以今天不聊“哪个模型最强”，而聊一个更实际的问题：当 AI 智能体从演示走向企业工作流，token 成本到底怎么管？如果这笔账算不清，agent 很容易从效率工具变成预算黑洞。

普通聊天机器人比较好理解：用户问一句，模型答一句。中间也会消耗 token，但路径相对短，成本还算容易估。智能体不一样，它要先理解任务，再拆步骤，可能还要搜索资料、读文件、调用 API、写代码、跑测试、看错误日志，然后再改一轮。

近期一篇关于 agentic coding token 消耗的研究给了一个很直观的结论：复杂智能体任务消耗的 token，可能比普通代码问答高出几个数量级，而且主要成本来自输入 token，也就是反复塞给模型的上下文、工具结果和历史轨迹。

更麻烦的是，这个成本不稳定。研究里同一个任务的不同运行，token 消耗可能差很多；更高消耗也不必然带来更高准确率。这说明智能体不是“多跑几步就更好”，有时候只是更贵。

Gemini 3.5 Pro 被报道要继续收集早期用户反馈、调优长任务和 agent 能力，这个方向很正常。因为现在模型发布不能只看榜单分数，还要看长任务里会不会烧太多 token、会不会绕路、会不会在工具调用里失控。

智能体的成本主要花在中间过程：读上下文、规划步骤、调用工具和反复验证。

很多企业一开始算 AI 成本，会盯着模型报价，比如每百万 token 多少钱。这个指标当然重要，但对智能体来说还不够。因为同样是处理一个需求，有的 agent 三步结束，有的 agent 跑二十步，还会读一堆没必要的资料。

企业真正该看的指标，是完成一个业务任务平均要花多少钱。比如处理一个客服升级工单、修一个低风险 bug、生成一份销售分析、跑一次合同初筛，到底平均消耗多少 token、调用多少工具、失败重跑多少次、需要多少人工复核。

这也是为什么订阅制 AI 产品会遇到压力。看起来一个月几百美元很便宜，但如果高频用户把模型当自动化流水线跑，服务商背后的推理成本会快速上升。最近不少讨论都指向同一个现实：最强模型可以卖能力，但不能无限量承担高成本长任务。

所以接下来企业部署智能体，不能只问“能不能做”，还要问“以什么成本做”。如果一个 agent 每次都能完成任务，但成本比人工节省还高，那它就不是生产力工具，而是技术演示。

企业不能只看模型单价，还要把任务轨迹、失败重跑和人工兜底一起算进去。

过去大家容易迷信最强模型，觉得所有任务都交给旗舰模型最稳。智能体时代，这个思路会变得太贵。一个完整任务里，真正需要最强模型判断的环节可能只有几个，其他大量步骤只是分类、抽取、改格式、查资料、做简单验证。

这就会推动企业做模型分层：简单步骤用更便宜、更快的模型，复杂判断再切到强模型；内部知识检索先用小模型和规则过滤，最后再让强模型综合；低风险任务自动跑，高风险任务必须人工确认。

近期关于 web agent 的研究也提醒了一点：给 agent 加记忆、技能库、工作流模块，不一定总是划算。因为这些模块本身也消耗 token。一个看起来更聪明的智能体，如果每次都带着一大包记忆上路，可能只是把成本藏起来了。

这会让 AI 产品经理的工作变得更像系统工程：不是把最强模型接上就完事，而是设计什么时候读上下文、什么时候省略历史、什么时候调用工具、什么时候停止、什么时候把任务交还给人。

如果企业准备把智能体接进真实工作流，我建议先做三件事。第一，设置预算上限。不要只设月度总预算，还要设单任务、单用户、单部门的 token 上限。超过上限，agent 要么降级模型，要么暂停等待人工确认。

第二，记录完整轨迹。每次模型调用、工具调用、失败重跑、人工介入，都要进入日志。否则你只会看到月底账单变高，却不知道钱花在了哪一步。

第三，建立任务分级。不是所有任务都值得用智能体完整跑一遍。有些任务用模板和规则更便宜，有些任务用普通聊天模型就够了，只有跨系统、长链路、价值高的任务，才值得交给 agent。

智能体真正成熟的标志，不是能连续工作多久，而是能在可控预算内稳定交付。这也是 Gemini 3.5 Pro 这类模型继续调优长任务能力时，企业最该关注的地方。

智能体上线前，要先把预算上限、模型分层和调用轨迹这些基础设施补齐。

AI 智能体正在从“看起来很聪明”走向“能不能规模化使用”。这一步绕不开成本。模型越强、任务越长、工具越多，token 消耗就越需要管理。过去企业担心 AI 不够能干，现在还要担心它太能折腾。

下一阶段的 AI 竞争，不只是模型能力竞争，也是成本工程竞争。谁能用更少 token 完成更稳定的任务，谁就更容易进入真实企业流程。

你现在用 AI 工具时，会关注 token 成本或调用次数吗？如果公司要上智能体，你最担心的是能力不够，还是成本失控？欢迎在评论区聊聊。