标签

AI智能体进入算账时代

发布时间:2026-06-26 04:13阅读:3

今天 AI 领域有个信号值得注意:Google 原定 6 月发布的 Gemini 3.5 Pro,据报道推迟到了 7 月。表面看,这只是模型发布时间的调整;但放在近期的行业背景下,它其实指向一个更现实的问题:AI 智能体越做越长、越做越复杂,成本和稳定性开始影响发布节奏。

这个问题并非 Google 一家独有。过去一年,大家都在谈 agent,谈长任务,谈让 AI 自己规划、搜索、写代码、调用工具、检查结果。听起来很接近“自动干活”,但企业真正上线时会发现:智能体不是一次回答,而是一连串高频调用。

所以今天不聊“哪个模型最强”,而聊一个更实际的问题:当 AI 智能体从演示走向企业工作流,token 成本到底怎么管?如果这笔账算不清,agent 很容易从效率工具变成预算黑洞。

普通聊天机器人比较好理解:用户问一句,模型答一句。中间也会消耗 token,但路径相对短,成本还算容易估。智能体不一样,它要先理解任务,再拆步骤,可能还要搜索资料、读文件、调用 API、写代码、跑测试、看错误日志,然后再改一轮。

近期一篇关于 agentic coding token 消耗的研究给了一个很直观的结论:复杂智能体任务消耗的 token,可能比普通代码问答高出几个数量级,而且主要成本来自输入 token,也就是反复塞给模型的上下文、工具结果和历史轨迹。

更麻烦的是,这个成本不稳定。研究里同一个任务的不同运行,token 消耗可能差很多;更高消耗也不必然带来更高准确率。这说明智能体不是“多跑几步就更好”,有时候只是更贵。

Gemini 3.5 Pro 被报道要继续收集早期用户反馈、调优长任务和 agent 能力,这个方向很正常。因为现在模型发布不能只看榜单分数,还要看长任务里会不会烧太多 token、会不会绕路、会不会在工具调用里失控。

智能体的成本主要花在中间过程:读上下文、规划步骤、调用工具和反复验证。

很多企业一开始算 AI 成本,会盯着模型报价,比如每百万 token 多少钱。这个指标当然重要,但对智能体来说还不够。因为同样是处理一个需求,有的 agent 三步结束,有的 agent 跑二十步,还会读一堆没必要的资料。

企业真正该看的指标,是完成一个业务任务平均要花多少钱。比如处理一个客服升级工单、修一个低风险 bug、生成一份销售分析、跑一次合同初筛,到底平均消耗多少 token、调用多少工具、失败重跑多少次、需要多少人工复核。

这也是为什么订阅制 AI 产品会遇到压力。看起来一个月几百美元很便宜,但如果高频用户把模型当自动化流水线跑,服务商背后的推理成本会快速上升。最近不少讨论都指向同一个现实:最强模型可以卖能力,但不能无限量承担高成本长任务。

所以接下来企业部署智能体,不能只问“能不能做”,还要问“以什么成本做”。如果一个 agent 每次都能完成任务,但成本比人工节省还高,那它就不是生产力工具,而是技术演示。

企业不能只看模型单价,还要把任务轨迹、失败重跑和人工兜底一起算进去。

过去大家容易迷信最强模型,觉得所有任务都交给旗舰模型最稳。智能体时代,这个思路会变得太贵。一个完整任务里,真正需要最强模型判断的环节可能只有几个,其他大量步骤只是分类、抽取、改格式、查资料、做简单验证。

这就会推动企业做模型分层:简单步骤用更便宜、更快的模型,复杂判断再切到强模型;内部知识检索先用小模型和规则过滤,最后再让强模型综合;低风险任务自动跑,高风险任务必须人工确认。

近期关于 web agent 的研究也提醒了一点:给 agent 加记忆、技能库、工作流模块,不一定总是划算。因为这些模块本身也消耗 token。一个看起来更聪明的智能体,如果每次都带着一大包记忆上路,可能只是把成本藏起来了。

这会让 AI 产品经理的工作变得更像系统工程:不是把最强模型接上就完事,而是设计什么时候读上下文、什么时候省略历史、什么时候调用工具、什么时候停止、什么时候把任务交还给人。

如果企业准备把智能体接进真实工作流,我建议先做三件事。第一,设置预算上限。不要只设月度总预算,还要设单任务、单用户、单部门的 token 上限。超过上限,agent 要么降级模型,要么暂停等待人工确认。

第二,记录完整轨迹。每次模型调用、工具调用、失败重跑、人工介入,都要进入日志。否则你只会看到月底账单变高,却不知道钱花在了哪一步。

第三,建立任务分级。不是所有任务都值得用智能体完整跑一遍。有些任务用模板和规则更便宜,有些任务用普通聊天模型就够了,只有跨系统、长链路、价值高的任务,才值得交给 agent。

智能体真正成熟的标志,不是能连续工作多久,而是能在可控预算内稳定交付。这也是 Gemini 3.5 Pro 这类模型继续调优长任务能力时,企业最该关注的地方。

智能体上线前,要先把预算上限、模型分层和调用轨迹这些基础设施补齐。

AI 智能体正在从“看起来很聪明”走向“能不能规模化使用”。这一步绕不开成本。模型越强、任务越长、工具越多,token 消耗就越需要管理。过去企业担心 AI 不够能干,现在还要担心它太能折腾。

下一阶段的 AI 竞争,不只是模型能力竞争,也是成本工程竞争。谁能用更少 token 完成更稳定的任务,谁就更容易进入真实企业流程。

你现在用 AI 工具时,会关注 token 成本或调用次数吗?如果公司要上智能体,你最担心的是能力不够,还是成本失控?欢迎在评论区聊聊。