AI 的下一个拐点,是 Token 的价格
Token,官方称谓为「词元」,是 AI 世界中处理文本的最小基本单位。AI 生成的每一个字和词都由 Token 来计数,它决定了你使用 AI 的费用。
一、先抛一个结论
未来的 Token 会非常便宜。便宜到你几乎感觉不到它的存在。
我知道这句话听起来有点狂。毕竟现在用 AI Agent 做个稍微复杂的任务,几轮对话下来就是上百万 Aoken,换算成人民币可不是小数目。
"AI 很强,但太贵了",几乎是这个阶段最常见的判断。
但我一直觉得,这种贵大概率只是阶段性的。下面说说为什么。
二、流量的故事,我们其实已经见过一次
翻了翻以前的记录,找到当时随手发的想法。
这条是 2011 年发布:
现在回头看,其内容很早就应验了。当年流量五块钱三十兆,现在几乎免费。你手机里每一个 app 都在用流量,但你已经不会去想“这次刷视频花了多少流量费”。
这里有一个很重要的规律:基础设施的价格,会反过来塑造上层内容的形态。
移动互联网早期,手机上网主要承载的是文字。不是大家更爱看字,而是流量贵、网络慢,视频根本撑不起来。等流量便宜了一点,图片爆发了。再往后,短视频和直播才成为主角。
不是先有了全民刷视频的需求,才逼着基础设施降价。而是基础设施先便宜到了某个阈值,新的内容形态才爆发出来。
记住这个规律,后面会用到。
三、AI 正在走同一条路
今天大多数人用 AI 的方式,本质上还是一个聊天框。打开对话窗口,问一句,答一句。关掉,它就像停止了一样。
这很像移动互联网早期的状态。但如果你把视线挪到开发这个领域,会发现一条完整的演进路径已经在眼前展开了。
AI Coding
最早是AI Coding。你写代码,AI 帮你补全几行。本质上还是人在主导,AI 只是一个更聪明的生成工具加自动补全,Token 消耗很克制。
Vibe Coding
然后是25年年尾时的Vibe Coding。你不再逐行写代码了,而是用自然语言描述“我想要什么”,AI 整段整段地生成。交互方式变了,Token 的消耗量级直接跳了一档。
Agentic Engineering & Harness Engineering
再往后就是现在的Agentic Engineering 和 Harness Engineering。AI 不只是写代码,例如OpenClaw一样,是自己规划任务、执行、测试、发现问题、修正,人的角色从“写代码的”变成了“定方向、设约束的”。Token 消耗再跳一档。
Autonomous Organization
继续往前看,是Autonomous Organization。多个 AI agent 协作,分别扮演产品经理、架构师、开发者、测试,完成一个完整的产品流程。人甚至不需要逐步介入。Token 的消耗变成了持续的、后台的、海量的。
每跨一级,Token消耗不是线性增长,而是量级跃迁。
这条线和流量的故事完美呼应:文字、图片、短视频、直播,每一步流量消耗都是上一步的几十倍甚至上百倍。正是因为流量足够便宜,后面的形态才有可能成立。Token 也一样,如果 Token 不够便宜,AI 就会永远停留在“你问一句我答一句”的阶段,Agentic Engineering 和 Autonomous Organization 根本跑不起来。
四、Token 正在变成标准化商品
讲到这里,可能有人会问:便宜的 Token 质量会不会差?
这个问题放在一两年前确实成立。那时候各家模型的差距很大,选错了模型,效果天差地别。但现在情况不太一样了。
各家大模型的核心能力正在快速趋同。对于绝大多数实际应用场景,无论是写文案、做客服、数据提取还是代码辅助,主流模型之间的输出质量差异,用户体感上已经拉不开太大距离了。
更重要的是,“质量”这个维度本身正在被重新定义。以前比的是裸模型的推理能力和知识广度。现在有了 MCP、Skill、RAG、Agent 框架这些工具的加持,很多“模型本身不够聪明”的问题可以被工程手段补上。一个稍弱的模型加上好的工具链,实际效果可能比一个更强的裸模型还好。
所以竞争的叙事正在发生转变。从“谁家模型好”变成了“大家都能做差不多的事情时,谁的 token 更便宜”。这不是说质量不重要了,而是质量已经过了“够用”的门槛。一旦过了这个门槛,价格就成为新的决定性变量。
Token 正从一种稀缺的高级资源,变成一种标准化的基础商品。
五、要到那个未来,Token 必须先变便宜
这里有一个很有意思的因果关系:不是“等 AI 发展好了,Token 自然就便宜了”,而是只有 Token 先变便宜,AI 才能发展成那个样子。
这和流量的故事一模一样。是基础设施先到了某个阈值,新的内容形态才爆发出来。如果 Token 一直贵,它就会一直停留在聊天框里,停留在“问一句答一句”的阶段。只有便宜到某个临界点,Agent 协作、持续推理、环境智能这些东西才有可能真正铺开。
那 Token 怎么才能变便宜?
模型分层
不是所有事都要叫最贵的大模型。大模型负责最复杂、最稀缺的那部分能力,比如跨领域推理、长链条决策。大量通用任务会被更轻量的模型接住。真正昂贵的智能依然昂贵,但它只负责极少数高价值的任务。
缓存机制
系统会从“每次重新推理”变成大量复用和提前准备。今天很多 AI 请求本质上还在做一件非常原始的事:每次都从头想一遍。未来缓存、复用、预计算这些机制成熟之后,大量重复性的 Token 消耗会被省掉。
端侧算力
端侧、边缘和云端会共同分担。不是所有计算都要上云。当越来越多任务在设备端就能处理,云端的压力降低,平均成本天然往下走。
图为NVIDIA GTC 2026 中体内搭载了英伟达最新的 Jetson AGX Thor 边缘 AI 芯片的“雪宝”与老黄的实时互动
效率与能源
再往底层看,芯片效率的提升和能源成本的下降也在同步推动,只是这些变化的周期更长,不像软件层面那么立竿见影。
当这些力量叠加在一起,token 的价格曲线大概率会走出和流量一样的轨迹:先是缓慢下降,然后在某个点加速,最后便宜到你不再单独关注它。
六、还要等多久
十多年前我写“抱着平板在地铁里玩 LOL”的时候,不知道要多久才能实现。
现在说“Token 会像流量一样便宜”,我相信一定会比流量来得要更快。