AI 的下一个拐点，是 Token 的价格

发布时间：2026-04-03 02:12阅读：12

Token，官方称谓为「词元」，是 AI 世界中处理文本的最小基本单位。AI 生成的每一个字和词都由 Token 来计数，它决定了你使用 AI 的费用。

一、先抛一个结论

未来的 Token 会非常便宜。便宜到你几乎感觉不到它的存在。

我知道这句话听起来有点狂。毕竟现在用 AI Agent 做个稍微复杂的任务，几轮对话下来就是上百万 Aoken，换算成人民币可不是小数目。

"AI 很强，但太贵了"，几乎是这个阶段最常见的判断。

但我一直觉得，这种贵大概率只是阶段性的。下面说说为什么。

二、流量的故事，我们其实已经见过一次

翻了翻以前的记录，找到当时随手发的想法。

这条是 2011 年发布：

现在回头看，其内容很早就应验了。当年流量五块钱三十兆，现在几乎免费。你手机里每一个 app 都在用流量，但你已经不会去想“这次刷视频花了多少流量费”。

这里有一个很重要的规律：基础设施的价格，会反过来塑造上层内容的形态。

移动互联网早期，手机上网主要承载的是文字。不是大家更爱看字，而是流量贵、网络慢，视频根本撑不起来。等流量便宜了一点，图片爆发了。再往后，短视频和直播才成为主角。

不是先有了全民刷视频的需求，才逼着基础设施降价。而是基础设施先便宜到了某个阈值，新的内容形态才爆发出来。

记住这个规律，后面会用到。

三、AI 正在走同一条路

今天大多数人用 AI 的方式，本质上还是一个聊天框。打开对话窗口，问一句，答一句。关掉，它就像停止了一样。

这很像移动互联网早期的状态。但如果你把视线挪到开发这个领域，会发现一条完整的演进路径已经在眼前展开了。

AI Coding

最早是AI Coding。你写代码，AI 帮你补全几行。本质上还是人在主导，AI 只是一个更聪明的生成工具加自动补全，Token 消耗很克制。

Vibe Coding

然后是25年年尾时的Vibe Coding。你不再逐行写代码了，而是用自然语言描述“我想要什么”，AI 整段整段地生成。交互方式变了，Token 的消耗量级直接跳了一档。

Agentic Engineering & Harness Engineering

再往后就是现在的Agentic Engineering 和 Harness Engineering。AI 不只是写代码，例如OpenClaw一样，是自己规划任务、执行、测试、发现问题、修正，人的角色从“写代码的”变成了“定方向、设约束的”。Token 消耗再跳一档。

Autonomous Organization

继续往前看，是Autonomous Organization。多个 AI agent 协作，分别扮演产品经理、架构师、开发者、测试，完成一个完整的产品流程。人甚至不需要逐步介入。Token 的消耗变成了持续的、后台的、海量的。

每跨一级，Token消耗不是线性增长，而是量级跃迁。

这条线和流量的故事完美呼应：文字、图片、短视频、直播，每一步流量消耗都是上一步的几十倍甚至上百倍。正是因为流量足够便宜，后面的形态才有可能成立。Token 也一样，如果 Token 不够便宜，AI 就会永远停留在“你问一句我答一句”的阶段，Agentic Engineering 和 Autonomous Organization 根本跑不起来。

四、Token 正在变成标准化商品

讲到这里，可能有人会问：便宜的 Token 质量会不会差？

这个问题放在一两年前确实成立。那时候各家模型的差距很大，选错了模型，效果天差地别。但现在情况不太一样了。

各家大模型的核心能力正在快速趋同。对于绝大多数实际应用场景，无论是写文案、做客服、数据提取还是代码辅助，主流模型之间的输出质量差异，用户体感上已经拉不开太大距离了。

更重要的是，“质量”这个维度本身正在被重新定义。以前比的是裸模型的推理能力和知识广度。现在有了 MCP、Skill、RAG、Agent 框架这些工具的加持，很多“模型本身不够聪明”的问题可以被工程手段补上。一个稍弱的模型加上好的工具链，实际效果可能比一个更强的裸模型还好。

所以竞争的叙事正在发生转变。从“谁家模型好”变成了“大家都能做差不多的事情时，谁的 token 更便宜”。这不是说质量不重要了，而是质量已经过了“够用”的门槛。一旦过了这个门槛，价格就成为新的决定性变量。

Token 正从一种稀缺的高级资源，变成一种标准化的基础商品。

五、要到那个未来，Token 必须先变便宜

这里有一个很有意思的因果关系：不是“等 AI 发展好了，Token 自然就便宜了”，而是只有 Token 先变便宜，AI 才能发展成那个样子。

这和流量的故事一模一样。是基础设施先到了某个阈值，新的内容形态才爆发出来。如果 Token 一直贵，它就会一直停留在聊天框里，停留在“问一句答一句”的阶段。只有便宜到某个临界点，Agent 协作、持续推理、环境智能这些东西才有可能真正铺开。

那 Token 怎么才能变便宜？

模型分层

不是所有事都要叫最贵的大模型。大模型负责最复杂、最稀缺的那部分能力，比如跨领域推理、长链条决策。大量通用任务会被更轻量的模型接住。真正昂贵的智能依然昂贵，但它只负责极少数高价值的任务。

缓存机制

系统会从“每次重新推理”变成大量复用和提前准备。今天很多 AI 请求本质上还在做一件非常原始的事：每次都从头想一遍。未来缓存、复用、预计算这些机制成熟之后，大量重复性的 Token 消耗会被省掉。

端侧算力

端侧、边缘和云端会共同分担。不是所有计算都要上云。当越来越多任务在设备端就能处理，云端的压力降低，平均成本天然往下走。

图为NVIDIA GTC 2026 中体内搭载了英伟达最新的 Jetson AGX Thor 边缘 AI 芯片的“雪宝”与老黄的实时互动

效率与能源

再往底层看，芯片效率的提升和能源成本的下降也在同步推动，只是这些变化的周期更长，不像软件层面那么立竿见影。

当这些力量叠加在一起，token 的价格曲线大概率会走出和流量一样的轨迹：先是缓慢下降，然后在某个点加速，最后便宜到你不再单独关注它。

六、还要等多久

十多年前我写“抱着平板在地铁里玩 LOL”的时候，不知道要多久才能实现。

现在说“Token 会像流量一样便宜”，我相信一定会比流量来得要更快。

← 上一篇：AI文明志|三大事件揭示行业巨变下一篇：AI落地真相：为何多数企业仍处于“试水”阶段 →