AI成本优化|第13章:Token经济学:3000预算如何达到30000效果
PART 01
小明和阿强是同事,都是软件开发工程师。
小明的情况:
每月AI费用:$215
使用感受:非常顺畅,响应及时,结果精准
工作内容:日常开发、代码检查、文档编写
阿强的情况:
每月AI费用:$2,180
使用感受:迟钝、缓慢、频繁超出上下文限制
工作内容:与小明完全相同
造成10倍费用差距的原因是什么?
不是他们使用的AI服务不同,不是他们的项目难度不同,而是——小明掌握Token经济学,阿强不了解。
///
PART 02
Token是AI处理文字的最小计量单位。可以把Token看作AI的「一口食物」。
Token换算标准:
英文Token估算:
-1个单词≈1.3Tokens
-"helloworld"=2Tokens
-一页纸≈500-800Tokens
中文Token估算:
-1个汉字≈1-2Tokens
-"你好世界"≈4Tokens
-一篇1000字的文章≈1500-2000Tokens
每次与AI交互,消耗的Token来自五个部分:
总Token消耗=输入Token(你的提问)
+输出Token(AI的回复)
+推理Token(AI的思维过程)
+缓存读Token(从上下文读取)
+缓存写Token(写入上下文)
最容易被忽视的消耗:工具调用输出
一次Playwright页面快照=56KB≈42,000Tokens
一次GitHubIssues查询(20条)=59KB≈44,000Tokens
一次访问日志读取=45KB≈34,000Tokens
如果每次对话有3-5次工具调用,
上下文窗口可能在一小时内就被占满!
///
PART 03
Anthropic的三款产品(Haiku、Sonnet、Opus)各有定位:
价格差异:
HaikuvsOpus:
-速度:Haiku比Opus快10倍
-费用:Haiku比Opus便宜60倍
-能力差距:简单任务几乎无差别
结论:
能用Haiku的地方用Haiku,能省60倍钱!
┌─────────────────────────────────────────────────────────────┐
││
│任务类型判断│
││
│是简单任务吗?(搜索、找文件、改一行代码)│
│↓是│
│→使用Haiku(最便宜,80%的情况够用)│
││
│是日常编码吗?(多文件实现、代码审查)│
│↓是│
│→使用Sonnet(性价比最佳)│
││
│是复杂任务吗?(架构设计、安全漏洞分析、深度推理)│
│↓是│
│→使用Opus(最强推理能力)│
││
└─────────────────────────────────────────────────────────────┘
场景:检查50个代码文件
用Opus检查50个文件:
-输入:50个文件×平均5KB=250KB≈187,500Tokens
-每千Token费用:$15/1M=$0.015
-单次费用:$15×0.1875=$2.81
-如果每天检查5次=$14/天×30天=$420/月
用Haiku检查50个文件(并行,4个Agent):
-每个Agent处理12-13个文件
-输入:每个Agent约50KB≈37,500Tokens
-单次费用:$0.25/1M×0.0375=$0.009/Agent
-4个Agent并行×$0.009=$0.036/次
-如果每天检查5次=$0.18/天×30天=$5.4/月
对比:$420/月 vs $5.4/月 = 78倍差距
///
PART 04
{
"model":"sonnet",
"env":{
"MAX_THINKING_TOKENS":"10000",
"CLAUDE_CODE_SUBAGENT_MODEL":"haiku"
}
}
为什么这三个配置最关键?
1.model:sonnet
-日常任务用Sonnet就够了
-Opus的能力在80%的情况下用不上
-60%费用直接省下来
2.MAX_THINKING_TOKENS:10000
-AI的「思维过程」也消耗Token
-默认值31,999太高了
-限制到10,000,70%思维费用省下来
3.CLAUDE_CODE_SUBAGENT_MODEL:haiku
-子Agent不需要用主模型的配置
-子任务通常是简单任务
-用Haiku,80%子任务费用省下来
{
"model":"sonnet",
"env":{
"MAX_THINKING_TOKENS":"10000",
"CLAUDE_CODE_SUBAGENT_MODEL":"haiku",
"ECC_SUBAGENT_MODEL_OVERRIDE":"haiku"
},
"compaction":{
"auto_trigger_threshold":0.75,
"summarize_model":"haiku"
}
}
压缩配置说明:
"compaction":{
"auto_trigger_threshold":0.75,//75%时自动压缩
"summarize_model":"haiku"//压缩用Haiku生成摘要(便宜)
}
///
PART 05
输入Token≈字符数/4(中文)或字符数/4(英文)
输出Token≈字数/2(中文)或单词数/0.75(英文)
工具输出Token≈文件大小KB×750
Anthropic官方Token计算器:
https://anthropic.com/context-window-calculator
场景:与AI讨论一个代码库
对话内容:
-你的问题:200字中文≈400Tokens
-AI回复:500字中文≈1000Tokens
-读取10个代码文件:10×10KB×750=75,000Tokens
-工具输出(bash命令):5KB×750=3,750Tokens
单次对话总Token:
400+1000+75000+3750=82,150Tokens
按Sonnet价格:$3/1MTokens
单次费用:$3×0.082=$0.246
如果每天50次对话:
$0.246×50=$12.3/天×30天=$369/月
优化前:
优化后:
节省:77%
///
PART 06
在OpenCode中,使用/cost命令查看当前会话开销:
/cost
预期输出:
┌─────────────────────────────────────────────────────────────┐
│当前会话费用统计│
├─────────────────────────────────────────────────────────────┤
││
│模型:Sonnet(claude-sonnet-4-20250514)│
││
│输入Tokens:125,432│
│输出Tokens:45,891│
│推理Tokens:23,456│
│总Tokens:194,779│
││
│当前费用:$0.58│
│预计本月费用:$348(基于当前使用模式)│
││
│与上月相比:-12%(优化生效中)│
││
└─────────────────────────────────────────────────────────────┘
/cost--trend
预期输出:
┌─────────────────────────────────────────────────────────────┐
│费用趋势(近30天)│
├─────────────────────────────────────────────────────────────┤
││
│日均费用:$11.6│
│最高单日:$28.3(周三-大量代码检查)│
│最低单日:$3.2(周末-轻度使用)│
││
│优化建议:│
│1.周三使用的子Agent可以切换到Haiku,预计节省$8/周│
│2.上下文压缩阈值可以降到70%,减少压缩频率│
││
└─────────────────────────────────────────────────────────────┘
/cost--alert--threshold20
当单日费用超过$20时,自动发送提醒。
///
PART 07
✅ 应该压缩的时机:
1.探索完成后
-用ExploreAgent分析完代码库
-已经获得关键信息
-接下来要开始实现
→压缩,保留分析结论
2.完成里程碑后
-功能开发完成
-测试全部通过
-准备提交代码
→压缩,保留完成状态
3.调试完成后
-Bug已定位并修复
-测试验证通过
-继续新工作前
→压缩,保留修复方案
4.重大上下文切换前
-从分析切换到实现
-从一个模块切换到另一个
-从调试切换到文档
→压缩,保留关键上下文
❌ 不应该压缩的时机:
1.调试进行中
-正在定位Bug
-上下文包含关键调试信息
-压缩可能丢失线索
2.实现进行到一半
-正在写一个复杂函数
-AI需要记住之前的实现细节
-压缩可能导致逻辑断层
3.多步骤推理中途
-AI正在执行复杂推理
-已经进行了10步中的第7步
-压缩会打断推理链条
时间线
─────────────────────────────────────────────────────────────→
探索阶段──→实现阶段──→测试阶段──→提交阶段
↓↓↓↓
压缩✓不压缩✗压缩✓不压缩✗
↓↓↓↓
保留分析调试中保留准备提交
结论测试结果
///
PART 08
每个MCP连接都有额外的Token开销:
10个MCP连接×500Tokens(Schema)=5,000Tokens/次
如果每天100次对话=500,000Tokens/天
按Sonnet价格=$3/1M=$1.5/天×30=$45/月
原则:配置20-30个MCP,实际启用<10个
策略:
1.按需启用
/mcpenablegithub#只需要GitHub时启用
/mcpdisablegithub#用完后禁用
2.用CLI替代MCP
ghCLI→GitHubMCP($45/月)→直接用CLI($0)
3.合并MCP
多个小MCP→合并成一个,减少Schema开销
4.活跃工具控制
/mcp#查看活跃服务器和上下文代价
活跃工具<80个
原则:对于高频操作,优先用CLI省成本;对于低频但复杂的操作,用MCP提效率。
///
PART 09
子Agent(Task Tool)有一个重要特性:每次调用都是独立的Session,不继承主Session的历史。
主Session:
-上下文窗口:200,000Tokens
-当前消耗:150,000Tokens(75%)
子Agent调用:
-新Session创建
-从干净状态开始
-上下文窗口:200,000Tokens
-当前消耗:0Tokens
错误做法:在主Session中读取大量文件
主Session:
Readfile1→10KB
Readfile2→10KB
Readfile3→10KB
...
Readfile50→10KB
主Session上下文:500KB被塞满
正确做法:用子Agent读取,主Session只接收摘要
主Session:
/subagent"explore-agent""分析src/auth目录"
子Agent(独立Session):
Readfile1→10KB
Readfile2→10KB
...
Readfile20→10KB
分析完成→返回摘要
主Session接收:
"用户认证模块分析结论:共20个文件,核心逻辑在login.ts..."
主Session上下文:只增加5KB
对比:
///
PART 10
原始做法:
你:用Opus检查这个50文件的代码库
AI:开始检查...
结果:
-耗时:30分钟
-费用:$8.50
-上下文:满了
优化做法:
你:用Sonnet+子Agent并行检查
AI:
Agent1:检查文件1-10(Haiku)
Agent2:检查文件11-20(Haiku)
Agent3:检查文件21-30(Haiku)
Agent4:检查文件31-40(Haiku)
Agent5:检查文件41-50(Haiku)
汇总检查结果
结果:
-耗时:8分钟(并行)
-费用:$0.35
-上下文:清爽
节省:95%费用,75%时间
原始做法:
你:用Opus帮我调试这个Bug
AI:看了代码,找不到问题
你:用Haiku再看看
AI:看了,还是找不到
你:还是用Opus吧
AI:找到了...
结果:
-3次模型切换
-费用:$12.50
-上下文:混乱
优化做法:
你:用Haiku定位问题,如果需要深度分析再告诉我
阶段1(Haiku):
-快速扫描代码
-定位到3个可疑点
-回报:"需要Opus深度分析login.ts:45"
阶段2(Opus):
-深度分析login.ts:45
-找到根因
-提供修复方案
阶段3(Haiku):
-实施修复
-验证修复
结果:
-模型切换:2次(按需)
-费用:$2.80
-上下文:清晰
节省:78%费用
原始做法:
你:用Opus帮我写API文档
AI:好的,开始写...
写了100页文档
结果:
-费用:$15.00
-质量:一般(Opus太聪明,容易过度设计)
优化做法:
你:用Haiku帮我写API文档
AI(Haiku):
-结构清晰
-重点突出
-符合团队风格
结果:
-费用:$0.25
-质量:足够好
节省:98%费用
///
PART 11
基于使用模式的月度成本估算
|任务类型|占比|模型|月Token|月费用|
|--------------|------|--------|---------|---------|
|探索/搜索|30%|Haiku|10M|$2.50|
|日常编码|40%|Sonnet|20M|$60.00|
|复杂分析|20%|Sonnet|10M|$30.00|
|深度推理|10%|Opus|5M|$75.00|
|--------------|------|--------|---------|---------|
|**总计**|100%|-|45M|**$167.50**|
□模型选择正确(简单任务用Haiku)
□MAX_THINKING_TOKENS设置在10000以下
□子Agent使用Haiku
□按需启用/禁用MCP
□使用ThinkinCode代替大量读取
□在正确时机压缩(75%阈值)
□使用/cost监控费用趋势
□避免在调试中途压缩
□子Agent读取文件,主Session只接收摘要
□高频操作用CLI代替MCP
///
PART 12
✅养成习惯:用Haiku处理简单任务,省60倍钱
✅配置好三个关键参数,每月自动省60-80%费用
✅用/cost监控费用趋势
✅按需启用MCP,不要全开
✅用子Agent做探索,主Session保持清爽
❌不要用Opus处理简单任务(浪费)
❌不要在调试中途压缩(丢失上下文)
❌不要让所有MCP一直开着(浪费Token)
❌不要在主Session读取大量文件(塞满上下文)
学会了如何省钱,下一步是让AI连接更多工具——
下一章:MCP扩展——用插件让AI连通一切,让AI能够读写Notion、管理Linear任务、帮你发Slack消息。
THANKS FOR READING
🦐 龙虾 · OpenClaw 技术分享