AI应用洞察|众人皆用AI,但鲜有人用得恰当
德银今年6月发布了一份报告,数据令人震惊。
他们做了一番计算:同样完成一项日常写作任务,采用Claude Fable 5需花费3.25美元,而用DeepSeek V4-Pro仅需5美分。65倍的成本差距,但任务效果却不相上下。
这还不算最夸张的。
据公开信息,优步(Uber)今年全面推行AI工具后,短短4个月就将全年AI预算耗尽。并非员工懈怠,恰恰相反——大家使用过于踊跃,踊跃到公司财务难以承受。
于是核心问题浮现:人人高呼“AI赋能”“AI增效”,但真正花时间思考“该选用哪款模型”的人,究竟有多少?
不是不懂运用AI,而是不懂挑选AI。
先看一组数据。AI基础设施企业Edgen在5月30日公布了一份调查,结果出人意料:95%的企业AI工作负荷,仍在前沿模型(即最昂贵的那类)上执行简单任务。
简单任务是什么定义?文本归类、格式变换、模板填充、回复确认——这些工作,用免费的开源模型都能胜任,但你每月却要向OpenAI、Anthropic支付成百上千美元。
这笔开销花得值不值?
Meta内部有个名为“Claudeonomics排行榜”的机制——没错,大公司确实在搞这种离谱的内部评比。他们让8.5万名员工参与,统计谁在AI上消耗的Token最多。结果揭晓:有位猛人,30天内烧掉2810亿Token,获得了“Token Legend”称号。
2810亿。这个数字荒唐到令人发笑。
游戏公司米哈游也曾进行类似的多Agent实验(据公开报道),让一批AI Agent协同处理一个复杂任务。结果一夜之间烧掉价值200万元人民币的Token,账单出来心疼了一整周。
你看,这并非哪家小公司不懂行。
大企业同样在烧钱。
不是不会用AI,是压根没考虑过“这道菜该用多少火力”。
误区一:最昂贵的等于最优秀的
德银在报告里用了句特别尖刻的话,称前沿模型的溢价,就像奢侈品手袋的身份象征定价——你买的不是包,而是“我消费得起”的心理优越感。
这话说得犀利,但非常现实。
许多人选模型,默认思路就是“最贵的肯定最可靠”。结果呢?写个会议通知耗费了GPT-4o的费用,产出结果与GPT-3.5毫无差异。
不是前沿模型不好,而是某些任务根本不匹配它的成本。
误区二:所有任务一视同仁
有些公司制定了规则,全员统一使用某款旗舰模型,美其名曰“保障品质”。
这就好比马桶堵塞却开辆豪车去买皮搋子——问题能解决,但代价完全不成比例。
任务类型不同,最优方案截然不同。用旗舰模型处理L1级别的简单任务,是效率最低下的“努力”。
误区三:只关注性能,不计较成本账
许多企业推行AI后,员工效率确实提高了——过去要花两小时的工作,现在半小时完成。
但一算总账:公司营收未变,市场份额未变,AI支出反而增加了一截。
效率提升了,成本也提升了,利润毫无变化。
这不是AI赋能,而是AI增负。
那如何破解这个难题?
我的建议是:先对任务进行分级。
这是本文提出的任务分级框架,核心思路很简单——按任务复杂度匹配模型能力。
L1 简单任务
文本归类、格式变换、模板填充、回复确认、数据录入
→ 选用轻量模型,成本仅为旗舰的1/10,但完成度相近
L2 中等任务
信息提取、简单内容生成、数据整理、摘要缩写、基础翻译
→ 选用中等模型,成本约为旗舰的1/3,完全够用
L3 复杂任务
深度分析、策略规划、长文写作、代码开发、创意生成
→ 旗舰模型,值得投入这笔费用
L4 关键决策
法律判断、医疗建议、重大商业决策、涉及伦理的风险评估
→ 旗舰模型+人工审核,AI提供参考,人做最终决断
牢记一个数字:80%的日常任务集中在L1和L2,但95%的工作负载跑在前沿模型上。
这种错配,才是成本失控的根本原因。
德银在报告里打了一个比方,我很欣赏:
用前沿模型做简单任务,就像开超跑去买菜——超跑本身没问题,但油耗是面包车的十倍。
你会算这笔账吗?
再提一个今年6月arXiv发表的论文结论:研究人员测试了Claude Haiku 4.5和Claude Sonnet 4.6在代码审查任务上的表现。结果Haiku——那个更轻量、更廉价的版本——一致性优于Sonnet,同时成本低3.2倍。
这不仅仅是“够用就行”,而是廉价模型在特定任务上确实更优。
这说明了什么?
选模型不是选手机,不是CPU越强越好。是选工具,不是选装备。手术刀比电锯贵,但做精细手术你只能用手术刀。
根据公开案例分析,某团队通过“模型路由”的方式优化成本:简单步骤用轻量模型,复杂步骤切换旗舰模型,最终成本下降60%以上,质量无显著下滑。
核心逻辑就一句话:会用AI是执行力,会选AI是判断力。
不搞虚的,给你三个问题,下次用AI之前先问自己:
问题1:这个任务属于哪个级别?
是简单分类(L1)还是深度分析(L3+)?先定性再选工具。
问题2:质量容错率和任务频率如何?
如果每天要跑100次,即使单次节省微小,放大到全年也是大钱。如果一次失误影响不大,轻量模型完全够用。
问题3:有没有固定的分级机制?
把L1/L2任务写成团队 SOP,强制用轻量模型,把旗舰模型留给真正需要的地方。
三个问题,想清楚再行动。
写到这里,本周的《AI应用洞察》系列6篇基本结束了。
回顾一下我们探讨过的:内容贬值是确定的;泡沫的本质是绝大多数人只是浅尝辄止;真正在涨价的是可信度、节律和人格化自信;AI的能力分化已经开始;信任是AI时代最贵的资产。
这几件事,最终都指向同一个结论:
判断力,是AI时代最稀缺的能力。
会写文案不稀奇,会选模型才是本事。
会做内容不稀奇,会建信任才是壁垒。
会用AI不稀奇,能控制成本才是真懂。
往期内容
AI应用洞察|AI把所有人拉平了,但这件事没有
AI应用洞察|写作工具在流血,代码工具在疯涨:AI的能力分化已经开始
AI应用洞察|AI时代,这3种能力正在疯狂涨价
AI应用洞察 | 这3种能力正在疯狂涨价
AI应用洞察 | 10亿人在用AI,但绝大多数只是“浅尝辄止”
研报解读|65倍溢价!德银揭穿AI“身份定价”真相
研报解读|AON 《2026全球人力资本趋势研究报告》
研报解读|AI烧的不只是电:AI一天“喝”掉3.8亿升水 ,一份没人敢看的联合国报告
研报解读|2026年5月首席经济学家展望报告
研报解读|斯坦福 企业级 AI 实战手册
研报解读|《算法战争:人工智能时代的新范式》
研报解读|创意智能:营销新引擎,增长新赛道
研报解读|《数字中国发展报告(2025 年)》
研报解读|《2025年思科网络安全就绪度指数报告》
研报解读|《海外智能工厂案例集(2026 版)》
研报解读|《重塑生物制药制造:从研发到产业化的智能跃迁》
研报解读|《面向下一代 AI 基础设施 800V 直流架构白皮书》
研报解读|《AI 在端点管理与安全融合中的关键作用分析报告》
研报解读|你正在用的AI,可能已经成了黑客的武器,HiddenLayer 2026 AI威胁报告深度解读
研报解读|摩根士丹利《2026年中国新兴前沿领域:人工智能路径-以更低算力成本实现更高智能回报报告》
研报解读|一图看懂“AI原生工作流”:你和AI的高效协作,就靠这10个关键词
研报解读|爱立信《2026 从数据混乱到 AI 就绪的数据网格》白皮书
研报解读|《代理型 AI 的未来:前瞻报告》看懂AI从工具到助手的巨变,抓住机遇规避风险
研报解读|《OpenAI:AI 就业转型框架:人工智能对就业的短期影响研究》
研报解读|中国信通院《2026智能算力服务全景解读:万亿市场、四大趋势、全产业链机遇》
研报解读|GSMA《2026年规模化AI影响力报告》
研报解读 | 世界经济论坛重磅报告:AI不是工具,是组织革命!90%企业还在做无用功
研报解读 | BCG 2026重磅报告《AI优先型企业制胜未来:财产与意外伤害险研究报告》
研报解读 | 华为AI安全白皮书深度解读:AI不是黑箱,安全才是底线
研报解读 | 华为《AI DC 白皮书》重磅发布:算力成为新“黑金”
研报解读 | 2026计算机行业重磅展望:国产算力全面突破,AI应用迎来爆发元年
研报解读 | 高盛2026年AI报告核心解读:AI不会“吃掉”软件,但会彻底重构软件行业
研报解读 | 摩根士丹利《全球科技行业研究:存储领域-如何布局新的AI瓶颈》
研报解读 | AI指数报告深度解读及对2026年数据行业的影响分析
研报解读 | 2026 AI 代理五大趋势:重塑商业的核心变革来了!
政策解读 | 2026数据市场新政落地!全国一体化加速,算力将成AI落地核心抓手
专题解读 | 新国标+新网安法背景下,佛山市云计算大数据协会灾备中心建设思路