AI应用洞察|众人皆用AI，但鲜有人用得恰当

发布时间：2026-06-27 06:46阅读：3

德银今年6月发布了一份报告，数据令人震惊。

他们做了一番计算：同样完成一项日常写作任务，采用Claude Fable 5需花费3.25美元，而用DeepSeek V4-Pro仅需5美分。65倍的成本差距，但任务效果却不相上下。

这还不算最夸张的。

据公开信息，优步（Uber）今年全面推行AI工具后，短短4个月就将全年AI预算耗尽。并非员工懈怠，恰恰相反——大家使用过于踊跃，踊跃到公司财务难以承受。

于是核心问题浮现：人人高呼“AI赋能”“AI增效”，但真正花时间思考“该选用哪款模型”的人，究竟有多少？

不是不懂运用AI，而是不懂挑选AI。

先看一组数据。AI基础设施企业Edgen在5月30日公布了一份调查，结果出人意料：95%的企业AI工作负荷，仍在前沿模型（即最昂贵的那类）上执行简单任务。

简单任务是什么定义？文本归类、格式变换、模板填充、回复确认——这些工作，用免费的开源模型都能胜任，但你每月却要向OpenAI、Anthropic支付成百上千美元。

这笔开销花得值不值？

Meta内部有个名为“Claudeonomics排行榜”的机制——没错，大公司确实在搞这种离谱的内部评比。他们让8.5万名员工参与，统计谁在AI上消耗的Token最多。结果揭晓：有位猛人，30天内烧掉2810亿Token，获得了“Token Legend”称号。

2810亿。这个数字荒唐到令人发笑。

游戏公司米哈游也曾进行类似的多Agent实验（据公开报道），让一批AI Agent协同处理一个复杂任务。结果一夜之间烧掉价值200万元人民币的Token，账单出来心疼了一整周。

你看，这并非哪家小公司不懂行。

大企业同样在烧钱。

不是不会用AI，是压根没考虑过“这道菜该用多少火力”。

误区一：最昂贵的等于最优秀的

德银在报告里用了句特别尖刻的话，称前沿模型的溢价，就像奢侈品手袋的身份象征定价——你买的不是包，而是“我消费得起”的心理优越感。

这话说得犀利，但非常现实。

许多人选模型，默认思路就是“最贵的肯定最可靠”。结果呢？写个会议通知耗费了GPT-4o的费用，产出结果与GPT-3.5毫无差异。

不是前沿模型不好，而是某些任务根本不匹配它的成本。

误区二：所有任务一视同仁

有些公司制定了规则，全员统一使用某款旗舰模型，美其名曰“保障品质”。

这就好比马桶堵塞却开辆豪车去买皮搋子——问题能解决，但代价完全不成比例。

任务类型不同，最优方案截然不同。用旗舰模型处理L1级别的简单任务，是效率最低下的“努力”。

误区三：只关注性能，不计较成本账

许多企业推行AI后，员工效率确实提高了——过去要花两小时的工作，现在半小时完成。

但一算总账：公司营收未变，市场份额未变，AI支出反而增加了一截。

效率提升了，成本也提升了，利润毫无变化。

这不是AI赋能，而是AI增负。

那如何破解这个难题？

我的建议是：先对任务进行分级。

这是本文提出的任务分级框架，核心思路很简单——按任务复杂度匹配模型能力。

L1 简单任务

文本归类、格式变换、模板填充、回复确认、数据录入

→ 选用轻量模型，成本仅为旗舰的1/10，但完成度相近

L2 中等任务

信息提取、简单内容生成、数据整理、摘要缩写、基础翻译

→ 选用中等模型，成本约为旗舰的1/3，完全够用

L3 复杂任务

深度分析、策略规划、长文写作、代码开发、创意生成

→ 旗舰模型，值得投入这笔费用

L4 关键决策

法律判断、医疗建议、重大商业决策、涉及伦理的风险评估

→ 旗舰模型+人工审核，AI提供参考，人做最终决断

牢记一个数字：80%的日常任务集中在L1和L2，但95%的工作负载跑在前沿模型上。

这种错配，才是成本失控的根本原因。

德银在报告里打了一个比方，我很欣赏：

用前沿模型做简单任务，就像开超跑去买菜——超跑本身没问题，但油耗是面包车的十倍。

你会算这笔账吗？

再提一个今年6月arXiv发表的论文结论：研究人员测试了Claude Haiku 4.5和Claude Sonnet 4.6在代码审查任务上的表现。结果Haiku——那个更轻量、更廉价的版本——一致性优于Sonnet，同时成本低3.2倍。

这不仅仅是“够用就行”，而是廉价模型在特定任务上确实更优。

这说明了什么？

选模型不是选手机，不是CPU越强越好。是选工具，不是选装备。手术刀比电锯贵，但做精细手术你只能用手术刀。

根据公开案例分析，某团队通过“模型路由”的方式优化成本：简单步骤用轻量模型，复杂步骤切换旗舰模型，最终成本下降60%以上，质量无显著下滑。

核心逻辑就一句话：会用AI是执行力，会选AI是判断力。

不搞虚的，给你三个问题，下次用AI之前先问自己：

问题1：这个任务属于哪个级别？

是简单分类（L1）还是深度分析（L3+）？先定性再选工具。

问题2：质量容错率和任务频率如何？

如果每天要跑100次，即使单次节省微小，放大到全年也是大钱。如果一次失误影响不大，轻量模型完全够用。

问题3：有没有固定的分级机制？

把L1/L2任务写成团队 SOP，强制用轻量模型，把旗舰模型留给真正需要的地方。

三个问题，想清楚再行动。

写到这里，本周的《AI应用洞察》系列6篇基本结束了。

回顾一下我们探讨过的：内容贬值是确定的；泡沫的本质是绝大多数人只是浅尝辄止；真正在涨价的是可信度、节律和人格化自信；AI的能力分化已经开始；信任是AI时代最贵的资产。

这几件事，最终都指向同一个结论：

判断力，是AI时代最稀缺的能力。

会写文案不稀奇，会选模型才是本事。

会做内容不稀奇，会建信任才是壁垒。

会用AI不稀奇，能控制成本才是真懂。

往期内容

AI应用洞察｜AI把所有人拉平了，但这件事没有

AI应用洞察｜写作工具在流血，代码工具在疯涨：AI的能力分化已经开始

AI应用洞察｜AI时代，这3种能力正在疯狂涨价

AI应用洞察 | 这3种能力正在疯狂涨价

AI应用洞察｜ 10亿人在用AI，但绝大多数只是“浅尝辄止”

研报解读｜65倍溢价！德银揭穿AI“身份定价”真相

研报解读｜AON 《2026全球人力资本趋势研究报告》

研报解读｜AI烧的不只是电：AI一天“喝”掉3.8亿升水，一份没人敢看的联合国报告

研报解读｜2026年5月首席经济学家展望报告

研报解读｜斯坦福企业级 AI 实战手册

研报解读｜《算法战争：人工智能时代的新范式》

研报解读｜创意智能：营销新引擎，增长新赛道

研报解读｜《数字中国发展报告（2025 年）》

研报解读｜《2025年思科网络安全就绪度指数报告》

研报解读｜《海外智能工厂案例集（2026 版）》

研报解读｜《重塑生物制药制造：从研发到产业化的智能跃迁》

研报解读｜《面向下一代 AI 基础设施 800V 直流架构白皮书》

研报解读｜《AI 在端点管理与安全融合中的关键作用分析报告》

研报解读｜你正在用的AI，可能已经成了黑客的武器，HiddenLayer 2026 AI威胁报告深度解读

研报解读｜摩根士丹利《2026年中国新兴前沿领域：人工智能路径-以更低算力成本实现更高智能回报报告》

研报解读｜一图看懂“AI原生工作流”：你和AI的高效协作，就靠这10个关键词

研报解读｜爱立信《2026 从数据混乱到 AI 就绪的数据网格》白皮书

研报解读｜《代理型 AI 的未来：前瞻报告》看懂AI从工具到助手的巨变，抓住机遇规避风险

研报解读｜《OpenAI：AI 就业转型框架：人工智能对就业的短期影响研究》

研报解读｜中国信通院《2026智能算力服务全景解读：万亿市场、四大趋势、全产业链机遇》

研报解读｜GSMA《2026年规模化AI影响力报告》

研报解读 | 世界经济论坛重磅报告：AI不是工具，是组织革命！90%企业还在做无用功

研报解读 | BCG 2026重磅报告《AI优先型企业制胜未来：财产与意外伤害险研究报告》

研报解读 | 华为AI安全白皮书深度解读：AI不是黑箱，安全才是底线

研报解读 | 华为《AI DC 白皮书》重磅发布：算力成为新“黑金”

研报解读 | 2026计算机行业重磅展望：国产算力全面突破，AI应用迎来爆发元年

研报解读 | 高盛2026年AI报告核心解读：AI不会“吃掉”软件，但会彻底重构软件行业

研报解读 | 摩根士丹利《全球科技行业研究：存储领域-如何布局新的AI瓶颈》

研报解读 | AI指数报告深度解读及对2026年数据行业的影响分析

研报解读 | 2026 AI 代理五大趋势：重塑商业的核心变革来了！

政策解读 | 2026数据市场新政落地！全国一体化加速，算力将成AI落地核心抓手

专题解读 | 新国标+新网安法背景下，佛山市云计算大数据协会灾备中心建设思路

← 上一篇：AI能生成职业照写真,却无法复刻那个真实瞬间下一篇：AI算力激增倒逼电源架构革新 →