标签

AI应用洞察|众人皆用AI,但鲜有人用得恰当

发布时间:2026-06-27 06:46阅读:3

德银今年6月发布了一份报告,数据令人震惊。

他们做了一番计算:同样完成一项日常写作任务,采用Claude Fable 5需花费3.25美元,而用DeepSeek V4-Pro仅需5美分。65倍的成本差距,但任务效果却不相上下。

这还不算最夸张的。

据公开信息,优步(Uber)今年全面推行AI工具后,短短4个月就将全年AI预算耗尽。并非员工懈怠,恰恰相反——大家使用过于踊跃,踊跃到公司财务难以承受。

于是核心问题浮现:人人高呼“AI赋能”“AI增效”,但真正花时间思考“该选用哪款模型”的人,究竟有多少?

不是不懂运用AI,而是不懂挑选AI。

先看一组数据。AI基础设施企业Edgen在5月30日公布了一份调查,结果出人意料:95%的企业AI工作负荷,仍在前沿模型(即最昂贵的那类)上执行简单任务。

简单任务是什么定义?文本归类、格式变换、模板填充、回复确认——这些工作,用免费的开源模型都能胜任,但你每月却要向OpenAI、Anthropic支付成百上千美元。

这笔开销花得值不值?

Meta内部有个名为“Claudeonomics排行榜”的机制——没错,大公司确实在搞这种离谱的内部评比。他们让8.5万名员工参与,统计谁在AI上消耗的Token最多。结果揭晓:有位猛人,30天内烧掉2810亿Token,获得了“Token Legend”称号。

2810亿。这个数字荒唐到令人发笑。

游戏公司米哈游也曾进行类似的多Agent实验(据公开报道),让一批AI Agent协同处理一个复杂任务。结果一夜之间烧掉价值200万元人民币的Token,账单出来心疼了一整周。

你看,这并非哪家小公司不懂行。

大企业同样在烧钱。

不是不会用AI,是压根没考虑过“这道菜该用多少火力”。

误区一:最昂贵的等于最优秀的

德银在报告里用了句特别尖刻的话,称前沿模型的溢价,就像奢侈品手袋的身份象征定价——你买的不是包,而是“我消费得起”的心理优越感。

这话说得犀利,但非常现实。

许多人选模型,默认思路就是“最贵的肯定最可靠”。结果呢?写个会议通知耗费了GPT-4o的费用,产出结果与GPT-3.5毫无差异。

不是前沿模型不好,而是某些任务根本不匹配它的成本。

误区二:所有任务一视同仁

有些公司制定了规则,全员统一使用某款旗舰模型,美其名曰“保障品质”。

这就好比马桶堵塞却开辆豪车去买皮搋子——问题能解决,但代价完全不成比例。

任务类型不同,最优方案截然不同。用旗舰模型处理L1级别的简单任务,是效率最低下的“努力”。

误区三:只关注性能,不计较成本账

许多企业推行AI后,员工效率确实提高了——过去要花两小时的工作,现在半小时完成。

但一算总账:公司营收未变,市场份额未变,AI支出反而增加了一截。

效率提升了,成本也提升了,利润毫无变化。

这不是AI赋能,而是AI增负。

那如何破解这个难题?

我的建议是:先对任务进行分级。

这是本文提出的任务分级框架,核心思路很简单——按任务复杂度匹配模型能力。

L1 简单任务

文本归类、格式变换、模板填充、回复确认、数据录入

→ 选用轻量模型,成本仅为旗舰的1/10,但完成度相近

L2 中等任务

信息提取、简单内容生成、数据整理、摘要缩写、基础翻译

→ 选用中等模型,成本约为旗舰的1/3,完全够用

L3 复杂任务

深度分析、策略规划、长文写作、代码开发、创意生成

→ 旗舰模型,值得投入这笔费用

L4 关键决策

法律判断、医疗建议、重大商业决策、涉及伦理的风险评估

→ 旗舰模型+人工审核,AI提供参考,人做最终决断

牢记一个数字:80%的日常任务集中在L1和L2,但95%的工作负载跑在前沿模型上。

这种错配,才是成本失控的根本原因。

德银在报告里打了一个比方,我很欣赏:

用前沿模型做简单任务,就像开超跑去买菜——超跑本身没问题,但油耗是面包车的十倍。

你会算这笔账吗?

再提一个今年6月arXiv发表的论文结论:研究人员测试了Claude Haiku 4.5和Claude Sonnet 4.6在代码审查任务上的表现。结果Haiku——那个更轻量、更廉价的版本——一致性优于Sonnet,同时成本低3.2倍。

这不仅仅是“够用就行”,而是廉价模型在特定任务上确实更优。

这说明了什么?

选模型不是选手机,不是CPU越强越好。是选工具,不是选装备。手术刀比电锯贵,但做精细手术你只能用手术刀。

根据公开案例分析,某团队通过“模型路由”的方式优化成本:简单步骤用轻量模型,复杂步骤切换旗舰模型,最终成本下降60%以上,质量无显著下滑。

核心逻辑就一句话:会用AI是执行力,会选AI是判断力。

不搞虚的,给你三个问题,下次用AI之前先问自己:

问题1:这个任务属于哪个级别?

是简单分类(L1)还是深度分析(L3+)?先定性再选工具。

问题2:质量容错率和任务频率如何?

如果每天要跑100次,即使单次节省微小,放大到全年也是大钱。如果一次失误影响不大,轻量模型完全够用。

问题3:有没有固定的分级机制?

把L1/L2任务写成团队 SOP,强制用轻量模型,把旗舰模型留给真正需要的地方。

三个问题,想清楚再行动。

写到这里,本周的《AI应用洞察》系列6篇基本结束了。

回顾一下我们探讨过的:内容贬值是确定的;泡沫的本质是绝大多数人只是浅尝辄止;真正在涨价的是可信度、节律和人格化自信;AI的能力分化已经开始;信任是AI时代最贵的资产。

这几件事,最终都指向同一个结论:

判断力,是AI时代最稀缺的能力。

会写文案不稀奇,会选模型才是本事。

会做内容不稀奇,会建信任才是壁垒。

会用AI不稀奇,能控制成本才是真懂。

往期内容

AI应用洞察|AI把所有人拉平了,但这件事没有

AI应用洞察|写作工具在流血,代码工具在疯涨:AI的能力分化已经开始

AI应用洞察|AI时代,这3种能力正在疯狂涨价

AI应用洞察 | 这3种能力正在疯狂涨价

AI应用洞察 | 10亿人在用AI,但绝大多数只是“浅尝辄止”

研报解读|65倍溢价!德银揭穿AI“身份定价”真相

研报解读|AON 《2026全球人力资本趋势研究报告》

研报解读|AI烧的不只是电:AI一天“喝”掉3.8亿升水 ,一份没人敢看的联合国报告

研报解读|2026年5月首席经济学家展望报告

研报解读|斯坦福 企业级 AI 实战手册

研报解读|《算法战争:人工智能时代的新范式》

研报解读|创意智能:营销新引擎,增长新赛道

研报解读|《数字中国发展报告(2025 年)》

研报解读|《2025年思科网络安全就绪度指数报告》

研报解读|《海外智能工厂案例集(2026 版)》

研报解读|《重塑生物制药制造:从研发到产业化的智能跃迁》

研报解读|《面向下一代 AI 基础设施 800V 直流架构白皮书》

研报解读|《AI 在端点管理与安全融合中的关键作用分析报告》

研报解读|你正在用的AI,可能已经成了黑客的武器,HiddenLayer 2026 AI威胁报告深度解读

研报解读|摩根士丹利《2026年中国新兴前沿领域:人工智能路径-以更低算力成本实现更高智能回报报告》

研报解读|一图看懂“AI原生工作流”:你和AI的高效协作,就靠这10个关键词

研报解读|爱立信《2026 从数据混乱到 AI 就绪的数据网格》白皮书

研报解读|《代理型 AI 的未来:前瞻报告》看懂AI从工具到助手的巨变,抓住机遇规避风险

研报解读|《OpenAI:AI 就业转型框架:人工智能对就业的短期影响研究》

研报解读|中国信通院《2026智能算力服务全景解读:万亿市场、四大趋势、全产业链机遇》

研报解读|GSMA《2026年规模化AI影响力报告》

研报解读 | 世界经济论坛重磅报告:AI不是工具,是组织革命!90%企业还在做无用功

研报解读 | BCG 2026重磅报告《AI优先型企业制胜未来:财产与意外伤害险研究报告》

研报解读 | 华为AI安全白皮书深度解读:AI不是黑箱,安全才是底线

研报解读 | 华为《AI DC 白皮书》重磅发布:算力成为新“黑金”

研报解读 | 2026计算机行业重磅展望:国产算力全面突破,AI应用迎来爆发元年

研报解读 | 高盛2026年AI报告核心解读:AI不会“吃掉”软件,但会彻底重构软件行业

研报解读 | 摩根士丹利《全球科技行业研究:存储领域-如何布局新的AI瓶颈》

研报解读 | AI指数报告深度解读及对2026年数据行业的影响分析

研报解读 | 2026 AI 代理五大趋势:重塑商业的核心变革来了!

政策解读 | 2026数据市场新政落地!全国一体化加速,算力将成AI落地核心抓手

专题解读 | 新国标+新网安法背景下,佛山市云计算大数据协会灾备中心建设思路