SaaS-Bench评测揭示:AI办公的残酷现实与环保困境
今天想和大家分享一组令人尴尬的数据,以及一个比尴尬更值得深思的问题。
2026年被业界称为"AI Agent元年"。在博鳌论坛上,各大厂商纷纷推出Computer-Use功能——听起来,AI替人类工作的美好前景似乎已经触手可及。
然而就在同一天,一份评测报告彻底打破了这种乐观预期。
5月25日,UniPat AI发布了SaaS-Bench评测报告。该报告选取23个真实SaaS系统、106个办公任务,对Claude、Kimi、Gemini等主流大模型进行了全面测试。
测试结果令人震惊:表现最优秀的Claude Opus 4.7,完全通过率仅为3.8%。106个任务中,仅有4个能够完整正确完成。
Kimi K2.5?0%。Gemini 3.1 Pro?0%。没有任何一个任务能够顺利走完全程。
行业内称之为"元年",实际应用中却只是"刚刚起步"。这种反差确实触目惊心。
但这只是故事的第一层。
故事的另一面,很少有人同时追问:训练出这个"3.8%通过率"的模型,究竟消耗了多少电力?
根据IEA 2026年报告,前沿AI模型的训练能耗在过去两年增长了4至5倍。一个GPT-4级别模型的单次训练消耗的电力,相当于130个美国家庭全年的用电总量。
而推理阶段的能耗——也就是你每次让AI帮你"撰写周报"时——正以更快的速度增长。因为训练只需进行一次,推理却要进行无数次。
SaaS-Bench告诉我们:AI还不会工作。AI能耗报告告诉我们:它不会工作,但已经非常"能吃电"了。
这两条线索汇聚在一起,指向一个被严重忽视的问题——绿色AI的悖论:我们期望AI帮助我们节能,但AI本身正在成为一个新的耗电巨兽。
很多人可能认为,AI评测不过是提几个问题、看看对话质量而已。
SaaS-Bench完全不是这种情况。
它部署了23个通过Docker本地安装的真实开源SaaS系统,覆盖6大专业领域:
📍关键点:每个系统都填充了真实业务数据。有用户、有项目、有订单、有历史文件。Agent进入的不是空白的测试页面,而是一个混乱的、有干扰项的、跨系统关联的真实办公环境。
106个任务的复杂度如何?93.4%的任务跨越至少2个应用,其中53个任务横跨3个应用。97.3%的文本任务操作步数超过100步,最长的一条执行路径走了300多步。
这就是真实办公场景。不是点一个按钮就能完成,而是在几个系统之间来回切换、填表、核对、修正、再核对。
直接看数据:
📊SaaS-Bench成绩单(2026.05)
什么叫"检查点分数"和"完全通过率"的区别?
检查点分数相当于"多少步骤做对了"。Claude走对了43.9%的步骤——这已经是最佳表现了。
但"完全通过"意味着从头到尾零失误。一个任务有12个检查点,即使每个检查点通过率是95%,12个全过的概率也只有54%。
而在多步骤、跨系统的任务中,这类复杂任务在SaaS-Bench中比比皆是。
现在看另一份"成绩单"——AI的能耗账单。这是大多数人忽略的,但在"低碳"主题下,它才是最核心的问题。
2026年IEA(国际能源署)发布了一份专题报告,标题直白——《当AI学会"创造",地球却在"碳息"?》。报告中有一个数字让人难以安眠:
全球数据中心2026年的用电量,预计达到450太瓦时——相当于整个阿根廷全国的用电量。而其中40%以上,是AI训练和推理消耗的。
更重要的是增长速度。2024至2026年,前沿大模型的训练计算量每12个月增长4至5倍,对应的电力消耗同比例膨胀。而推理阶段的能耗增速更快——因为训练只做一次,推理要做无数次。
🔍一组对比数据
注意看。你每让AI Agent帮你"自动完成一个跨系统任务",消耗的电力,可能是一次普通对话的100倍。
而SaaS-Bench告诉我们:这些任务中,96.2%是失败的。
🌏这就是绿色AI悖论的核心:我们用高耗能的AI去做一件它成功率只有3.8%的事——然后用"AI能帮我们节能"来安慰自己。
SaaS-Bench论文将Agent的问题总结为四种模式。每一条,都与"效率"和"耗能"密切相关。
这是一个纯粹的数学问题:任务越长,出错累积越可怕。
评测数据显示,所有模型都呈现"通过率随任务推进下降"的不可逆趋势。前几个检查点还像模像样,到了后半段就一路下滑。跨应用数从1到4,平均分从53%直接跌到20%。
Agent没有"全局记忆"。它看着当前页面做事,做完了就忘了前面干了什么。
更麻烦的是,评测发现检查点数量对成功率的影响呈指数级放大。检查点不超过6的任务,平均分还有65%;一旦检查点达到18及以上,平均分直接掉到27%。这不是线性下降,而是断崖式的。
效率视角:Agent在长任务上会反复犯错、反复重试。每重试一次,就是一次额外的推理耗能。一个本来5步能完成的任务,Agent可能走了50步还没搞定——电力消耗放大了10倍,成功率却只有3.8%。
这就是为什么"绿色AI办公"目前是个伪命题——用着高耗能的GPU,干着96.2%会失败的任务。
任务要求:在CRM里创建公司客户"Arcturus Digital"。Agent填了联系人姓名,又顺带填了公司名——结果触发了系统的"个人客户"逻辑。客户被存成了"Elena Vasquez(个人)"。此后10张发票、付款记录、账户对账,全部挂在了错误的实体下面。
论文里算了一笔账:这个错误节点的权重只有3%,却导致了下游30%的分数损失。
效率视角:AI不会像人类一样"诶不对,这个客户类型是不是错了"。它在一个错误上继续建楼,浪费大量计算资源去完成一个根本错误的任务。用高耗能的AI推理,干了一件错误的事——这是最贵的无效劳动。
Claude Opus 4.6在一个任务的第124步识别出了日期错误,执行了修改操作。
但——没有回到页面复查。它觉得"我改了"就等于"改好了"。
第210步,Agent提交任务时自信汇报:"日期已修复。"
验证器一看:页面上的日期纹丝未改。
效率视角:缺少闭环验证,意味着Agent会反复提交错误结果,人类不得不介入复核。AI加人工复核的能耗,比直接人工做还高。这不是节能,这是增耗。
Claude Sonnet 4.6在同一个任务的三次独立运行中,分数从0.00到0.68。
初始状态完全相同。差别来自路径依赖。
🔍这意味着:你让AI替你干10分钟活,结果可能是满分,可能是一团糟——但你付的电费是一样的。
把上面两条线并在一起,问题就浮现了。
全球正在押注AI来应对气候变化。联合国、欧盟、中国都发布了"AI助力碳中和"的报告。应用场景包括:
这些都是真实有效的方向。IEA估计,AI驱动的能效优化,到2030年可以抵消AI自身能耗的30至50%。
但问题是——那是在AI真正跑通的前提下。
SaaS-Bench告诉我们:当前AI Agent在真实办公场景下,完全通过率不到4%。
这意味着什么?意味着大量的AI办公工具,现在处于"高耗能低产出"的状态——用着数据中心的电,产出着3.8%的有效工作。
这不是绿色AI。这是高碳AI。
更值得警惕的是另一个趋势——Jevons悖论。
这是19世纪英国经济学家William Stanley Jevons提出的一个反直觉现象:技术进步让资源利用效率提升,但总消耗量反而上升了。因为效率提升降低了成本,使用量爆炸式增长。
放在AI这里,就是这个逻辑:
AI让"调用一次智能"的成本下降了100倍→全球调用量上升了10000倍→总能耗不减反增。
IEA报告里明确用了这个词——"Jevons悖论正在AI领域上演"。
所以"绿色AI"的真正含义,不是"AI能帮我们节能",而是"让AI自身变得更节能"——这是两个完全不同的命题。
🌏一个判断:在AI自身能耗降下来之前,所有"AI助力碳中和"的叙事,都是先看成果、后算账的——而账可能算不过来。
更值得警惕的是另一个趋势——Jevons悖论。
这是19世纪英国经济学家William Stanley Jevons提出的一个反直觉现象:技术进步让资源利用效率提升,但总消耗量反而上升了。因为效率提升降低了成本,使用量爆炸式增长。
放在AI这里,就是这个逻辑:
AI让"调用一次智能"的成本下降了100倍→全球调用量上升了10000倍→总能耗不减反增。
IEA报告里明确用了这个词——"Jevons悖论正在AI领域上演"。
所以"绿色AI"的真正含义,不是"AI能帮我们节能",而是"让AI自身变得更节能"——这是两个完全不同的命题。
🌏一个判断:在AI自身能耗降下来之前,所有"AI助力碳中和"的叙事,都是先看成果、后算账的——而账可能算不过来。
🌏一个判断:真正的绿色AI,不是"用AI监控碳排放",而是先让AI自己别浪费电。一个每次做事只有3.8%成功率的Agent,不管它监控多少碳排放,它自己首先就是碳排放大户。
批评完了,说点建设性的。
2026年中央广播电视总台联合多家机构发布的"AI十大趋势"中,"绿色AI"位列其中。但报告里说的"绿色AI",跟市面上大多数人的理解不太一样。
真正的绿色AI,不是"用AI做环保",而是"让AI自己变绿"。
具体有三条路径,每一条都有真实的落地案例。
SaaS-Bench暴露的核心问题之一是:任务越长,Agent越容易翻车。
这是一个纯粹的数学问题。一个任务有N个检查点,每个检查点通过率是P,那么全过的概率是P的N次方。N越大,结果越趋近于零。
📋实操案例:财务对账任务拆解
原来(长任务):让Agent"帮我完成本月财务对账"——跨4个系统,100多步,失败率95%。
改后(短任务):拆成10个独立子任务:
结果:每个子任务独立执行,人工在中间做整合和复核。整体完成率从5%提升到40%以上。
节能效果:任务拆解加人工复核节点,减少了Agent无效推理的步数。更少的token,更少的电,更高的成功率。按IEA的估算,一次无效的长链推理(100多步)消耗的电力,相当于50至100次普通对话——拆短之后,这部分浪费直接砍掉80%。
SaaS-Bench论文最后指出:未来的SaaS软件可能需要为Agent重新设计。
这话听起来抽象,其实非常具体。
当前Agent通过"看屏幕、点按钮"来操作软件——这叫GUI(图形用户界面)操作。对Agent来说,这是最低效的方式:
两条链路的能耗差距:API调用的能耗,只有GUI操作的1/100到1/1000。
📍一个具体对比
让Agent"在CRM里创建一个客户":
这就是为什么"绿色AI办公"的前提,是SaaS厂商全面开放API。今天国内主流SaaS(销售易、纷享客、北森等)都在做这件事——不是因为Agent火了,而是因为API-first本身就是更节能的架构。数据中心喜欢API调用,不喜欢截图推理。
这是我想提出的一个新想法,目前还没有人认真做。
当前所有AI评测(包括SaaS-Bench)只衡量"准确率",不衡量"能耗效率"。
这就像评测汽车只测"加速快不快",不测"百公里耗多少油"——结果就是所有人都在堆马力,没人管油耗。
📊绿色Agent评测:设想方案
两个Agent,都完成了同一个任务。
当前评测:A和B都算"通过",B甚至可能因为"思考更充分"而得更高分。绿色评测:引入"能效比"指标等于完成任务消耗的token数除以任务复杂度。A比B节能80倍,A胜出。
这个指标一旦建立,会倒逼两件事:
IEA在2026年报告里提了一句:"如果没有能效约束,AI的能耗增长将在2030年前抵消掉它所能节约的全部能源。"
这句话值得所有做AI办公工具的人,贴在显示器边上。
SaaS-Bench这份评测,是2026年AI行业收到的最好的礼物之一。
不是说它好——是说它诚实。
在铺天盖地的"全自动办公"叙事里,有人站出来用23个真实系统、106个任务、实打实的数据说了一句:别吹了,先看看这个。
而"绿色AI悖论"——AI被用来节能,但AI自己是个耗能大户——这个话题,在2026年还很少有人认真讨论。
等大家回过神来的时候,全球数据中心的能耗可能已经超过了许多国家的全年用电量。
AI一定会在办公场景和节能场景中创造出巨大的价值。但不是通过取代人,也不是通过无节制地堆模型。
真正的绿色AI办公,是"人机协作加任务拆解加API优先"——用最少的电,做最多的事。
元年不是从"我们做到了"开始的——是从"我们知道哪里没做到,并且愿意面对能耗账单"开始的。
自知,才是进步的前提。
📝延伸阅读
——怿怿✨
[1] https://unipat.ai/blog/SaaS-Bench
[2] https://arxiv.org/abs/2605.15777