SaaS-Bench评测揭示:AI办公的残酷现实与环保困境

发布时间：2026-05-26 04:20阅读：17

今天想和大家分享一组令人尴尬的数据，以及一个比尴尬更值得深思的问题。

2026年被业界称为"AI Agent元年"。在博鳌论坛上，各大厂商纷纷推出Computer-Use功能——听起来，AI替人类工作的美好前景似乎已经触手可及。

然而就在同一天，一份评测报告彻底打破了这种乐观预期。

5月25日，UniPat AI发布了SaaS-Bench评测报告。该报告选取23个真实SaaS系统、106个办公任务，对Claude、Kimi、Gemini等主流大模型进行了全面测试。

测试结果令人震惊：表现最优秀的Claude Opus 4.7，完全通过率仅为3.8%。106个任务中，仅有4个能够完整正确完成。

Kimi K2.5？0%。Gemini 3.1 Pro？0%。没有任何一个任务能够顺利走完全程。

行业内称之为"元年"，实际应用中却只是"刚刚起步"。这种反差确实触目惊心。

但这只是故事的第一层。

故事的另一面，很少有人同时追问：训练出这个"3.8%通过率"的模型，究竟消耗了多少电力？

根据IEA 2026年报告，前沿AI模型的训练能耗在过去两年增长了4至5倍。一个GPT-4级别模型的单次训练消耗的电力，相当于130个美国家庭全年的用电总量。

而推理阶段的能耗——也就是你每次让AI帮你"撰写周报"时——正以更快的速度增长。因为训练只需进行一次，推理却要进行无数次。

SaaS-Bench告诉我们：AI还不会工作。AI能耗报告告诉我们：它不会工作，但已经非常"能吃电"了。

这两条线索汇聚在一起，指向一个被严重忽视的问题——绿色AI的悖论：我们期望AI帮助我们节能，但AI本身正在成为一个新的耗电巨兽。

很多人可能认为，AI评测不过是提几个问题、看看对话质量而已。

SaaS-Bench完全不是这种情况。

它部署了23个通过Docker本地安装的真实开源SaaS系统，覆盖6大专业领域：

📍关键点：每个系统都填充了真实业务数据。有用户、有项目、有订单、有历史文件。Agent进入的不是空白的测试页面，而是一个混乱的、有干扰项的、跨系统关联的真实办公环境。

106个任务的复杂度如何？93.4%的任务跨越至少2个应用，其中53个任务横跨3个应用。97.3%的文本任务操作步数超过100步，最长的一条执行路径走了300多步。

这就是真实办公场景。不是点一个按钮就能完成，而是在几个系统之间来回切换、填表、核对、修正、再核对。

直接看数据：

📊SaaS-Bench成绩单（2026.05）

什么叫"检查点分数"和"完全通过率"的区别？

检查点分数相当于"多少步骤做对了"。Claude走对了43.9%的步骤——这已经是最佳表现了。

但"完全通过"意味着从头到尾零失误。一个任务有12个检查点，即使每个检查点通过率是95%，12个全过的概率也只有54%。

而在多步骤、跨系统的任务中，这类复杂任务在SaaS-Bench中比比皆是。

现在看另一份"成绩单"——AI的能耗账单。这是大多数人忽略的，但在"低碳"主题下，它才是最核心的问题。

2026年IEA（国际能源署）发布了一份专题报告，标题直白——《当AI学会"创造"，地球却在"碳息"？》。报告中有一个数字让人难以安眠：

全球数据中心2026年的用电量，预计达到450太瓦时——相当于整个阿根廷全国的用电量。而其中40%以上，是AI训练和推理消耗的。

更重要的是增长速度。2024至2026年，前沿大模型的训练计算量每12个月增长4至5倍，对应的电力消耗同比例膨胀。而推理阶段的能耗增速更快——因为训练只做一次，推理要做无数次。

🔍一组对比数据

注意看。你每让AI Agent帮你"自动完成一个跨系统任务"，消耗的电力，可能是一次普通对话的100倍。

而SaaS-Bench告诉我们：这些任务中，96.2%是失败的。

🌏这就是绿色AI悖论的核心：我们用高耗能的AI去做一件它成功率只有3.8%的事——然后用"AI能帮我们节能"来安慰自己。

SaaS-Bench论文将Agent的问题总结为四种模式。每一条，都与"效率"和"耗能"密切相关。

这是一个纯粹的数学问题：任务越长，出错累积越可怕。

评测数据显示，所有模型都呈现"通过率随任务推进下降"的不可逆趋势。前几个检查点还像模像样，到了后半段就一路下滑。跨应用数从1到4，平均分从53%直接跌到20%。

Agent没有"全局记忆"。它看着当前页面做事，做完了就忘了前面干了什么。

更麻烦的是，评测发现检查点数量对成功率的影响呈指数级放大。检查点不超过6的任务，平均分还有65%；一旦检查点达到18及以上，平均分直接掉到27%。这不是线性下降，而是断崖式的。

效率视角：Agent在长任务上会反复犯错、反复重试。每重试一次，就是一次额外的推理耗能。一个本来5步能完成的任务，Agent可能走了50步还没搞定——电力消耗放大了10倍，成功率却只有3.8%。

这就是为什么"绿色AI办公"目前是个伪命题——用着高耗能的GPU，干着96.2%会失败的任务。

任务要求：在CRM里创建公司客户"Arcturus Digital"。Agent填了联系人姓名，又顺带填了公司名——结果触发了系统的"个人客户"逻辑。客户被存成了"Elena Vasquez（个人）"。此后10张发票、付款记录、账户对账，全部挂在了错误的实体下面。

论文里算了一笔账：这个错误节点的权重只有3%，却导致了下游30%的分数损失。

效率视角：AI不会像人类一样"诶不对，这个客户类型是不是错了"。它在一个错误上继续建楼，浪费大量计算资源去完成一个根本错误的任务。用高耗能的AI推理，干了一件错误的事——这是最贵的无效劳动。

Claude Opus 4.6在一个任务的第124步识别出了日期错误，执行了修改操作。

但——没有回到页面复查。它觉得"我改了"就等于"改好了"。

第210步，Agent提交任务时自信汇报："日期已修复。"

验证器一看：页面上的日期纹丝未改。

效率视角：缺少闭环验证，意味着Agent会反复提交错误结果，人类不得不介入复核。AI加人工复核的能耗，比直接人工做还高。这不是节能，这是增耗。

Claude Sonnet 4.6在同一个任务的三次独立运行中，分数从0.00到0.68。

初始状态完全相同。差别来自路径依赖。

🔍这意味着：你让AI替你干10分钟活，结果可能是满分，可能是一团糟——但你付的电费是一样的。

把上面两条线并在一起，问题就浮现了。

全球正在押注AI来应对气候变化。联合国、欧盟、中国都发布了"AI助力碳中和"的报告。应用场景包括：

这些都是真实有效的方向。IEA估计，AI驱动的能效优化，到2030年可以抵消AI自身能耗的30至50%。

但问题是——那是在AI真正跑通的前提下。

SaaS-Bench告诉我们：当前AI Agent在真实办公场景下，完全通过率不到4%。

这意味着什么？意味着大量的AI办公工具，现在处于"高耗能低产出"的状态——用着数据中心的电，产出着3.8%的有效工作。

这不是绿色AI。这是高碳AI。

更值得警惕的是另一个趋势——Jevons悖论。

这是19世纪英国经济学家William Stanley Jevons提出的一个反直觉现象：技术进步让资源利用效率提升，但总消耗量反而上升了。因为效率提升降低了成本，使用量爆炸式增长。

放在AI这里，就是这个逻辑：

AI让"调用一次智能"的成本下降了100倍→全球调用量上升了10000倍→总能耗不减反增。

IEA报告里明确用了这个词——"Jevons悖论正在AI领域上演"。

所以"绿色AI"的真正含义，不是"AI能帮我们节能"，而是"让AI自身变得更节能"——这是两个完全不同的命题。

🌏一个判断：在AI自身能耗降下来之前，所有"AI助力碳中和"的叙事，都是先看成果、后算账的——而账可能算不过来。

更值得警惕的是另一个趋势——Jevons悖论。

放在AI这里，就是这个逻辑：

AI让"调用一次智能"的成本下降了100倍→全球调用量上升了10000倍→总能耗不减反增。

IEA报告里明确用了这个词——"Jevons悖论正在AI领域上演"。

所以"绿色AI"的真正含义，不是"AI能帮我们节能"，而是"让AI自身变得更节能"——这是两个完全不同的命题。

🌏一个判断：在AI自身能耗降下来之前，所有"AI助力碳中和"的叙事，都是先看成果、后算账的——而账可能算不过来。

🌏一个判断：真正的绿色AI，不是"用AI监控碳排放"，而是先让AI自己别浪费电。一个每次做事只有3.8%成功率的Agent，不管它监控多少碳排放，它自己首先就是碳排放大户。

批评完了，说点建设性的。

2026年中央广播电视总台联合多家机构发布的"AI十大趋势"中，"绿色AI"位列其中。但报告里说的"绿色AI"，跟市面上大多数人的理解不太一样。

真正的绿色AI，不是"用AI做环保"，而是"让AI自己变绿"。

具体有三条路径，每一条都有真实的落地案例。

SaaS-Bench暴露的核心问题之一是：任务越长，Agent越容易翻车。

这是一个纯粹的数学问题。一个任务有N个检查点，每个检查点通过率是P，那么全过的概率是P的N次方。N越大，结果越趋近于零。

📋实操案例：财务对账任务拆解

原来（长任务）：让Agent"帮我完成本月财务对账"——跨4个系统，100多步，失败率95%。

改后（短任务）：拆成10个独立子任务：

结果：每个子任务独立执行，人工在中间做整合和复核。整体完成率从5%提升到40%以上。

节能效果：任务拆解加人工复核节点，减少了Agent无效推理的步数。更少的token，更少的电，更高的成功率。按IEA的估算，一次无效的长链推理（100多步）消耗的电力，相当于50至100次普通对话——拆短之后，这部分浪费直接砍掉80%。

SaaS-Bench论文最后指出：未来的SaaS软件可能需要为Agent重新设计。

这话听起来抽象，其实非常具体。

当前Agent通过"看屏幕、点按钮"来操作软件——这叫GUI（图形用户界面）操作。对Agent来说，这是最低效的方式：

两条链路的能耗差距：API调用的能耗，只有GUI操作的1/100到1/1000。

📍一个具体对比

让Agent"在CRM里创建一个客户"：

这就是为什么"绿色AI办公"的前提，是SaaS厂商全面开放API。今天国内主流SaaS（销售易、纷享客、北森等）都在做这件事——不是因为Agent火了，而是因为API-first本身就是更节能的架构。数据中心喜欢API调用，不喜欢截图推理。

这是我想提出的一个新想法，目前还没有人认真做。

当前所有AI评测（包括SaaS-Bench）只衡量"准确率"，不衡量"能耗效率"。

这就像评测汽车只测"加速快不快"，不测"百公里耗多少油"——结果就是所有人都在堆马力，没人管油耗。

📊绿色Agent评测：设想方案

两个Agent，都完成了同一个任务。

当前评测：A和B都算"通过"，B甚至可能因为"思考更充分"而得更高分。绿色评测：引入"能效比"指标等于完成任务消耗的token数除以任务复杂度。A比B节能80倍，A胜出。

这个指标一旦建立，会倒逼两件事：

IEA在2026年报告里提了一句："如果没有能效约束，AI的能耗增长将在2030年前抵消掉它所能节约的全部能源。"

这句话值得所有做AI办公工具的人，贴在显示器边上。

SaaS-Bench这份评测，是2026年AI行业收到的最好的礼物之一。

不是说它好——是说它诚实。

在铺天盖地的"全自动办公"叙事里，有人站出来用23个真实系统、106个任务、实打实的数据说了一句：别吹了，先看看这个。

而"绿色AI悖论"——AI被用来节能，但AI自己是个耗能大户——这个话题，在2026年还很少有人认真讨论。

等大家回过神来的时候，全球数据中心的能耗可能已经超过了许多国家的全年用电量。

AI一定会在办公场景和节能场景中创造出巨大的价值。但不是通过取代人，也不是通过无节制地堆模型。

真正的绿色AI办公，是"人机协作加任务拆解加API优先"——用最少的电，做最多的事。

元年不是从"我们做到了"开始的——是从"我们知道哪里没做到，并且愿意面对能耗账单"开始的。

自知，才是进步的前提。

📝延伸阅读

——怿怿✨

[1] https://unipat.ai/blog/SaaS-Bench

[2] https://arxiv.org/abs/2605.15777

← 上一篇：中国高校人工智能教学应用探析下一篇：全球AI今日十大看点：监管博弈加剧、算力成本下探、企业应用提速 →