AI效率迷思：从90%跨越到100%的工程挑战

发布时间：2026-05-05 16:17阅读：11

利用AI生成草稿、编写代码或制定计划，效率提升了5到10倍。许多人因此断言：AI已经完全接管了任务。然而，在最终交付时，人们意识到——快的是开头，慢的是结尾；节省的是体力，消耗的是脑力。在从0到90%（流程可行）的爆发性效率与从90%到100%（可上线并处理边界情况）的成本急剧上升之间，隐藏着一个吞噬所有收益的陷阱。

使用CodeBuddy搭建了一个“文章编写Agent团队”：scout负责选题，architect设计大纲，writer撰写初稿，reviewer审核，polisher润色。这五个角色各司其职，前三步进展神速——选题仅需2分钟，大纲3分钟，初稿8分钟，不到一刻钟便生成了一篇3000字的技术文章。

随后问题显现。reviewer在审核时能看到writer的完整思考路径（五个角色共享上下文，导致互相干扰，判断缺乏独立性）；每个角色积累的输入输出占满了上下文空间，导致后续角色可用空间缩减，polisher在润色时已出现信息丢失；prompt中设计的send_message互相通信——平台当时并未提供该API，通信机制纯属虚构。

初稿生成耗时13分钟。然而，在reviewer退回修改→writer重写→再审→再改的循环中进行了3轮，累计token消耗达到初稿的4倍以上，总耗时反而超过了人工直接撰写。之前节省的13分钟，随后在50多分钟里被补了回来。

这并非个例，而是一条普遍规律：

0到90%，依赖于大模型的泛化能力，能迅速实现流程贯通。90%到100%，则考验的是确定性、鲁棒性、边界控制及异常处理，难度呈指数级攀升。

第一，大模型的拟合能力极强。仅需少量示例或提示词，即可覆盖大多数常规场景。无论是写代码、翻译、绘制流程图、查询资料还是生成报告——这些任务的主路径，模型均能直接通过。

第二，工具链已基本成熟。RAG、函数调用、代码执行、搜索引擎、MCP工具链一经搭建，基础流程便能运行。搭建一条Agent研发流水线，从需求到代码，仅需两天即可产出Demo。

第三，早期用户的容忍度较高。初涉AI时，人们关注的是“能否实现”，而非“是否出错”。输出有瑕疵尚可接受，能运行即可。在这一阶段，AI显得无所不能。

90%覆盖的是常规路径。剩余的10%包含各种异常输入、歧义、格式错误、逻辑漏洞及边界情况。在真实系统中，10%的异常足以导致100%的失效——用户不会因为“大部分情况正确”就信任一个偶尔出错的系统。

相同的输入可能导致输出不稳定。多轮对话后记忆会出现错乱。规则之间可能互相冲突。Agent今天运行正常，明天换个上下文就开始胡言乱语。

这并非bug，而是大模型的本质特征——它是概率模型，而非确定性引擎。无法通过“优化prompt”来彻底消除这种不确定性。

用户可能会输入各种意想不到的内容。半角与全角字符混用、一个字段中包含三种格式、一个请求同时触发两条互斥规则。常规测试无法覆盖这些场景，AI遇到时往往会“创造性地”给出一个看似合理但完全错误的输出。

一个真实数据：在可观测性体系下追踪一次Agent任务执行，一次完整任务触发了8次LLM调用，消耗12,340 token——这仅仅是“正常运行”的情况。一旦触发反馈回路（reviewer退回、重试、再审），每增加一轮循环，调用量就翻倍。前述的文章写作团队，初稿生成消耗约3,000 token，但三轮退回修改累计消耗超过12,000 token——修正偏差的成本是生成初稿的4倍。

据Anthropic官方数据，Managed Agents相比标准提示循环，任务成功率提高了多达10个百分点。这10个百分点的差距并非模型变得更聪明，而是基础设施层面的失败被消除（会话断连恢复、沙箱兜底、长任务持久化）。换个角度看：标准循环中有10个百分点的失败率来自环境因素，与模型能力无关——这就是90%到100%工程成本的一个侧面。

将这些数据抽象为量级关系：

这并非精确测量——不同领域、不同项目差异巨大——但在多个实际项目中反复验证的趋势是：可靠性每提升一个数量级，投入大约上升一个数量级。后面那10%的工作量，远超前面90%的总和。

90%的可靠性只能做Demo。100%的可靠性才敢说“交给它不会出事故”。在企业级、金融、法律、医疗场景中，这道鸿沟几乎是不可逾越的天堑。没人愿意为“大部分情况正确”的系统背责。更现实的问题是：AI生成的合同条款出现纰漏，谁来赔偿？Agent自动审批流程出现差错，算谁的决策失误？责任链一旦模糊，系统能运行和敢使用就成了两码事。

效率陷阱的完整形态是——难，在于知晓前有沟壑；陷阱，在于误以为沟壑已过，实则尚未开始：

首先是0到90%带来了极强的效率幻觉。撰写初稿、制定方案、生成代码，速度提升数倍，人很容易据此判断——AI已经能完成工作。

随后90%到100%开始暴露可靠性黑洞。格式错误、逻辑遗漏边界、上下文混乱、前后矛盾、幻觉频发。每一个小问题都需要人工校验、修正、兜底、重跑。修正、调试、返工叠加在一起，往往超过原本人工直接做的时间（前述文章写作团队案例中，reviewer退回3轮，累计token消耗达到初稿的4倍以上，总耗时反而超过人工直接撰写）。

最终整体ROI被吞噬。单看“生成”环节，效率爆炸；看端到端交付，快的在前面，慢的在后面。

组织层面的隐蔽陷阱

组织层面还有一层更隐蔽的陷阱：管理层看到0到90%的效率提升，误以为可以大幅提升人效。一线发现90%到100%极难，不敢声张，只能硬扛。结果：指标好看，实际更累。

问题已摆在台面，接下来是：是否存在一种系统化的方式，能将90%到100%的成本降下来？

面对90%到100%的可靠性缺口，最自然的反应有三种：优化prompt、更换更强模型、增加更多测试。但这三条路各自都有结构性天花板。

更好的prompt → 不确定性是概率模型的本质。前文已述——大模型并非确定性引擎，而是概率模型。无论prompt写得多么精确、few-shot示例多么齐全，同一输入在不同上下文下仍可能产生不同输出。Prompt Engineering能提高平均质量，但无法消除概率性波动。将可靠性寄托在“将prompt调至完美”上，无异于用沙袋堵概率的洪水——每堵住一个漏点，旁边又会冒出两个。

更强的模型 → 能力提升但可靠性未根本改变。据Anthropic官方数据，同一模型在标准提示循环和Managed Agents环境下，任务成功率差距可达10个百分点——此差距源于基础设施层面失败的消除（会话断连恢复、工具执行沙箱兜底、长任务持久化保障），而非模型推理能力变强。换言之，模型升级解决的是“能否做到”的问题，而非“做到后能否稳定复现”的问题。GPT-4照样幻觉，Claude照样偶尔跑偏——更强的模型抬高了天花板，但地板未随之抬高。

更多测试 → 长尾场景写不完。用户会输入各种意想不到的内容——半角与全角混合、一个字段塞三种格式、一个请求同时触发两条互斥规则。长尾是无穷的，测试用例是有限的。靠穷举覆盖所有异常，与靠人工审核每一条Agent输出一样，都是不可持续的。

这三条路的共同点：都在试图让模型本身更可靠。但如果不确定性是概率模型的结构性特征，解法就不能仅在模型内部寻找——需在模型外部构建工程体系来兜底。

Harness Engineering切入的正是这个位置。它不优化模型本身，而是优化模型运行环境——将AI从“高效率的不稳定生成器”转变为可复用、可上线、出现问题有兜底保障的自动化单元。

具体对应方式：

这五个要素并非让AI更聪明，而是让AI更可控。它们组合在一起，归根结底做的是一件事：通过工程化手段将90%到100%的非线性成本曲线压平一些。

并非所有场景都需要跨越90%到100%这道悬崖。内部原型、一次性脚本、探索性分析——这些场景90%就够了，强行堆到99.9%反而是浪费。关键在于先判断具体场景需要几个9的可靠性，再决定投入多少工程量。

三个维度做决策：

判断自身所处阶段很简单：若不敢不盯着AI运行，则仍在90%以内。唯有当AI能在无人值守下持续产出可靠结果，才算真正跨过了那道坎。

Harness Engineering并非银弹，不会让这道坎消失。但对于需要持续运行、对可靠性有要求的系统，它提供了一套系统化方法：约束管住行为、反馈回路保证质量、可观测性让问题可追溯——层层叠加，每加一层，就能更放心地少盯一点。

从能用走向可用，中间隔着一道工程鸿沟；从可用走向可靠之间还有一座山，而大多数人在第一道沟前就停下了。认清这个成本结构，才能不陷入效率陷阱。前面90%的速度感是真的，后面10%的工程量也是真的——快的部分不能省去慢的部分，这才是AI工程化最该记住的一句话。

本文由本人构思并把控，借助AI辅助整理成文，仅代表个人观点，欢迎交流。

← 上一篇：AI风口下，为何智者都在默默交易？这6点道尽普通人的翻身之道下一篇：联想以科技驱动，重塑数字艺术创作新格局 →