AI 测试为何只做了一半？揭秘闭环三层模型

发布时间：2026-04-13 22:35阅读：9

2026 年第一季度，全球科技行业裁员近 8 万人，其中 48% 与 AI 相关。某企业用 AI 替代了整个 QA 团队，结果 3 个月后损失了 600 万美元。一边是“AI 取代测试”的恐慌，另一边是“AI 测试翻车”的残酷现实。 **问题究竟出在哪里？** 并非 AI 无法胜任测试工作，而是大多数人仅完成了流程的一半——即让 AI 生成用例并执行脚本，却无人对测试结果的准确性进行管控。这就像让实习生写代码却不做代码审查，出事只是时间问题。今天分享一套我在实战中验证有效的框架：**AI 测试闭环三层模型**。这不是理论，而是经过生产环境 12 轮、98 条用例验证的实战经验。

--- ## 一、行业现状：大家都在用 AI 做什么测试？先看数据： - 77% 的测试团队已在使用 AI（Capgemini 2025-26 报告） - 70% 的重复测试任务正在被 AI Agent 接管 - GenAI 能力已超越传统技能，成为质量工程师排名第一的必备技能（63%）但实际落地效果如何？绝大多数团队停留在以下阶段： ``` PRD → AI 生成用例 → AI 编写脚本 → 运行成功 → ✅ 结束 ``` 看似完美，实则存在致命缺陷：**谁来判定 AI 测试得是否准确？** - AI 生成的用例是否覆盖了所有场景？ - AI 执行的操作与预期是否一致？ - 测试通过是真实通过，还是 AI “自己考自己”放水了？大多数团队的回答是：人工查看。那引入 AI 的意义何在？仅仅是为了节省写脚本的时间，却花在看报告上？

--- ## 二、AI 测试闭环三层模型我在实战中摸索出一套框架，将 AI 测试拆解为三层，每一层解决一个核心问题： | 层级 | 名称 | 解决的问题 | |------|------|-----------| | 第一层 | **Loop（执行循环）** | AI 能否自动运行？ | | 第二层 | **Eval（独立评估）** | AI 测试得对不对？ | | 第三层 | **Harness（编排治理）** | 整个系统是否稳定？ |

### 第一层：Loop — 让 AI 自动运行这是大多数人已经做到的： ``` 需求文档 → 生成用例 → 执行脚本 → 收集结果 → 输出报告 ``` 关键不在于能否跑通，而在于**能否无人值守地循环运行**。我的做法： - AI Agent 自主读取需求文档（PRD 链接） - 自动侦察页面结构（不依赖人工编写选择器） - 逐条生成并执行用例 - 每条用例截图取证 - 输出结构化报告 **核心指标：** 人工介入次数。如果每次测试都需要人盯着，那不叫自动化，只能叫半自动。我的实战数据：98 条用例执行过程中，人工介入 0 次（V5 版本）。 ### 第二层：Eval — 不能让 AI “自己考自己” 这是大多数团队缺失的一环，也是我认为最关键的一环。 **核心原则：执行者与评估者必须分离。** 为什么？因为 AI 执行测试时存在“路径偏见”——它会倾向于认为自己的操作是正确的。就像让学生自己批改试卷，分数一定偏高。我的做法： - **执行 Agent**：负责操作页面、点击按钮、填写表单 - **Evaluator Agent**：独立的另一个 AI，获取截图和执行日志，重新判断“这一步到底对不对” - 两个 Agent 完全独立，Evaluator 不知晓执行 Agent 的“意图”，只看“结果” 这个设计对标的是 OpenAI 和 Anthropic 的 Eval 体系——他们在评测大模型时，也是使用独立的评估器，而非让模型自评。 **评估维度：** | 维度 | 判断标准 | |------|---------| | 操作正确性 | 点击的元素是否正确？填写的值是否正确？ | | 页面状态 | 操作后页面是否达到预期状态？ | | 业务逻辑 | 结果是否符合需求文档的描述？ | | 异常处理 | 遇到弹窗/加载失败时 AI 的应对是否合理？ | **闭环关键：** Evaluator 判定失败的用例，自动生成缺陷描述，提交到缺陷管理系统（对接 Dima），钉钉实时通知。无需人工翻阅报告查找问题。 ### 第三层：Harness — 让系统稳定运行前两层解决了“能跑”和“测得准”，第三层解决“跑得稳”。当你把 AI 测试从演示推向生产环境，会遇到一堆工程难题： - 页面改版，AI 找不到元素怎么办？ - 执行中途网络中断怎么办？ - AI 陷入死循环怎么办？ - 多个测试任务并发执行怎么办？这些不是 AI 能力的问题，而是**工程治理问题**。我总结了 6 个设计原则（称为 Harness Engineering）： 1. **生产验收分离** — 开发环境与验收环境独立，避免脏数据干扰 2. **上下文重置** — 每轮测试前清理状态，防止上一轮残留影响下一轮 3. **约束系统化** — 将“禁止事项”写成规则文件，而非仅靠 Prompt 中的一句话 4. **渐进式披露** — 不要一次性给 AI 所有信息，按需分步提供上下文 5. **细粒度状态** — 每条用例独立追踪状态，失败不影响后续执行 6. **分层恢复** — 遇到问题分级处理：重试 → 跳过 → 告警 → 人工介入

--- ## 三、这个模型有什么用？ ### 对个人：职业定位的锚点如果你还在简历上写“负责自动化测试”，说明你仅停留在第一层。 - **能做 Loop** = 会用 AI 工具的测试（很多人已具备） - **能做 Eval** = 懂 AI 质量评估的工程师（市场稀缺） - **能做 Harness** = 能设计 AI 测试体系的架构师（极度稀缺）你现在的层级，决定了你未来 3 年的薪资。 ### 对团队：AI 测试落地的路线图不要试图一步到位，按三层递进： **阶段一（1-2 周）：跑通 Loop** - 选择一个功能模块，让 AI 生成用例并执行 - 目标：证明 AI 能跑通 E2E 流程 - 成功标准：AI 生成的用例有 60%+ 可用 **阶段二（2-4 周）：加上 Eval** - 引入独立评估机制，杜绝 AI 自评 - 目标：测试结果可信度从“看着像对的”变成“有评估报告背书的” - 成功标准：误判率 < 10% **阶段三（1-2 月）：完善 Harness** - 处理稳定性、并发、恢复等工程问题 - 目标：从演示工具变为可日常使用的工具 - 成功标准：连续 5 轮无人值守执行成功 --- ## 四、AI 做不好什么？（必须说的反面）三层模型并非万能药。目前 AI 测试闭环的已知局限： 1. **探索性测试** — AI 不会像人一样“随机点击”发现意外 Bug，它只会按预设路径走 2. **业务判断力** — “交互体验是否良好”这类主观判断，AI 只能提供参考 3. **环境依赖** — 需要稳定的测试环境，AI 无法处理“环境今天又挂了”的情况 4. **安全测试** — 渗透测试、模糊测试等需要对抗性思维的场景，AI Agent 尚不擅长所以闭环的意义不是“完全不需要人”，而是**将人从重复执行中解放出来，专注于 AI 做不好的事上**。 --- ## 五、总结 ``` 测试的未来不是编写更多测试用例，而是设计更好的测试系统。 ``` AI 测试闭环三层模型： - **Loop** — 让 AI 自动运行（执行自动化） - **Eval** — 让 AI 的结果可信（质量评估） - **Harness** — 让系统稳定运行（工程治理）大多数人还在第一层徘徊。如果你能把三层都打通，你就不是“会用 AI 的测试”，而是“能设计 AI 测试体系的人”。这两种人的市场价值差距可达 3 倍。

--- *我是「测试进化论」，专注 AI + 测试实战。如果这篇对你有启发，欢迎关注，下一篇我们聊“大模型输出质量怎么测”。*

← 上一篇：2026人工智能大赛启动！全国青少年创新挑战赛报名通道开启下一篇：同济教授揭秘人工智能时代的青少年教育新路径 →