AI编程浪潮下,质量把控能全盘托付吗?
下午三点,AI 又提交了 3000 行代码,你点开代码改动,发现它改了接口、补了单测、顺手重构了几个模块。
光标在 "Approve" 上停顿三秒:点下去,明天会不会出事故?不点,业务已经催了好几轮。这已经成为 AI Coding 带来的质量困境。
2026 年 6 月,New Relic 发布了一份令行业震动的报告:94% 的技术领导者给 AI 代码打了高分,但 82% 的组织正经历 AI 代码导致的生产故障。
就在三个月前,亚马逊因 AI 辅助代码在一周内连续触发 多 次 Sev-1 宕机事件。
构建 AICoding 内嵌的质量能力已经迫在眉睫。
目前,蚂蚁数科已经将 AI 测试能力全面嵌入 AI研发全生命周期,实现90%测试用例由 AI 自动化生成,100%质量行为由 AI 赋能。
今天就和大家分享一下,我们如何实现 AI 原生时代的质量转型。
一
AI Coding正在加速质量风险
AI 编程只用了三年多,就从代码补全走到任务级执行。早期 Copilot 解决的是下一行怎么写,Vibe Coding 解决的是一个任务怎么生成,今天的 Agentic AI 已经开始处理规划、执行、验证、反思和迭代。
Agentic Coding 给质量带来的第一个冲击是风险暴露的速度正在指数级加快
Coding Agent 已进入 7×24 小时运转:读取仓库、拆解任务、生成代码、补单测、跑验证——代码不再只在人在线时生产,变更也不再按过去的节奏一批批进入测试。
需求一旦模糊,Agent 会批量写偏;设计一旦缺约束,改动会指数级扩散;测试一旦缺少证据,AI 自己跑的"通过"根本不敢信任;发布一旦缺少门禁,风险会被成建制地推到线上。
第二个冲击:代码流速提升,质量链路被迫承压
代码可以秒级生成,但需求评审、系分检查、测试设计、环境准备、回归验证、发布准出,这些依赖多角色协同的环节,成本一点没变。
过去慢一点,问题还能在人的节奏里被发现。现在 Agent 把编码速度拉满,后面的流程没有同步升级,新的堆积就出现了:代码等评审、测试等上下文、发布等证据——技术债被 AI 批量制造、快速堆积。
所以,AI Coding 带来的质量挑战,不只是"AI 写的代码准不准",而是整条研发链路能不能跟上新的代码流速。
二
质量不能只做工具,要嵌进AI研发全链路
蚂蚁数科的实践不是做一个“万能测试 Agent”,而是要逐步推进:先把专家经验沉淀下来,再把质量能力嵌入研发流程,最后让 Agent 在可控、可信、可审计的运行时里持续工作。
第一步:把质量能力从“个人经验”拆成“可调用、可评测、可迭代的 Skill”
我们没有一上来就做一个“万能质量 Agent”,而是先把质量专家每天反复做的工作,拆成一个个边界清晰的 Skill。
测分生成:让 AI 先读需求、设计和历史缺陷,自动判断这次重点测什么,哪些接口、流程、边界条件需要重点关注;
用例生成:把测试重点进一步变成可执行用例,包括输入、操作步骤和预期结果。AI 先生成一版,人再审核补充,减少重复编写和场景遗漏;
API/UI自动化:把接口和页面验证变成可自动执行的脚本,持续检查接口返回、页面流程、按钮表单等是否正常;
配置巡检/翻译质检:检查发布配置、多语言文案、字段一致性等容易被人工漏掉的问题,提前发现低级但高风险的错误。
这一步的关键,不是追求“一个 Agent 什么都会”,而是让一个 Skill 稳定解决一个局部任务。每个 Skill 都有明确输入、明确输出和评测标准。
第二步:把质量嵌进AI研发全生命周期
单点 Skill 能提升局部效率,但如果只停留在某个环节,质量问题还是会在后面集中爆发。
所以第二阶段,我们把质量 Skill 和研发流程打通,让它们不只是“有人想起来才用的工具”,而是变成每次变更都会自动触发的质量检查。
门禁 1:需求准出。检查需求是否清楚、完整、可测试,避免一开始就把模糊需求带进开发;
门禁 2:设计准出。检查技术方案和系统设计是否合理,关键风险、依赖关系和异常场景有没有说清楚;
门禁 3:PR 准出。检查代码变更是否符合规范,是否有安全风险,核心逻辑有没有对应测试;
门禁 4:端到端准出。检查关键业务流程是否能端到端跑通,接口、页面和核心场景是否通过自动化验证。
门禁 5:发布准出。检查测试报告、验证记录、发布配置和风险结论是否齐全,确认这次变更是否可以上线。
这样一来,质量不是最后才“拦一把”,而是贯穿研发全过程。质量skill、门禁规则和发布流水线绑在一起,让每次变更都有检查、有证据、有结论。
三
代码持续生成,质量持续验证
解决了“质量能力怎么沉淀”和“质量检查怎么嵌进流程”之后,下一步要解决的是:AI Coding 需要一套能持续运转的质量机制。
要做到这一点,AI coding的质量体系至少要具备四个特征:
任务会流转:能按流程完成影响分析、用例生成、测试执行和报告输出;
执行有边界:不同环节各司其职,能测的测、能改的改,该停下来等人确认时就停下来;
过程留证据:每一步都有记录,日志、截图、报告等关键产物可追溯、可复核;
结论可判断:系统能汇总覆盖率、通过率、稳定性等信息,判断这次变更是否满足准出条件。
这样,质量判断就不再依赖一句“Agent 说通过了”。系统要能回答三个问题:做了没有,做得怎么样,出了问题能不能回放才能进入下一轮。
从最后兜底到可信内置,本质上是让 AI Coding 的质量体系不只执行测试,还能持续验证、留下证据、给出可判断的结论。
最终实现人定目标,AI做测试的全链路质量保障。