AI编程浪潮下，质量把控能全盘托付吗？

发布时间：2026-06-29 10:44阅读：2

下午三点，AI 又提交了 3000 行代码，你点开代码改动，发现它改了接口、补了单测、顺手重构了几个模块。

光标在 "Approve" 上停顿三秒：点下去，明天会不会出事故？不点，业务已经催了好几轮。这已经成为 AI Coding 带来的质量困境。

2026 年 6 月，New Relic 发布了一份令行业震动的报告：94% 的技术领导者给 AI 代码打了高分，但 82% 的组织正经历 AI 代码导致的生产故障。

就在三个月前，亚马逊因 AI 辅助代码在一周内连续触发多次 Sev-1 宕机事件。

构建 AICoding 内嵌的质量能力已经迫在眉睫。

目前，蚂蚁数科已经将 AI 测试能力全面嵌入 AI研发全生命周期，实现90%测试用例由 AI 自动化生成，100%质量行为由 AI 赋能。

今天就和大家分享一下，我们如何实现 AI 原生时代的质量转型。

一

AI Coding正在加速质量风险

AI 编程只用了三年多，就从代码补全走到任务级执行。早期 Copilot 解决的是下一行怎么写，Vibe Coding 解决的是一个任务怎么生成，今天的 Agentic AI 已经开始处理规划、执行、验证、反思和迭代。

Agentic Coding 给质量带来的第一个冲击是风险暴露的速度正在指数级加快

Coding Agent 已进入 7×24 小时运转：读取仓库、拆解任务、生成代码、补单测、跑验证——代码不再只在人在线时生产，变更也不再按过去的节奏一批批进入测试。

需求一旦模糊，Agent 会批量写偏；设计一旦缺约束，改动会指数级扩散；测试一旦缺少证据，AI 自己跑的"通过"根本不敢信任；发布一旦缺少门禁，风险会被成建制地推到线上。

第二个冲击：代码流速提升，质量链路被迫承压

代码可以秒级生成，但需求评审、系分检查、测试设计、环境准备、回归验证、发布准出，这些依赖多角色协同的环节，成本一点没变。

过去慢一点，问题还能在人的节奏里被发现。现在 Agent 把编码速度拉满，后面的流程没有同步升级，新的堆积就出现了：代码等评审、测试等上下文、发布等证据——技术债被 AI 批量制造、快速堆积。

所以，AI Coding 带来的质量挑战，不只是"AI 写的代码准不准"，而是整条研发链路能不能跟上新的代码流速。

二

质量不能只做工具，要嵌进AI研发全链路

蚂蚁数科的实践不是做一个“万能测试 Agent”，而是要逐步推进：先把专家经验沉淀下来，再把质量能力嵌入研发流程，最后让 Agent 在可控、可信、可审计的运行时里持续工作。

第一步：把质量能力从“个人经验”拆成“可调用、可评测、可迭代的 Skill”

我们没有一上来就做一个“万能质量 Agent”，而是先把质量专家每天反复做的工作，拆成一个个边界清晰的 Skill。

测分生成：让 AI 先读需求、设计和历史缺陷，自动判断这次重点测什么，哪些接口、流程、边界条件需要重点关注；

用例生成：把测试重点进一步变成可执行用例，包括输入、操作步骤和预期结果。AI 先生成一版，人再审核补充，减少重复编写和场景遗漏；

API/UI自动化：把接口和页面验证变成可自动执行的脚本，持续检查接口返回、页面流程、按钮表单等是否正常；

配置巡检/翻译质检：检查发布配置、多语言文案、字段一致性等容易被人工漏掉的问题，提前发现低级但高风险的错误。

这一步的关键，不是追求“一个 Agent 什么都会”，而是让一个 Skill 稳定解决一个局部任务。每个 Skill 都有明确输入、明确输出和评测标准。

第二步：把质量嵌进AI研发全生命周期

单点 Skill 能提升局部效率，但如果只停留在某个环节，质量问题还是会在后面集中爆发。

所以第二阶段，我们把质量 Skill 和研发流程打通，让它们不只是“有人想起来才用的工具”，而是变成每次变更都会自动触发的质量检查。

门禁 1：需求准出。检查需求是否清楚、完整、可测试，避免一开始就把模糊需求带进开发；

门禁 2：设计准出。检查技术方案和系统设计是否合理，关键风险、依赖关系和异常场景有没有说清楚；

门禁 3：PR 准出。检查代码变更是否符合规范，是否有安全风险，核心逻辑有没有对应测试；

门禁 4：端到端准出。检查关键业务流程是否能端到端跑通，接口、页面和核心场景是否通过自动化验证。

门禁 5：发布准出。检查测试报告、验证记录、发布配置和风险结论是否齐全，确认这次变更是否可以上线。

这样一来，质量不是最后才“拦一把”，而是贯穿研发全过程。质量skill、门禁规则和发布流水线绑在一起，让每次变更都有检查、有证据、有结论。

三

代码持续生成，质量持续验证

解决了“质量能力怎么沉淀”和“质量检查怎么嵌进流程”之后，下一步要解决的是：AI Coding 需要一套能持续运转的质量机制。

要做到这一点，AI coding的质量体系至少要具备四个特征：

任务会流转：能按流程完成影响分析、用例生成、测试执行和报告输出；

执行有边界：不同环节各司其职，能测的测、能改的改，该停下来等人确认时就停下来；

过程留证据：每一步都有记录，日志、截图、报告等关键产物可追溯、可复核；

结论可判断：系统能汇总覆盖率、通过率、稳定性等信息，判断这次变更是否满足准出条件。

这样，质量判断就不再依赖一句“Agent 说通过了”。系统要能回答三个问题：做了没有，做得怎么样，出了问题能不能回放才能进入下一轮。

从最后兜底到可信内置，本质上是让 AI Coding 的质量体系不只执行测试，还能持续验证、留下证据、给出可判断的结论。

最终实现人定目标，AI做测试的全链路质量保障。

← 上一篇：国家顶层智能战略出炉：《人工智能+行动意见》全解析，未来十年机遇指南下一篇：AI怎样重构全球职业格局 →