AI 编码提速背后，评审瓶颈已成最大阻碍

发布时间：2026-06-01 00:11阅读：51

评审队列中积压着由 AI 生成的合并请求（PR），长达四百多行，已搁置三四日无人问津。其前方还排着五六条类似的庞大代码块。与此同时，团队看板数据亮眼：合并请求数量刷新纪录，全员皆感今年效率显著提升。

这两番景象并存，正是 2026 年多数工程团队面临的真实境况。

并非团队未获进步，而是精力都投入到了不再成为制约的环节。当 AI 将代码编写成本降至近乎免费，决定团队真实交付速度的关键，已非谁写得快，而是谁审得动。

症结不在于「AI 无用」，而在于你押错了侧重点。

软件工程效能分析平台 LinearB 发布的 2026 基准报告，分析了 810 万个合并请求，覆盖 4800 多个组织，结论直指核心：瓶颈已从「代码编写」转移至「评审与验证」（LinearB Benchmarks）。

最引人注目的对比在于两点。

其一，AI 生成的合并请求，平均需在评审入口外排队 4.6 倍的时间才能被人点开。有趣的是，一旦有人接手，评审速度反而加快——评审动作本身依然存在，问题在于前置排队过长。

其二，同一批 AI 合并请求中偏大的部分（75 分位，即前 25% 的大体量请求），其规模是普通请求的 2.6 倍：前者 408 行，后者 157 行。AI 能一次性输出更多代码，但能承接代码的审核人员并未增加。

还有一条数据尤为扎心：AI 合并请求最终被合并的比例仅为 32.7%，而人工编写的比例高达 84.4%（LinearB Build vs. Buy）。AI 端产出的「成果」中，近七成根本无法落地。

AI 在代码编写端将水龙头开到最大，但下游「人工评审」的管道口径未变。积水日益增多，每一滴水在管口等待的时间愈发漫长。你看板上涨的「合并数」，看似产能提升，实则是水龙头开大的流量，未必是真正流过管道的有效水量。

你以为买到的是产能，实则买到的是积压。

若瓶颈在于评审，再为「代码编写」叠加第二个、第三个 AI 工具，后果如何？

不会转化为更多交付。只会导致更长的队列、更大的代码块、以及更多需要人脑判断的上下文。

此事蕴含一个朴素道理：当 incoming 的工作量逼近处理上限，队伍不会缓慢变长，而是会突然失控。生产管理中的约束理论对此早有阐述——《目标》一书将其剖析透彻——系统的产出由最薄弱的环节决定。在不卡壳的环节投入再多精力，多出的产出只会堆积，反而拖累真正受限的环节。

LinearB 数据中那个 4.6 倍的排队现象，正是此理的自然结果，并非团队不够努力。

因此，得出一个反直觉却站得住的结论：在「代码编写」端增加第 N 个 AI 工具，新增产出基本为零，甚至可能为负。它不增交付，只增积压；积压反过来会压垮评审环节本就紧张的余量。

DORA（一个研究软件开发效率的机构）发布的 2025 年报告样本广泛：九成技术从业者在使用 AI，超八成自认效率提升（DORA 2025）。但 DORA 对 AI 的定义并非「提速器」，而是**「放大器」**。

放大器的含义是：AI 不会替你建立工程纪律。团队原本的状态，会被 AI 放大。无论是纪律严明还是混乱无序，AI 都会照单全收。

数据也印证了这一点：AI 使用越频繁的团队，产出在增长，交付出问题的概率也在上升。这两条曲线同步上扬，正是你近期常感到的撕裂感——感觉更快了，但交付却更脆弱了。

DORA 的对策直指一条老规矩：小批量提交——单次修改不宜过多，确保每次合并请求小到可由一人独立审阅并合并（Balancing AI tensions）。原因很简单：过去人工编写 400 行会疲惫，自然会停下来拆分；如今 AI 工具几分钟即可甩出 500 行，那种「累了就拆」的本能不再触发。LinearB 观察到的 2.6 倍体量膨胀，与 DORA 提出的这一机制，实为同一件事。

AI 并未逼迫你降低标准，是你顺手降低了标准。

最直观的反应是「加快评审」：增加人手、加班、引入 AI 评审工具。这些均未切中要害。

破解瓶颈的方法，从来不是让瓶颈跑得更快，而是减少流经瓶颈的流量。三件事，方向皆在「减」。

前文已述为何评审变为瓶颈——AI 开大了水龙头，管道却未变。以下三件事，按你回去后执行的顺序排列：先做一件今日可单人拍板的，再做一件需写入日常习惯的，最后做一件需调整 CI 配置的。

第一件事：锁定 PR 体量上限。进入仓库设置，将合并请求的 diff 行数上限锁定为具体数值——400 行是一个可行的起点。超出此线的 PR，由 CI 直接拦截，不进入评审队列。这并非「建议团队写小点」，而是机器帮你把关。它直接对冲前文所述的 2.6 倍膨胀：AI 一次性甩出的 500 行，无论多整齐，都需拆分为两到三份再进入。每份需小到一个人能在一次专注中消化，敢点开、敢看完、敢合并。

第二件事：在向 AI 下达任务前，先将验收条件整理为 checklist。AI 代码最难审查之处，不在于它不像代码，而在于它常看起来非常正确。因此，不能问「这看起来对吗」——AI 最擅长生成的正是「看起来对」的东西。要问的是：它做了哪些假设？这些假设是否安全？应用安全平台 Bright Security 将此总结得最干脆。实操只需一步：每次给 AI 下任务时，花三分钟列出三到五条验收条件——接受何种输入、禁止触碰哪些数据、边界情况如何处理。评审时不看代码是否漂亮，只对照这五条打勾。全绿即过，其余均为次要。

第三件事：将机器检查配置进 CI，达到人眼看不到不合格 PR 的程度。配置类型检查步骤、核心路径单元测试步骤，再加一个 AI 初审步骤——让机器先过滤表层问题（未处理异常、空指针、明显逻辑漏洞），修复后再轮到人看。配置完成后的效果是：进入人工评审的 PR，机器已处理完所有可自动化的任务。人的精力留给机器无法判断的部分——业务逻辑是否正确、架构是否契合、权限与数据流向是否合理。

做完这三件事，团队工作重心将转变：从「硬着头皮审核一堆 AI 生成代码」变为「在机器铺好的路面上做最终判断」。瓶颈依然是人，但流经他的流量减少了——而且减少在正确的地方。

若瓶颈在于评审，那你向上汇报的指标，大半都量错了地方。

合并了多少 PR、写了多少行、PR 总数——这些全是代码编写端的产能。它们的增长，仅说明水龙头开得更大，不代表真正流过管子的水更多。数字本身真实，却误导了你的关注点。

应关注的只有这几项：评审队列等待时长、合并前修改次数、从写完到上线的总耗时。现成的预警灯就在眼前：AI PR 接受率 32.7%、人工编写 84.4%。这一差距本身就在说明，你的 AI 产出中有一大半未走通。差距越大，你代码编写端那些漂亮的产能数据就越虚假。

顺便提及 ROI。DORA 2026 年初的报告，为一家 500 人的工程组织算过一笔账：八个月回本，年回报率约 39%。但 DORA 在报告中特别注明——这是「示意性测算」，非实测数据，回报很大程度上取决于团队原有的工程基础（DORA ROI）。换言之，AI 的回报并非购买工具自动获得，而是取决于你的流程能否承接它。

繁忙不等于产出。在错误的方向上，越忙越亏。

也需提及边界，以免沦为贩卖焦虑。

它确实有失灵之时。三五人的高信任小团队、一次性脚本、尚在进行原型的项目——这些场景中，最卡之处可能本就不是评审，强行推行小批量和规格只是自加镣铐。这套逻辑旨在帮你找准真正的瓶颈，而非套用模板。先确认瓶颈确在评审，再谈后续。

AI 评审能否解决此问题？能解决一部分。让 AI 先行过滤，确实能让人从表层问题中解脱。但需牢记 DORA 的提醒：使用 AI，关键交付指标未必随之改善。AI 评审能让瓶颈变窄，却无法消除瓶颈。将其视为免责金牌，迟早出事。

也别将此文解读为「少用 AI」。恰恰相反，该用则狠用，但要砸在评审、验证、规格这一端，而非继续砸在「再多写一点」上。同一笔预算，投在瓶颈上是给整条路松绑；继续投在未卡壳之处，只是在堵死的路口继续加车。

2026 年真正拉开差距的，并非写得更快的团队，而是审得了代码的团队。继续往代码编写端加码 AI，等于给已堵死的路口继续发车——车更多了，路更堵了，看板却更好看了。

本周即可验证一事：打开团队 PR 列表，测量评审队列的平均等待时间，再看一眼 AI PR 与人工 PR 的接受率差距。

若 AI PR 等待明显更久、接受率明显更低，先别再加写代码工具了——将预算和精力调整至评审、验证、规格这一端。

← 上一篇：算力赛道核心标的盘点下一篇：三星OpenAI合作遇阻，Steam Machine或破千元，国内卫星互联网试验成功 →