AI 编码提速背后,评审瓶颈已成最大阻碍
评审队列中积压着由 AI 生成的合并请求(PR),长达四百多行,已搁置三四日无人问津。其前方还排着五六条类似的庞大代码块。与此同时,团队看板数据亮眼:合并请求数量刷新纪录,全员皆感今年效率显著提升。
这两番景象并存,正是 2026 年多数工程团队面临的真实境况。
并非团队未获进步,而是精力都投入到了不再成为制约的环节。当 AI 将代码编写成本降至近乎免费,决定团队真实交付速度的关键,已非谁写得快,而是谁审得动。
症结不在于「AI 无用」,而在于你押错了侧重点。
软件工程效能分析平台 LinearB 发布的 2026 基准报告,分析了 810 万个合并请求,覆盖 4800 多个组织,结论直指核心:瓶颈已从「代码编写」转移至「评审与验证」(LinearB Benchmarks)。
最引人注目的对比在于两点。
其一,AI 生成的合并请求,平均需在评审入口外排队 4.6 倍的时间才能被人点开。有趣的是,一旦有人接手,评审速度反而加快——评审动作本身依然存在,问题在于前置排队过长。
其二,同一批 AI 合并请求中偏大的部分(75 分位,即前 25% 的大体量请求),其规模是普通请求的 2.6 倍:前者 408 行,后者 157 行。AI 能一次性输出更多代码,但能承接代码的审核人员并未增加。
还有一条数据尤为扎心:AI 合并请求最终被合并的比例仅为 32.7%,而人工编写的比例高达 84.4%(LinearB Build vs. Buy)。AI 端产出的「成果」中,近七成根本无法落地。
AI 在代码编写端将水龙头开到最大,但下游「人工评审」的管道口径未变。积水日益增多,每一滴水在管口等待的时间愈发漫长。你看板上涨的「合并数」,看似产能提升,实则是水龙头开大的流量,未必是真正流过管道的有效水量。
你以为买到的是产能,实则买到的是积压。
若瓶颈在于评审,再为「代码编写」叠加第二个、第三个 AI 工具,后果如何?
不会转化为更多交付。只会导致更长的队列、更大的代码块、以及更多需要人脑判断的上下文。
此事蕴含一个朴素道理:当 incoming 的工作量逼近处理上限,队伍不会缓慢变长,而是会突然失控。生产管理中的约束理论对此早有阐述——《目标》一书将其剖析透彻——系统的产出由最薄弱的环节决定。在不卡壳的环节投入再多精力,多出的产出只会堆积,反而拖累真正受限的环节。
LinearB 数据中那个 4.6 倍的排队现象,正是此理的自然结果,并非团队不够努力。
因此,得出一个反直觉却站得住的结论:在「代码编写」端增加第 N 个 AI 工具,新增产出基本为零,甚至可能为负。它不增交付,只增积压;积压反过来会压垮评审环节本就紧张的余量。
DORA(一个研究软件开发效率的机构)发布的 2025 年报告样本广泛:九成技术从业者在使用 AI,超八成自认效率提升(DORA 2025)。但 DORA 对 AI 的定义并非「提速器」,而是**「放大器」**。
放大器的含义是:AI 不会替你建立工程纪律。团队原本的状态,会被 AI 放大。无论是纪律严明还是混乱无序,AI 都会照单全收。
数据也印证了这一点:AI 使用越频繁的团队,产出在增长,交付出问题的概率也在上升。这两条曲线同步上扬,正是你近期常感到的撕裂感——感觉更快了,但交付却更脆弱了。
DORA 的对策直指一条老规矩:小批量提交——单次修改不宜过多,确保每次合并请求小到可由一人独立审阅并合并(Balancing AI tensions)。原因很简单:过去人工编写 400 行会疲惫,自然会停下来拆分;如今 AI 工具几分钟即可甩出 500 行,那种「累了就拆」的本能不再触发。LinearB 观察到的 2.6 倍体量膨胀,与 DORA 提出的这一机制,实为同一件事。
AI 并未逼迫你降低标准,是你顺手降低了标准。
最直观的反应是「加快评审」:增加人手、加班、引入 AI 评审工具。这些均未切中要害。
破解瓶颈的方法,从来不是让瓶颈跑得更快,而是减少流经瓶颈的流量。三件事,方向皆在「减」。
前文已述为何评审变为瓶颈——AI 开大了水龙头,管道却未变。以下三件事,按你回去后执行的顺序排列:先做一件今日可单人拍板的,再做一件需写入日常习惯的,最后做一件需调整 CI 配置的。
第一件事:锁定 PR 体量上限。进入仓库设置,将合并请求的 diff 行数上限锁定为具体数值——400 行是一个可行的起点。超出此线的 PR,由 CI 直接拦截,不进入评审队列。这并非「建议团队写小点」,而是机器帮你把关。它直接对冲前文所述的 2.6 倍膨胀:AI 一次性甩出的 500 行,无论多整齐,都需拆分为两到三份再进入。每份需小到一个人能在一次专注中消化,敢点开、敢看完、敢合并。
第二件事:在向 AI 下达任务前,先将验收条件整理为 checklist。AI 代码最难审查之处,不在于它不像代码,而在于它常看起来非常正确。因此,不能问「这看起来对吗」——AI 最擅长生成的正是「看起来对」的东西。要问的是:它做了哪些假设?这些假设是否安全?应用安全平台 Bright Security 将此总结得最干脆。实操只需一步:每次给 AI 下任务时,花三分钟列出三到五条验收条件——接受何种输入、禁止触碰哪些数据、边界情况如何处理。评审时不看代码是否漂亮,只对照这五条打勾。全绿即过,其余均为次要。
第三件事:将机器检查配置进 CI,达到人眼看不到不合格 PR 的程度。配置类型检查步骤、核心路径单元测试步骤,再加一个 AI 初审步骤——让机器先过滤表层问题(未处理异常、空指针、明显逻辑漏洞),修复后再轮到人看。配置完成后的效果是:进入人工评审的 PR,机器已处理完所有可自动化的任务。人的精力留给机器无法判断的部分——业务逻辑是否正确、架构是否契合、权限与数据流向是否合理。
做完这三件事,团队工作重心将转变:从「硬着头皮审核一堆 AI 生成代码」变为「在机器铺好的路面上做最终判断」。瓶颈依然是人,但流经他的流量减少了——而且减少在正确的地方。
若瓶颈在于评审,那你向上汇报的指标,大半都量错了地方。
合并了多少 PR、写了多少行、PR 总数——这些全是代码编写端的产能。它们的增长,仅说明水龙头开得更大,不代表真正流过管子的水更多。数字本身真实,却误导了你的关注点。
应关注的只有这几项:评审队列等待时长、合并前修改次数、从写完到上线的总耗时。现成的预警灯就在眼前:AI PR 接受率 32.7%、人工编写 84.4%。这一差距本身就在说明,你的 AI 产出中有一大半未走通。差距越大,你代码编写端那些漂亮的产能数据就越虚假。
顺便提及 ROI。DORA 2026 年初的报告,为一家 500 人的工程组织算过一笔账:八个月回本,年回报率约 39%。但 DORA 在报告中特别注明——这是「示意性测算」,非实测数据,回报很大程度上取决于团队原有的工程基础(DORA ROI)。换言之,AI 的回报并非购买工具自动获得,而是取决于你的流程能否承接它。
繁忙不等于产出。在错误的方向上,越忙越亏。
也需提及边界,以免沦为贩卖焦虑。
它确实有失灵之时。三五人的高信任小团队、一次性脚本、尚在进行原型的项目——这些场景中,最卡之处可能本就不是评审,强行推行小批量和规格只是自加镣铐。这套逻辑旨在帮你找准真正的瓶颈,而非套用模板。先确认瓶颈确在评审,再谈后续。
AI 评审能否解决此问题?能解决一部分。让 AI 先行过滤,确实能让人从表层问题中解脱。但需牢记 DORA 的提醒:使用 AI,关键交付指标未必随之改善。AI 评审能让瓶颈变窄,却无法消除瓶颈。将其视为免责金牌,迟早出事。
也别将此文解读为「少用 AI」。恰恰相反,该用则狠用,但要砸在评审、验证、规格这一端,而非继续砸在「再多写一点」上。同一笔预算,投在瓶颈上是给整条路松绑;继续投在未卡壳之处,只是在堵死的路口继续加车。
2026 年真正拉开差距的,并非写得更快的团队,而是审得了代码的团队。继续往代码编写端加码 AI,等于给已堵死的路口继续发车——车更多了,路更堵了,看板却更好看了。
本周即可验证一事:打开团队 PR 列表,测量评审队列的平均等待时间,再看一眼 AI PR 与人工 PR 的接受率差距。
若 AI PR 等待明显更久、接受率明显更低,先别再加写代码工具了——将预算和精力调整至评审、验证、规格这一端。