你不是在驾驭AI,而是在为AI擦屁股
周五下午四点,我盯着 Grafana 上那条骤然飙红的告警曲线,怔了许久。
右手停在鼠标上纹丝不动,左手边的咖啡早已凉透。
这是本月第三次线上故障。
奇怪的是——我们团队本季度的代码产出量,是去年同期的两倍。PR 合并数、代码行数、commit 频次,所有可量化的指标都在疯狂攀升。汇报时老板频频点头,称‘AI 工具落地成效突出’。
我没接话。
因为心里一直压着一个没问出口的问题:
代码确实变多了,但系统真的更稳、更好了吗?
入行这些年,我亲历过不止一轮‘提效运动’。从 Agile 到 DevOps,每次都有工具热潮、指标狂奔,然后是一轮沉静的复盘。
这次 AI 编程浪潮,我最初也满怀热忱。三个月前全组切换至 Cursor + Copilot,刚上手那阵子简直酣畅淋漓——模板代码秒级生成,测试用例一键补齐,连新入职的实习生都能独立提交 PR 了。
但你懂那种感觉吗——就像新车提回家的头两周,处处顺心。
等新鲜感褪去,你开始察觉一些异样。
写代码是快了。可要审的也翻倍了。
过去一天五六个 PR,如今动辄堆到十五个。每个还更长、更密——AI 产出的代码有种令人不安的特质:表面极其专业。变量命名严谨、注释完备、结构分明。你粗略一扫,几乎挑不出破绽。
但你必须逐行细读,才能揪出裹在规整表象下的糟逻辑——一个被忽略的边界条件、一段理论上成立、却与你们业务场景完全脱节的实现。
我把它叫作‘验证税’。
只要让 AI 代你写了代码,你就欠下一笔债。生成越快,这笔债越重。可所有效率统计只记‘产出’,不记‘验证’——你的周报写着‘本周交付 15 个 PR’,没人关心你在那 15 个 PR 上审到太阳穴突突跳。
有组数据我反复核对多次:某项实证研究显示,资深工程师借助 AI 处理复杂架构任务时,整体效率反而下降了19%。
并非 AI 写得差。而是判断‘AI 写得是否真好’这件事,成本极高。
上月 Code Review 周会上,我们组一位八年经验的后端老将——平时寡言,但句句切中要害——突然冒出一句:
“我现在最耗神的活儿,不是写代码,是给 AI 当把关人。”
全场静默。
那沉默不是尴尬,是共振。每个人都被戳中了,只是此前无人率先开口。
这句话在我脑中盘旋了好几天。起初只觉‘是啊,审代码确实费劲’。但越琢磨越不对劲——它揭示的,远不止‘累’这么简单。
你注意到了吗?一件悄然发生的事正在改写角色本质:
资深工程师,正从‘构建者’滑向‘校验者’。
从前你主导架构设计、攻坚核心模块、破解最具挑战的问题;如今日常却是——通读 AI 写的代码、评估其正确性、修复它的缺陷。
创造感在稀释。价值感在收缩。
不知你是否也有同感。反正我现在写周报时常会走神——这周我究竟‘干’了什么?想半天才意识到,大半时间在阅读他人(准确说是 AI)写的代码。那种感受很微妙,仿佛全程在岗,却难以说清自己真正创造了什么。
某种意义上,AI 并未取代程序员——它把高级工程师悄然降格为高级质检员。这种降格无声无息:职级未变,薪资未动,唯一改变的,是你每天真正投入精力的核心事务。
这就是当下整个行业心照不宣却无人明说的真相:
瓶颈从未消失,它只是从‘生成’转移至‘验证’。
所有工具都在助你写得更快。没有一个能帮你判得更准。
目前全球约三成生产环境代码由 AI 参与产出,比例仍在持续上升。但这些代码的质量账单,由谁来付?
是你——那个对着屏幕逐行 Review 直到大脑宕机的人。
有个新词你或许尚未听闻:AI brain fry。同时管理多个 AI agent 的上下文、在人类思维与机器逻辑间高频切换、持续进行高精度判断——这不是 996 式的体力透支,而是一种更隐蔽的认知超载。
你周五下班回家,感觉一天什么也没‘做’,却比连续编码八小时还疲惫。
扯远了,收回来。
症结究竟在哪?我想了很久,认为问题出在‘度量标尺’选错了。
代码行数、PR 合并数——这些顶多衡量‘动作量’,而非‘有效产出’。真正该盯紧的是 DORA 四大指标:部署频率、变更前置时间、变更失败率、故障恢复时长。
你团队 PR 数翻倍了?挺好。但如果变更失败率同步飙升,那翻倍不过是徒劳。
这里有个关键分野,我很想听听你的立场。
当前业内大致分为两派。
我个人现阶段倾向后者。但我也坦承,这一倾向或许仅源于近期事故带来的应激反应。真正的解法,可能藏于某个精微的平衡点——但至少,‘无差别全面拥抱’绝非正解。
你站在哪一边?
回到周五下午那条刺眼的红色曲线。事后复盘发现——一段 AI 生成的缓存失效逻辑,在特定边界条件下引发了级联雪崩。
代码写得极为工整。工整到 Review 时,竟无人提出质疑。
代码正变得空前廉价。而判断力,却只会愈发稀缺、愈发昂贵。
你今天还在死磕‘写得更快’吗?
主战场,早就转移了。