标签

AI编程时代团队效能的控制论解析

发布时间:2026-05-31 18:05来源:微信阅读:13

编码周期从两周压缩到两三天,但交付周期却未见缩短。

你可能觉得这不合逻辑。编码都快了10倍了,交付怎么还变慢?

但这个现象,正在大量团队中真实发生。

原因其实不复杂。编码环节确实被 AI 加速了,但需求还是那么模糊,测试还是那么粗糙,验收标准还是那么含糊。AI 只是把编码环节的瓶颈搬走了,结果瓶颈被挤到了上下游。

就像一条高速公路,中间那段修得再宽,入口和出口还是单车道。车流并不会更快,只是堵在了别的地方。

这不是什么新鲜洞察。叶小钗前段时间写了篇文章,把这个现象讲得很透。但真正让我兴奋的,不是这个问题本身,而是顺着这个问题往下挖,后面那一串答案。

先说一个更扎心的事实。

AI 编程加剧了个体能力的马太效应。人越强,AI 在他手里就越强。人越弱,AI 在他手里也强不到哪去。

以前吧,编码能力是核心竞争力。你代码写得好,产出就高,这就是硬道理。抽象能力、系统思维这些,有则更好,没有也能混。

但 AI 编程时代,这个排序彻底翻转了。

编码能力被拉平了,Claude Code、Codex 这些工具让「能跑的代码」变得廉价。真正稀缺的,变成了两种能力。一个是抽象能力,把模糊的业务需求拆解成 AI 能消费的精确指令。另一个是系统思维,判断 AI 生成的代码在你的业务上下文中是不是「真正正确」。

叶小钗文章的读者里有个真实的案例。一个前端出身的 Java 同学,用 AI 生成的代码能跑,但各种问题爆发。他缺的不是编程能力,而是后端领域的系统思维,数据模型关系、事务边界、并发约束这些。

所以核心瓶颈已经从手转移到脑了。

你的大脑能多大程度把模糊转化为精确、把局部判断放入全局上下文,AI 就能多大程度地帮你。「人越强 AI 越强」不是鸡汤,是结构性事实。

说到这里,就引出一个很关键的问题,怎么才能让团队真正从 AI 中获益?

叶小钗给了一个四步路径,流程标准化、需求结构化、知识库建设、Skills 沉淀。一层一层递进,前面是后面的基础。坦率的讲,这个四步本身倒不是最关键的。最关键的是它背后的逻辑,先有规则,才能检测偏差;先有传感器,才能触发修复。

这中间有个东西特别重要,叫 Spec。

不是那种写完就扔进抽屉里的 PRD。在 AI 编程语境下,Spec 有三层含义。

第一层,Spec 是契约。人和 AI 之间关于「完成标准」的约定。没有 Spec,AI 不知道什么时候该停。有了 Spec,验收标准是客观的,不是「我觉得差不多了」。

Anthropic 有个实践特别能说明问题。他们的 Planner Agent 把一句话需求展开成200多条 feature,每条都有明确的验证步骤和 passes/fails 状态。200多条啊。你想想看,把一个需求拆成200多个可验证的条目,这个拆解能力本身就是最大的竞争力。

第二层,Spec 是可能性空间的边界。它划定的不是路径,而是边界。AI 在边界内有自由度,但不能越界。模糊的 Spec 等于高熵输入,AI 的可能性空间巨大,输出不可控。精确的 Spec 等于低熵输入,可能性空间被约束,输出可预测。

第三层,Spec 是人不可替代的贡献。写 Spec 的核心能力是,把模糊意图转化为可验证断言。

给你看个具体的例子。邬俊杰文章里的扣款规则,单学生账户最多同时存在3笔欠款。垫资只针对消费金额小于30元的订单。每个学校有垫资上限,垫资上限等于学生数乘以3乘以30乘以10%。

这叫精确的业务约束。AI 可以据此自动验证实现是否符合规则,验证结果也只有「通过」或「不通过」。Spec 的质量,最终决定了整个系统的上限。

而且 Spec 不是写完就结束的。它必须参与实现、参与验证、参与修正、持续更新。规范→实现→验证→修复→回写,形成一个闭环。Spec 在使用中被验证、被修正、被回写。它是一个活文档,不是交付物。

还有一个很重要的判断我特别认同,AI 不会补位。要么有上下文,要么没有上下文。要么有规则,要么没有规则。你想糊弄 AI,AI 一定会糊弄你。

说到这里,一直在聊方法论,但方法论背后还有一个更底层的理论根基。接下来这部分可能会稍微硬一点,我自己读控制论那本书的时候也反复看了好几遍才真正吃透,不过我尽量讲明白。

2026年2月,OpenAI 发了一篇文章叫 Harness Engineering,记录了3个工程师在5个月内通过 Codex Agent 生成1500个 PR、构建百万行生产系统的实践。硅谷工程师 George 随后指出,这种模式跟维纳的控制论一脉相承。腾讯云的邬俊杰进一步引用金观涛、华国凡的《控制论和科学方法论》,系统论证了 AI 编程就是控制论的工程实现。

控制论。

这个词听着很学术,但核心逻辑其实非常直觉。

控制的本质就是,被控制对象必须存在多种发展的可能性,人可以通过一定手段在其中选择。同一段需求,AI 有一万种写法。控制论把所有可能性的集合叫做「可能性空间 M」,控制的过程就是通过约束把 M 缩小到目标子集 m。

这直接解释了为什么流程标准化是前提条件。你可能知道 CLAUDE.md 这个东西,它的本质就是在缩小可能性空间。项目结构约定排除目录组织的随机性,编码规范排除风格的随机性,架构约定排除分层的随机性。

约束越多,输出越确定。

然后还有一个很有意思的原理,叫控制能力累积。

单次控制的能力是有限的。控制论用老鹰抓兔子来比喻,老鹰不可能一次俯冲就抓住兔子,而是通过多次修正逐步逼近。第一次俯冲把可能性空间从 M 缩小到 M₁,发现偏差后调整方向,第二次到 M₂,第三次到 m。

Anthropic 的实践完全印证了这个原理。他们发现,如果不拆分任务,Agent 会倾向于「一次性搞定」,跑到上下文窗口耗尽,留给下一个 session 一堆半成品。解决方案就是,让 Agent 每次只做一个 feature,做完提交、写进度,再开始下一个。把一个大控制问题分解为多个小控制问题,每个小问题的可能性空间足够小,单次控制就能收敛。

还有一个概念叫共轭控制。经典案例是曹冲称象。人没法直接称大象的重量,但可以通过三步完成,把大象体重转化为石头重量,称石头重量,再把石头重量还原为大象体重。AI 编程中处处是这样的模式。需求分析是把业务语言转化为 AI 能理解的语言,模型推理生成代码是可控过程,代码写入文件运行测试是把结果还原为可观索的反馈。MCP 和 Skills 系统就是共轭控制的工程实现,它们是 AI 的感受器和效应器,扩展了 AI 的控制边界。

但以上这些都还不是最关键的。

最关键的,是传感器体系。

控制循环能自矫正,核心在于传感器持续收集信息、计算与目标的偏差。AI 编程的传感器分两层。

业务无关的传感器,编译器、linter、安全扫描、部署失败日志。不需要理解代码做什么,就能判断代码不对。这些必须接入 AI 的执行循环,生成后立即检测、根据报告修复。

业务相关的传感器,测试用例、用例规约、验收标准。判断代码是否满足业务规则。核心原则是,业务规则要写到 AI 可检测、可验证为止。

Anthropic 的三 Agent 架构里有个 Evaluator,就是传感器。它用 Playwright 像用户一样操作应用,逐项验证验收标准。在一个项目中,Evaluator 精确到指出 LevelEditor.tsx 第892行 delete 键的判断条件错误。

这就是传感器该干的事。

还有一个很恐怖的机制,控制论里叫「自繁殖系统」。核爆炸、癌细胞生长、传染病流行都是这个模型,某变量的值越大,增长越快。

AI 编程里也存在这个机制。AI 生成新代码时会参考已有代码,一次坏实现被反复复制,架构快速漂移。Anthropic 在实践中确实观察到了这个问题。解法是把「黄金原则」编码到仓库中,让 Agent 定期扫描偏差、发起修复。OpenAI 专门强调「让 AI 自动清理垃圾代码」,持续小步还债远好过累积到大债务再解决。

综合以上这些,你就看到了 AI 编程的完整控制循环。

设定目标,控制器执行,被控对象变化,传感器感知偏差,偏差反馈回控制器,控制器调整干预。

Anthropic 的三 Agent 架构直接对应这个循环。Planner 定义目标,把模糊需求展开为详细 Spec。Generator 执行控制,按 Spec 逐 feature 生成代码。Evaluator 充当传感器,通过 Playwright 验证每个 feature。

控制论的核心逻辑循环就是,设定目标→感知偏差→施加干预→消除偏差。没有任何多余的步骤。

数据也验证了这个架构的价值。单 Agent 没有控制循环,跑20分钟花了9美元,核心功能不可用。三 Agent 架构跑6小时花了200美元,核心功能可用。多了5个多小时,多花了191美元,但产出从「不可用」变成了「可用」。这笔账,怎么算都划算。

说完理论,聊聊工业前沿的具体数据吧。因为理论归理论,这些顶级团队到底做到什么程度了,大家肯定也很好奇。

OpenAI 有个工程师叫 Ryan Lopopolo,2025年搞了一个极端实验叫 Symphony。基于 Elixir 的编排层,管理多个 Codex Agent 协作构建百万行级别的 Electron 应用。

结果太特么离谱了。。。

0% 人类编写代码,0% 合并前人工审查,仅做合并后审查。每天消耗约10亿 token,成本2000到3000美元一天。。。

就离谱。团队从3人扩展到7人,每人每天通过 Codex 产出5到10个 PR。

但 Symphony 的边界同样清晰。零到一的产品创建仍需人类主导,仅适用于全新项目,棘手的跨模块重构仍需人工介入,发布分支管理和冒烟测试仍由人类完成。OpenAI 自己的结论是,Harness Engineering 适合「已明确目标、需大量实现」的场景,而非探索性工作。

Anthropic 那边,根据 Fortune 的报道,公司整体70到90%的代码由 AI 生成,顶级工程师达到100%。Claude Code 自身的代码有90%是由 Claude Code 自己编写的。组织级 AI 采用率89%,内部部署了800多个 AI Agent,工程师代码产出同比增长约200%。

最有意思的是 Claude Code 的创造者 Boris Cherny。前 Meta Principal Engineer,自2025年11月起,再没手写过一行代码。

再没手写过一行代码。

Claude Code 编写了他100%的生产代码,而他每天仍然交付约20个更新。他在 Sequoia AI Ascent 大会上将这一转变称为「印刷术时刻」。

更具冲击力的是,他的团队里 PM 已经在用 Claude Code 写代码了。「软件工程师」和「产品经理」的边界正在消融。Boris Cherny 的工作重心从「写代码」完全转向了「设计让 AI 正确工作的环境」。权限边界、安全策略、工具接口、记忆体系,这些都是控制系统的参数,而非被控对象的输出。

但我想说,别被这些数据吓到了。

你先别急着焦虑。OpenAI 和 Anthropic 能这么玩,是因为他们有两个前提条件。

第一,传感器体系已经完善。自动化测试覆盖率高,CI/CD 成熟,代码审查文化已建立。AI 加速的产出有可靠的验证通道。

第二,Spec 质量足够高。工程师架构能力强,能把「做什么」定义得足够精确,AI 才能执行。

大多数团队不具备这两个条件就直接上 AI,说真的,就是在不可控的系统上安装了更快的引擎。

有个很尖锐但我觉得特别必要的判断。不是 AI 陷阱不陷阱的问题,是你先得把不管用不用 AI 都应该做好的事情做好。

编码环节从两周压缩到两三天,但交付周期并未等比例缩短。AI 加速了代码生产,但如果瓶颈在上游或下游,总产出不会提升。控制论的解释更直接,在一个反馈回路未闭合的系统上加速执行器,结果不是收敛更快,而是震荡更剧烈。

不用 AI 是慢慢烂,用了 AI 是加速烂。

这句话听着可能有点刺耳,我自己写到这里的时候也犹豫了一下要不要放上来。但我始终觉得,真话比好话有用。

说了这么多,回到一个最实际的问题。到底该不该用 AI?

判断标准不是「别人都在用」,而是这五个问题。

团队当前最大的瓶颈在哪里?AI 能否直接缓解这个瓶颈?引入 AI 的总成本是否低于收益?传感器体系是否完善?反馈回路是否已经闭合?

如果最后两个问题的答案是「否」,正确做法不是引入 AI,而是先修路再买车。

其实我一直在想一个问题。程序员这个角色的根本变化,不是现在才发生的。

蒸汽时代,离心调速器发明之后,人的角色从手动拧阀门变成了设计调速器。云原生时代,Kubernetes 出来之后,人的角色从手动运维容器变成了编写声明式描述文件。AI 编程时代也是一样的,人的角色从手写代码变成了设计环境、构建反馈回路、编码架构约束。

三次转变,同一个模式。

人从执行者变成了控制系统的设计者。

程序员的核心价值不再是「实现」,而是「评估」。定义什么是正确,看出哪里偏了,判断方向对不对。邬俊杰有一句话总结得特别精确,人不需要在实现上战胜机器,而要在评估上胜过它。

我突然想起一本书,阿西莫夫的《永恒的终结》。里面有句话大意是,当你能改变一切的时候,最难的不是改变,而是知道该改变什么。

AI 编程时代也是这样。工具已经足够强大了。难的不是让 AI 写代码,难的是知道该让 AI 写什么代码,以及怎么判断它写的对不对。

团队的目的是高效交付有价值的产品,AI 只是手段之一。流程标准化、需求结构化、知识库建设,这些是不管用不用 AI 都应该做好的事情。AI 恰好让这些基础能力的缺失暴露得更明显。它是一面镜子,照出的是团队工程化管理水平的真实状态。

先修路,再买车。

磨平一些信息差。