AI效能测量04：指标到手后——为何不应将其设为个人考核目标

发布时间：2026-06-21 06:41阅读：1

摘要：AI 效能指标一旦转为个人 KPI，便会从观察工具蜕变为分数竞赛。本文借助 Goodhart、METR、IBM、CMU 的证据，破除排名冲动，明确度量与监控的界限。

上篇结尾，你已能整合 ccusage 和 GitHub 生成报表。cost_per_pr、revert_rate、cache_hit_rate，每人一行，清晰可见。

报表导出那一刻，最危险的想法也会浮现：

“按 PR 数量排序，发到群里，大家就会更积极使用 AI。”

停住。

这篇只劝一件事：别将 AI 效能指标设为个人 KPI，别做排行榜。它不是“不够优雅”，而是会让指标立刻失效，同时误导团队。

先看判决书。

这五条中，没有一条能直接用于个人评估。最接近产出的 PR 数，也只是团队层面的粗略代理。

抽象地说“指标会失效”缺乏说服力。我们模拟一下。

你把每个人的 AI 使用数据排序，发到团队群。第二天，真实变化大概率不是“大家更善于用 AI”，而是：

有人开始拆分 PR。一个完整改动拆成五个小 PR，账面产出翻倍，代码价值不变。

有人开始消耗 token。既然“用得多”看起来像“更积极”，就多问几轮、多塞上下文、多用昂贵模型。成本上升，工作未增。

有人开始回避困难任务。会提高 revert_rate、容易返工的难题无人问津，大家选择稳定、好看、易合并的任务。

有人开始为接受率而接受。AI 输出先接受，指标提升，回头再悄悄修改。接受率上涨，质量未增。

这不是因为团队人员恶劣。是指标在引导他们这么做。

当一个指标开始承载奖惩，人们就会优化数字，而非数字背后的事情。这就是 Goodhart 定律在管理中的体现。

流行说法是：设定量化目标，公之于众，大家自然会朝它努力。

问题在于，AI 效能指标本只适合观察。一旦变成个人目标，它衡量的就不再是“谁用得好”，而是“谁更会让报表好看”。

token 可以消耗，PR 可以拆分，接受率可以表演，回退率可以通过回避难题降低。指标未说谎，是用法改变了行为。

所以结论直接：将 AI 指标设为个人 KPI，有害。

这些指标在无人为其表演时，确实可能与效率相关。但 KPI 摧毁的正是这个前提。

METR 在 2025 年 7 月进行了一项随机对照实验：经验丰富的开发者，在自己熟悉的真实仓库中完成真实任务。开发者事前预测，使用 AI 会快 24%；实测却慢了 19%。

这个结果后来需要修正。METR 在 2026 年 2 月修订并扩大样本后，差距收窄到约 -4%，置信区间已包含 0。

所以它不能被简化为“AI 让人变慢”。

它真正确定的是另一件事：人对“用了 AI 到底快了多少”的直觉很不可靠。连实验中的开发者，都可能判断错误。

AI 秒回、代码迅速生成，体感当然良好。但体感测量的是舒适度，而非节省的时间。将自报和问卷作为效能证据，风险很高。

接受率是最诱人的指标：工具直接提供，0 到 1，天然可排序。

但研究中，代码补全接受率和“感知生产力”的相关系数只有 r=0.24。这个相关性不强，且预测的是“感知”，而非客观产出。

换句话说，接受率高，最多说明此人觉得 AI 顺手；不能证明代码更好，任务更快。

它可以作为习惯信号，例如判断某类工具是否被采用。但将其视为“谁用得好”的证书，就是夸大。越是现成、连续、易排序的数字，越容易被误当作质量指标。

PR 数看起来最实在。毕竟 PR 是交付，不是聊天。

Claude Code 官方自身的效能度量实践中，也使用过“每人 PR 数”，并配有“AI 贡献 20% 才算数”的归因规则。但他们也明确承认：PR 数不是完美代理。

原因很简单。PR 粒度因人、因任务、因仓库而异。一次大重构可能只有一个 PR，十个小修小补可能有十个 PR。再加上排行榜压力，拆分 PR 会立刻变成最便宜的刷分方式。

所以 PR 数的合理位置是：观察团队级趋势，不做个人排名。

它比 token 更接近产出，但“更接近”不等于“足够用于考核”。

“让用得多的人带队，让用得少的人补课”，听起来很合理。

但 IBM 一次 669 人部署中的调查显示，42.6% 的人自评使用 AI 后反而更慢，57.4% 更快。同一个工具，人的收益几乎对半劈。

CMU 2026 年的研究还指出了更关键的混淆变量：熟练阶段。

在针对 Agent 优化过的仓库中，引入 AI 后提交量 +36.25%，且显著；而在只有传统 IDE 使用历史的仓库中，同样引入 AI，提交量只 +3.06%，不显著。

同一套 AI，落在不同熟练度、不同仓库阶段、不同任务结构的人身上，效果可能相差一个数量级。

这时用同一把尺排名，看似公平，实际测量的是起跑线差异。DX 的工程效能研究也反对将使用量指标用于个人绩效考核。

打假不能变成反向造谣。AI 效能指标不是废物。

废物的是这套用法：个人 KPI、公开排名、按单项数字问责。

换一种用法，同一批指标很有价值：将它们作为团队健康度仪表盘和培训雷达。

先划清界限：

团队维度，管理层看聚合趋势。效率层是否改善？质量层是否同步提升？成本是否失控？如果产出上升、回退也上升，那不是庆功，而是需要检查质量闸门。

个人维度，数据只提供给本人用于自我改进。管理者最多用它发现“谁可能卡住、需要帮助”，然后去协助，而非惩罚。

培训雷达可以这样使用：

看出区别了吗？

同一份报表，做成排行榜，是定罪书；做成培训雷达，是帮助地图。数据未变，管理动作变了，结果完全不同。

道理都懂，真正拿到数据，还是想排名。这股冲动不奇怪。

第一层，是可量化的安全感。管理“人有没有用好 AI”本来模糊、费眼力、需要对话。一张能导入 Excel 的表，会让人觉得终于抓住了客观抓手。即使这个抓手测量错了东西。

第二层，是 KPI 惯性。过去许多组织默认“凡事可量化，量化即可考核”。AI 效能指标一进来，很自然就被吸进这条老轨道。

第三层，是公平错觉。“我用统一指标排名，对所有人一视同仁。”这句话听着公平，实际忽略了任务类型、熟练度、仓库阶段、工具链成熟度。起点不同，一把尺不叫公平，叫省事。

这就是为什么“别做成 KPI”听起来都同意，落地时却总犯错。不是不知道风险，是排名太顺手。

下次有人想把 AI 指标写进个人考核，直接拿这张表对照。

一句话：度量是为了帮团队把 AI 用好，不是为了在背后给人装监控。

最后，把这条界限说清楚。

度量非监控。这套指标的正当目的，是发现团队哪里卡住、谁需要帮助，然后改善流程和训练方法。不是盯梢，不是抓人偷懒。

不用于个人考核。可刷、有偏、混淆变量、Goodhart，任何一条都足以让“用它给个人打分”变成自欺。个人维度的数据，唯一正当出口是交回本人，帮助他自我提升。

守住隐私边界。采集什么、怎么用，团队和本人都应该知情。团队层面只用聚合，不公开个体明细。任何会让某个人“在群里被指着看”的用法，都该停止。

下一篇，我们不再纸上谈兵。我会拿一份脱敏团队数据，把这套指标从头跑一遍：哪些数字会骗你，哪些异常其实正常，人工闸门到底拦下了什么。

← 上一篇：重庆大渡口AI岗位急招：带薪年假+包住下一篇：智能协作新范式：人机配合的高效法则 →