标签

AI效能测量04:指标到手后——为何不应将其设为个人考核目标

发布时间:2026-06-21 06:41阅读:1

摘要:AI 效能指标一旦转为个人 KPI,便会从观察工具蜕变为分数竞赛。本文借助 Goodhart、METR、IBM、CMU 的证据,破除排名冲动,明确度量与监控的界限。

上篇结尾,你已能整合 ccusage 和 GitHub 生成报表。cost_per_pr、revert_rate、cache_hit_rate,每人一行,清晰可见。

报表导出那一刻,最危险的想法也会浮现:

“按 PR 数量排序,发到群里,大家就会更积极使用 AI。”

停住。

这篇只劝一件事:别将 AI 效能指标设为个人 KPI,别做排行榜。它不是“不够优雅”,而是会让指标立刻失效,同时误导团队。

先看判决书。

这五条中,没有一条能直接用于个人评估。最接近产出的 PR 数,也只是团队层面的粗略代理。

抽象地说“指标会失效”缺乏说服力。我们模拟一下。

你把每个人的 AI 使用数据排序,发到团队群。第二天,真实变化大概率不是“大家更善于用 AI”,而是:

有人开始拆分 PR。一个完整改动拆成五个小 PR,账面产出翻倍,代码价值不变。

有人开始消耗 token。既然“用得多”看起来像“更积极”,就多问几轮、多塞上下文、多用昂贵模型。成本上升,工作未增。

有人开始回避困难任务。会提高 revert_rate、容易返工的难题无人问津,大家选择稳定、好看、易合并的任务。

有人开始为接受率而接受。AI 输出先接受,指标提升,回头再悄悄修改。接受率上涨,质量未增。

这不是因为团队人员恶劣。是指标在引导他们这么做。

当一个指标开始承载奖惩,人们就会优化数字,而非数字背后的事情。这就是 Goodhart 定律在管理中的体现。

流行说法是:设定量化目标,公之于众,大家自然会朝它努力。

问题在于,AI 效能指标本只适合观察。一旦变成个人目标,它衡量的就不再是“谁用得好”,而是“谁更会让报表好看”。

token 可以消耗,PR 可以拆分,接受率可以表演,回退率可以通过回避难题降低。指标未说谎,是用法改变了行为。

所以结论直接:将 AI 指标设为个人 KPI,有害。

这些指标在无人为其表演时,确实可能与效率相关。但 KPI 摧毁的正是这个前提。

METR 在 2025 年 7 月进行了一项随机对照实验:经验丰富的开发者,在自己熟悉的真实仓库中完成真实任务。开发者事前预测,使用 AI 会快 24%;实测却慢了 19%。

这个结果后来需要修正。METR 在 2026 年 2 月修订并扩大样本后,差距收窄到约 -4%,置信区间已包含 0。

所以它不能被简化为“AI 让人变慢”。

它真正确定的是另一件事:人对“用了 AI 到底快了多少”的直觉很不可靠。连实验中的开发者,都可能判断错误。

AI 秒回、代码迅速生成,体感当然良好。但体感测量的是舒适度,而非节省的时间。将自报和问卷作为效能证据,风险很高。

接受率是最诱人的指标:工具直接提供,0 到 1,天然可排序。

但研究中,代码补全接受率和“感知生产力”的相关系数只有 r=0.24。这个相关性不强,且预测的是“感知”,而非客观产出。

换句话说,接受率高,最多说明此人觉得 AI 顺手;不能证明代码更好,任务更快。

它可以作为习惯信号,例如判断某类工具是否被采用。但将其视为“谁用得好”的证书,就是夸大。越是现成、连续、易排序的数字,越容易被误当作质量指标。

PR 数看起来最实在。毕竟 PR 是交付,不是聊天。

Claude Code 官方自身的效能度量实践中,也使用过“每人 PR 数”,并配有“AI 贡献 20% 才算数”的归因规则。但他们也明确承认:PR 数不是完美代理。

原因很简单。PR 粒度因人、因任务、因仓库而异。一次大重构可能只有一个 PR,十个小修小补可能有十个 PR。再加上排行榜压力,拆分 PR 会立刻变成最便宜的刷分方式。

所以 PR 数的合理位置是:观察团队级趋势,不做个人排名。

它比 token 更接近产出,但“更接近”不等于“足够用于考核”。

“让用得多的人带队,让用得少的人补课”,听起来很合理。

但 IBM 一次 669 人部署中的调查显示,42.6% 的人自评使用 AI 后反而更慢,57.4% 更快。同一个工具,人的收益几乎对半劈。

CMU 2026 年的研究还指出了更关键的混淆变量:熟练阶段。

在针对 Agent 优化过的仓库中,引入 AI 后提交量 +36.25%,且显著;而在只有传统 IDE 使用历史的仓库中,同样引入 AI,提交量只 +3.06%,不显著。

同一套 AI,落在不同熟练度、不同仓库阶段、不同任务结构的人身上,效果可能相差一个数量级。

这时用同一把尺排名,看似公平,实际测量的是起跑线差异。DX 的工程效能研究也反对将使用量指标用于个人绩效考核。

打假不能变成反向造谣。AI 效能指标不是废物。

废物的是这套用法:个人 KPI、公开排名、按单项数字问责。

换一种用法,同一批指标很有价值:将它们作为团队健康度仪表盘和培训雷达。

先划清界限:

团队维度,管理层看聚合趋势。效率层是否改善?质量层是否同步提升?成本是否失控?如果产出上升、回退也上升,那不是庆功,而是需要检查质量闸门。

个人维度,数据只提供给本人用于自我改进。管理者最多用它发现“谁可能卡住、需要帮助”,然后去协助,而非惩罚。

培训雷达可以这样使用:

看出区别了吗?

同一份报表,做成排行榜,是定罪书;做成培训雷达,是帮助地图。数据未变,管理动作变了,结果完全不同。

道理都懂,真正拿到数据,还是想排名。这股冲动不奇怪。

第一层,是可量化的安全感。管理“人有没有用好 AI”本来模糊、费眼力、需要对话。一张能导入 Excel 的表,会让人觉得终于抓住了客观抓手。即使这个抓手测量错了东西。

第二层,是 KPI 惯性。过去许多组织默认“凡事可量化,量化即可考核”。AI 效能指标一进来,很自然就被吸进这条老轨道。

第三层,是公平错觉。“我用统一指标排名,对所有人一视同仁。”这句话听着公平,实际忽略了任务类型、熟练度、仓库阶段、工具链成熟度。起点不同,一把尺不叫公平,叫省事。

这就是为什么“别做成 KPI”听起来都同意,落地时却总犯错。不是不知道风险,是排名太顺手。

下次有人想把 AI 指标写进个人考核,直接拿这张表对照。

一句话:度量是为了帮团队把 AI 用好,不是为了在背后给人装监控。

最后,把这条界限说清楚。

度量非监控。这套指标的正当目的,是发现团队哪里卡住、谁需要帮助,然后改善流程和训练方法。不是盯梢,不是抓人偷懒。

不用于个人考核。可刷、有偏、混淆变量、Goodhart,任何一条都足以让“用它给个人打分”变成自欺。个人维度的数据,唯一正当出口是交回本人,帮助他自我提升。

守住隐私边界。采集什么、怎么用,团队和本人都应该知情。团队层面只用聚合,不公开个体明细。任何会让某个人“在群里被指着看”的用法,都该停止。

下一篇,我们不再纸上谈兵。我会拿一份脱敏团队数据,把这套指标从头跑一遍:哪些数字会骗你,哪些异常其实正常,人工闸门到底拦下了什么。