标签

AI时代,头衔和经验正在失效

发布时间:2026-06-20 10:07阅读:2

6月中旬,Anthropic发布了一份研究报告。说实话最初我并没有太在意,因为近期这家公司的消息实在太密集了,一会儿是实名认证,一会儿是顶级模型受限,一会儿又是与美国政府的摩擦。现在看到它的名字都快产生疲劳感了,心里不禁在想"怎么又是你"。

然而当我仔细阅读了这份报告的详细内容后,看法完全改变了——不是某个具体数字触动了我,而是它基于40万次真实对话的数据,首次验证了我一直在关注但难以表述的现象:**在AI面前,资历和头衔真的变得毫无意义了。**

研究团队分析了约40万次真实的Claude Code交互记录,涵盖约23.5万名用户,时间范围从2025年10月到2026年4月,长达七个月。这不是实验室里模拟的数据,而是数十万人在实际工作场景中使用AI完成任务的第一手资料。

## 人类负责决策,AI负责执行

Claude Code是过去一年全球知识工作者广泛使用的AI编程产品之一。之所以说"之一"是为了避免过于绝对,但对于AI专业领域的人士而言,它几乎就是首选。甚至连竞争对手,比如谷歌的工程师,自己公司也在开发类似产品,却公开对Claude Code表示赞赏。

需要注意的是,这已经不是一个"写代码的工具",而是一个"完成复杂任务"的AI产品。你下达一个指令,它会自动读取文件、修改代码、运行命令、检查结果,然后再返回给你。报告中有一个细节数据:一次指令,它平均触发约10个操作,输出约2400字。

这份报告最具价值的发现,是首次利用真实使用数据验证了一件事:**人类主要负责决策,AI主要负责执行。**

具体来看,在这次分析的典型会话中,人类完成了约70%的规划决策,即"做什么""走哪条路""怎样算完成";AI完成了约80%的执行决策,即"改哪些文件""写什么代码""跑哪些命令"。

70%和80%,这两个数字不是猜测,不是推演,而是40万次对话中真实存在的分工比例。

这种分工具体是什么样子?举个简单的例子。你对Claude Code说"帮我修复这个登录页面的bug",然后Claude Code自己读取了三个配置文件,修改了两处代码,运行了一遍测试,测试没通过,又回去修改了一处,再次运行,通过了,最后把改动列出来给你看。

你全程只说了一句话,Claude Code做了十几个动作。你决定修什么,它决定怎么修。这就是70%和80%的含义。

而且这个分工正在朝着更深入的方向发展。报告追踪了七个月的变化,发现一个非常有趣的趋势:修复bug的会话占比从33%下降到19%,说明用户不再只是用它来修修补补了;运行软件从14%上升到21%,说明用户开始让AI部署和跑流程了;写作和数据分析加起来,从约10%翻倍到了20%,说明非程序员开始进场了。

这意味着什么?七个月下来,用户开始把更接近最终交付的任务交给它了。任务的平均估算价值上升了27%。

**AI编程工具的发展方向,不是"更会补全代码",而是用户开始让它干代码之外的活了。**

## 资历归零,但专业能力没有归零

好,人类负责决策,AI负责执行,分工明确了。那么接下来的问题是,既然AI负责干活,那什么决定了一个人的决策质量?什么决定了你和AI对话的效果?

在这份报告里,我认为最犀利的发现出现了,连定义本身都很有趣。

Anthropic给每个会话里的用户打了一个"专业度"评分,从新手到专家,五个级别。但这个"专家"的定义,跟我们以为的完全不一样。

一提到专家这个词,我们脑海里经常浮现的就是老教授和名医。咱们语境里衡量的标准主要就是从业资历,要不怎么会有郭德纲的那句调侃呢?就是谁活到最后,谁就是德艺双馨的老艺术家。

但在这个报告里,它不看你的职位头衔,不看你在行业里干了多少年,不看你的学历和证书。它只看你在这一次具体任务里的具体表现,三个信号:

**你的指令够不够精确?你知不知道该让AI验证什么?以及当AI理解错了的时候,你能不能发现并纠正它?**

报告里举了一个例子,一个不会Python的会计,从来没写过代码,但她能清清楚楚地告诉Claude Code,对账脚本必须执行哪些规则,而且能抓住月末结账时的边界错误。在这个任务上,她就是专家。

反过来,一个资深软件工程师,如果他对Rust不熟悉,那他在Rust相关任务上给出的指令就不精确,也不知道该让AI验证什么,在AI眼里,他就是新手。不是因为他资历浅,而是因为在这个具体任务上,他给出的指令质量就是新手水平。

这背后意味着什么?就是**咱们在人类场域里的资历,在AI面前归零了。**

比如我做了20年产品经理,但如果我只是跟AI说"你帮我做一下某个功能的产品需求文档",那在AI眼里,我就是一个产品经理新手,因为给出的指令质量太低。从这个角度来说,一大批只会管人的中高层领导,在AI面前,都要被归为"新手"了。

那这个"指令质量"的差距,到底有多大?

在典型的新手会话里,用户每发一条指令,Claude Code平均触发5个动作,输出600字。在专家会话里,每条指令触发12个动作,输出3200字。

12对5,3200对600。**专家的一条指令,顶新手的好几条。** 换个说法,按每条指令的产出来算,专家从AI那里拿回来的,是新手的五倍还多。

不是AI偏心,而是专家的指令能让AI跑得更远。

而且这个差距不是专家输入了更多字。报告做了控制变量,把工作类型、任务价值、时间、职业、模型家族全部拉平之后,发现专业度每升一级,Claude Code的动作数增加9%,输出增加13%。趋势依然显著。

这说明什么?说明**好指令不是微操,不是你事无巨细地告诉AI每一步该干什么。好指令是高质量授权,是你把目标、边界和验收标准说得足够清楚,AI拿到之后能自己跑很远。**

你可能会说,这不就是带团队吗?给下属布置任务,把目标讲清楚、把验收标准定好,下属就能自己推进。

确实有点像,但有一个关键区别:你的下属是一个有判断力的人,你跟他说"帮我做个对账脚本",他大概知道一个合格的对账脚本该长什么样,会自己补上你没说的部分。但AI不一样,它能力很强,但理解很窄。你不说清边界,它不会自己猜;你不说清验收标准,它不知道往哪跑。

所以你跟AI说"帮我写个脚本",它真的就给你写个脚本,至于规则对不对,它不管。但你跟AI说"帮我写一个对账脚本,必须校验这三条规则,月末结账的边界情况要单独处理",AI拿到就能自己跑出一条完整的路来。

前者是甩手掌柜,后者才是高质量授权。差别不在于你说了多少字,而在于你有没有把AI需要的东西给到。

## 管理者为什么比程序员更会用AI

说到指令质量,报告里还有一个让人意外的发现。

在确实新增或修改了代码的会话里,Anthropic把用户按职业分了类,然后比较他们的成功率。不过这里说的成功率,不是AI自己说"我做完了"就算成功,报告设了一个更严格的标准叫"验证成功",要么代码提交了,要么测试通过了,要么用户在对话里明确确认了"这就是我要的"。得有硬证据,才算数。

按这个标准,十大职业的验证成功率,跟软件工程师的差距都不超过7个百分点。这7个百分点,其实已经是很小的差距了。

软件工程师及相关数学职业的用户,任务验证成功率大约34%,管理类职业大约37%,法律类大约33%,商业金融大约29%,医疗、设计、销售、教育、科学类大约在27%到28%之间。

你注意到没?管理职业的验证成功率比软件工程师还高。

这个数据可能有样本偏差——愿意主动使用AI工具的管理者,本身就更擅长拆任务、说清目标。但即便打个折,它依然给出了一个很强的信号:你不需要先把自己训练成工程师,但你需要能说清业务规则、边界条件和验收标准。**AI能帮你写代码,但不能替你知道什么叫"对"。**

报告里有一句话让我印象很深:生产软件,可能正在从一种程序员专属的职业能力,变成一种普通工作能力。

这是报告的一个推测,我觉得说的挺对的。当然,这并不是说非程序员可以替代软件工程师,工程师的价值从来不只是写代码,还有系统架构、风险控制、长期质量维护,这些是AI暂时替代不了的。

但方向是对的——未来不是人人都成为程序员,而是各行业懂问题的人,可以直接生产脚本、自动化流程、内部工具和技术文档。律师会写合同检查脚本,还是一名律师;会计指挥Python对账,还是一名会计。编程不再是程序员的专利,而是各行各业解决自己问题的工具。

报告确实说明了一件事:懂业务问题的人,已经可以借助AI调动一部分工程能力了。

## 翻车之后,怎么把AI拉回来

不过,刚才说的是让AI知道什么叫"对",这和发现AI哪里理解错了,还不是一回事。

报告里有一组数据,我觉得比前面所有的都更值得细看。它把会话里"遇到麻烦"的情况单独拎了出来,而所谓的"遇到麻烦",就是出现了报错、测试失败、反复重试、用户表达不满这些信号。在复杂任务里,AI出错是常态,这不是什么丢人的事。

但在遇到麻烦之后,不同专业度的用户,结局完全不同。

遇到麻烦后,新手会话的验证成功率一下子滑落到了只有4%,专家是15%。4%是什么概念?就是100次遇到麻烦里,新手只有4次能救回来。而专家能救回来15次。

更扎心的是放弃率。遇到麻烦之后,19%的新手直接放弃了,判定为失败且没写任何代码。而其他专业度级别的用户,放弃率只有5%到7%。

这说明什么?**专业用户的优势,不在于永远不翻车,而在于翻车之后知道怎么把AI拉回来。** 他们知道该补充什么约束,该要求AI验证什么,该在哪个方向上纠偏。

而新手呢,不是AI不够努力,而是新手自己都不知道该往哪拉。AI等着你给方向,但你给不出来,那就只能放弃。

这其实是最让人担心的地方。新手放弃率高,不是因为AI帮不了他们,恰恰相反,AI就在那里等着,只要你给对方向它就能跑。但新手给不出方向,于是得出一个结论"AI不好用",然后放弃。

而专家遇到同样的麻烦,会说"你这里理解错了,应该是这样的",然后继续推进。

同一个工具,同一个困境,结局完全不同。差的不是工具,是人对问题的理解深度。

## 这件事跟你有什么关系

说到这里,你可能会想:这是程序员的事,跟我有什么关系?

但这份报告揭示的,不是"程序员怎么用AI",而是"AI时代,什么叫专业能力"。

你不需要会写代码,但你每天在跟AI对话——让它帮你写邮件、整理资料、做方案、分析数据。这些场景里,你的"指令质量"决定了你能从AI那里拿回多少价值。

举个例子。你跟AI说"帮我写个周报",那在AI眼里,你就是新手。因为你的指令太宽泛,AI不知道边界在哪里,也不知道什么叫"对"。它会给你一个看起来像周报的东西,但大概率不是你真正需要的。

但如果你能说清楚:"帮我写一个本周工作周报,本周主要完成了三件事:一是推进了A项目的评估工作,跟3家机构对接了资料;二是协调了B项目的专班会议,明确了先易后难、先非住宅后住宅的推进方向;三是跟银行沟通了C事项的牵头单位变更。周报需要突出进展、列出待办事项和责任人,风格要务实不花哨,控制在500字以内"——这就是高质量授权。AI拿到之后,能自己跑出一条完整的路来。

为什么这是高质量授权?因为你把三个东西说清楚了:

**目标**:写一个本周工作周报,突出进展、列出待办事项和责任人。

**边界**:本周完成了三件事(具体内容已给出),风格务实不花哨,控制在500字以内。

**验收标准**:周报能直接发给领导看,不需要再改。

差别不在于你说了多少字,而在于你有没有把AI需要的东西给到。

**AI面前,你的资历归零了,但你的专业能力没有归零,它只是换了一种接口和表现形式。**

这个接口,就是"把目标、边界和验收标准说清楚"的能力。你在这个行业干了多少年、有什么头衔,AI不管。它只看你在这一次具体任务里,能不能把这三个东西说清楚。

## 不这么做,会有什么后果

你可能觉得,"把目标、边界和验收标准说清楚"这件事,听起来很麻烦。不就是跟AI对话吗?何必这么较真?

但这份报告的数据告诉我们一个事实:**做不到这三件事,你的专业能力接不住AI。**

为什么这么说?因为当你给不出清晰指令的时候,AI会按照它自己的理解去跑。它跑出来的东西,大概率不是你真正需要的。你拿到之后,要么花大量时间去改,要么干脆放弃不用。

前者是你在给AI打工——你的时间被AI的输出消耗了,而不是AI在帮你节省时间。后者是你的专业能力在那里,但AI接不住它——你跟AI之间隔着一堵墙,你过不去,它也过不来。

而那些能把目标、边界和验收标准说清楚的人,他们从AI那里拿回来的,可能是你的三倍、五倍。他们用同样的时间,完成了你三倍、五倍的工作。

"五倍产出"这个数字,不是在所有任务上都成立。它更多出现在那些需要多次迭代、需要复杂判断的场景里——比如写方案、做分析、写代码。如果你只是让AI帮你改个错别字、写个简短邮件,差距没那么大。但如果你让AI帮你做复杂任务,这个差距就会非常明显。

阻力在哪?很多人不是学不会,而是没动力——他们觉得"跟AI对话这么麻烦,不如我自己干"。但问题是,你自己干,时间就那么多。别人用AI放大了三倍、五倍,你还在单打独斗,时间一长,差距就出来了。

怎么克服这个阻力?我的建议是:**先从简单任务开始,建立信心。**

不要一上来就让AI帮你写方案、做分析。先从"写个周报""整理个会议纪要""改封邮件"这些小任务开始。你会发现,当你把目标、边界、验收标准说清楚之后,AI给出的结果往往比你预想的要好。这种正向反馈会让你有动力继续尝试,慢慢过渡到更复杂的任务。

**AI不会替代你,但会用AI的人会替代不会用AI的人。**

这句话被说烂了,但很少有人把它拆开来看:什么叫"会用AI"?不是会用多少个工具,不是知道多少个提示词模板,而是能不能把你的专业能力,翻译成AI能理解的指令。

做不到这一点,你的专业能力就在那里,但AI接不住。你跟AI之间隔着一堵墙,你过不去,它也过不来。

能做到这一点,你的专业能力就能通过AI这个接口,放大三倍、五倍。你不再是单打独斗的一个人,而是一个带着AI军团的人。

## 下次跟AI对话前,先过一遍这三件事

下次跟AI对话前,先过一遍这三件事。我会告诉你,每件事具体怎么判断。

**第一件事:我有没有说清目标?**

怎么判断?你能不能用一句话说出"我要AI帮我干什么"?

如果你只能说"帮我写个方案""帮我整理个资料",那说明你没说清目标。

如果你能说"帮我写一个客户提案方案,客户是XX行业的中小企业,核心诉求是降低运营成本,预算不超过50万",那说明你把目标说清楚了。

目标要具体到"谁、干什么、为什么"。

**第二件事:我有没有告诉它验证什么?**

怎么判断?你能不能说出"AI给出的结果,要满足什么条件才算对"?

如果你只能说"帮我写个周报",那说明你没告诉它验证什么。

如果你能说"周报需要突出进展、列出待办事项和责任人,风格要务实不花哨,控制在500字以内,能直接发给领导看",那说明你告诉它验证什么了。

验证标准要具体到"形式、风格、长度、用途"。

**第三件事:如果它理解错了,我能不能发现并纠正?**

怎么判断?你能不能说出"AI可能会在哪些地方理解错,我要怎么纠正"?

如果你只能说"帮我写个方案",那说明你不知道AI会在哪里理解错。

如果你能说"客户提案方案要突出降本增效,不要写成技术方案,如果AI写得太技术化,我要提醒它改成业务语言",那说明你知道AI可能会在哪里理解错。

纠偏意识要具体到"风险点+纠正方向"。

这三件事做到了,你就是那个能让AI跑出五倍产出的专家。