标签

AI学习路径03:Agent让AI真正开始动手

发布时间:2026-04-11 20:08来源:微信阅读:4

Agent并非旨在让AI更擅长闲聊,而是推动“知晓如何操作”向“实际执行”迈进。它终于具备了协助你实际工作的能力。

这是一系列文章/教程的一部分,涵盖了完整的AI学习路径。其他文章请参阅同日发布的01至05号文章,其中包括关于Claude Code和结果判断的内容。

如果说Prompt侧重于解决“如何清晰表达任务”,那么Agent紧随其后要处理的是:

在清晰表达之后,它能否真正执行下去。

我认为这正是Agent最值得关注的方面。许多人在刚开始使用AI时都会产生一种强烈的错觉:既然它看起来如此聪明,为什么还是不够用?

答案很简单。许多聊天机器人强在“说话”,但在“做事”上较弱。

它可以解释、分析、重写,并与你讨论。这些都很有用。然而,许多真实任务光靠口头说明是不够的。如果你让它整理一个项目,它可以描述得头头是道,但文件依然静止不动。如果你让它修改某些内容,它可以提供建议,但实际修改仍需你亲自动手。如果你让它运行工作流,它可以告诉你如何操作,但打开软件、点击按钮和执行命令的最终执行者仍然是你。

问题就在这里。普通聊天机器人就像一个聪明的大脑:你问,它答。你让它思考,它也想。但它站不起来,走不出去,手也伸不到真实世界。

因此你会清楚地感觉到一个界限:它理解了并不等于它做了。复制粘贴等体力活仍然需要主人的帮助。

Agent就是从这里向前迈出的一步。它不仅仅继续与你交谈。

这正是Agent真正重要的地方。不是它更会聊天了,而是它终于有了手。因此,我不太想把Agent定义为一个神秘的热词。Agent:

代理人 英[ˈeɪdʒənt] 美[ˈeɪdʒənt] n. 常见释义 (演员、音乐家、运动员、作家等的)代理人;(化学)剂;(企业、政治等的)经纪人;动因(指对事态起重要作用的人、事物);原动力;施事者;

提到Token:NB,听起来很专业。一说:词元?是的,就是这个,没什么新鲜的。

目前外界有许多说法,提到Agent时,似乎都在谈论一种神秘的新物种,一种能够自主思考、规划一切并接近数字生命的东西。这又有点太过了。对于普通人来说,没必要先理解得那么玄乎。如果不把它想得太复杂,可以先从最简单的层面理解:

Agent就是让AI不仅仅回答你,而是开始替你完成部分任务。

这部分任务可能包括什么?读取文件、修改文件、调用工具、执行命令,并一步步推进任务。这时你会发现,Prompt和Agent的关系其实很顺畅。Prompt是你把任务说清楚,而Agent是它开始根据该任务执行操作。

前面仍然是“你说”,后面开始变成“它做”。

这就是为什么我会把这两部分放在主线中,且放得这么近。因为它们本来就是一条线上的两个步骤。

先把任务说清楚,再让它真正动手。这时许多人可能会误解,以为Agent就是“万能自动化”。但如果一下子把它想象成“万能自动化”,通常也是有点过头。

Agent当然很有用,但它也不是神。

因此,Agent最容易产生误导的地方(被疯狂神话,这原因我能理解)也在这里。一旦你看到它开始动手,就容易产生太多想象。觉得终于来了,一个能替我全自动干活的东西。Agent的陷阱大到无法想象。后面会有专门的文章来讨论这些可怕又隐藏的陷阱。

回到真正有价值的地方,不是“它什么都能做”,而是“它开始从只会说变成会做一部分事”。这已经很大了,但还没大到你可以扔掉你的大脑。

因此,在这一部分我不会给你讲一堆Agent产品。没必要。那又会掉回工具盘点。我只重点讲一个代表性事物:Claude Code。

不是因为它代表全世界。而是因为它足够典型、直观,且足够让普通人第一次真正明白:“会动手的AI”到底是什么感觉。你会看到,模型仍在后面,Prompt仍在前面,但中间增加了一层关键的东西:它开始连接工具,处理环境,并走向执行。

一旦看懂了这个变化,许多Agent概念就不会那么令人困惑了。你不会把它理解成一个神秘的热词。你会知道,它本质上是在填补AI过去最明显的短板:它以前会说,不太会做。现在开始会做一点了。

这就是第三部分最需要抓住的东西。

Agent不是凭空制造新问题,它更像是将模型原有的弱点带入更长、更真实的执行链路中。

因此,在多步执行中,真正需要小心的往往不是某个单点错误,而是几类问题同时出现:之前提到的条件是否生效,当前处于哪一步,工具使用不当,工具返回结果的因果关系是否错位,中间的某个猜测是否被当作事实继续使用。最终出错,不只是在“推理中断”,更多可能是前面的条件、状态、工具结果本身就不干净,有偏差。

这也是为什么,Agent看起来很强,但在实际使用时不能只看它是否会拆解步骤或调用工具。模型本身的边界不会因为它开始调用工具或拆解步骤而自动消失。它只是从“回答时出错”变成了“在执行过程中一步步带入错误”。公开评测也能看到这个趋势:随着多步任务变长和变复杂,成绩会明显下降。例如,在GAIA这类需要推理、检索和工具使用的任务中,Claude Sonnet 4.5从Level 1的82.07%下降到Level 3的65.39%;GPT-5 Medium从73.58%下降到38.46%;Gemini 2.0 Flash从43.40%下降到11.54%。

在更接近真实工具链的测试中,这个问题会更明显。在Toolathlon这类多步工具使用评测中,最佳公开结果仅为38.6%±2.7,这意味着第一次完整尝试成功的比例大约只有这么多;在OpenAI的PaperBench这类长链路、多阶段任务中,最佳测试代理的平均得分仅为21.0%。

这些数字不能告诉你错误一定出在哪一步,但至少能说明:任务越长、依赖越多、需要中间确认的地方越多,一次性完整做对就越难。

一起“点赞”三连↓