AI学习路径03：Agent让AI真正开始动手

发布时间：2026-04-11 20:08阅读：10

Agent并非旨在让AI更擅长闲聊，而是推动“知晓如何操作”向“实际执行”迈进。它终于具备了协助你实际工作的能力。

这是一系列文章/教程的一部分，涵盖了完整的AI学习路径。其他文章请参阅同日发布的01至05号文章，其中包括关于Claude Code和结果判断的内容。

如果说Prompt侧重于解决“如何清晰表达任务”，那么Agent紧随其后要处理的是：

在清晰表达之后，它能否真正执行下去。

我认为这正是Agent最值得关注的方面。许多人在刚开始使用AI时都会产生一种强烈的错觉：既然它看起来如此聪明，为什么还是不够用？

答案很简单。许多聊天机器人强在“说话”，但在“做事”上较弱。

它可以解释、分析、重写，并与你讨论。这些都很有用。然而，许多真实任务光靠口头说明是不够的。如果你让它整理一个项目，它可以描述得头头是道，但文件依然静止不动。如果你让它修改某些内容，它可以提供建议，但实际修改仍需你亲自动手。如果你让它运行工作流，它可以告诉你如何操作，但打开软件、点击按钮和执行命令的最终执行者仍然是你。

问题就在这里。普通聊天机器人就像一个聪明的大脑：你问，它答。你让它思考，它也想。但它站不起来，走不出去，手也伸不到真实世界。

因此你会清楚地感觉到一个界限：它理解了并不等于它做了。复制粘贴等体力活仍然需要主人的帮助。

Agent就是从这里向前迈出的一步。它不仅仅继续与你交谈。

这正是Agent真正重要的地方。不是它更会聊天了，而是它终于有了手。因此，我不太想把Agent定义为一个神秘的热词。Agent:

代理人英[ˈeɪdʒənt] 美[ˈeɪdʒənt] n. 常见释义 (演员、音乐家、运动员、作家等的)代理人;（化学）剂;(企业、政治等的)经纪人;动因(指对事态起重要作用的人、事物);原动力;施事者;

提到Token：NB，听起来很专业。一说：词元？是的，就是这个，没什么新鲜的。

目前外界有许多说法，提到Agent时，似乎都在谈论一种神秘的新物种，一种能够自主思考、规划一切并接近数字生命的东西。这又有点太过了。对于普通人来说，没必要先理解得那么玄乎。如果不把它想得太复杂，可以先从最简单的层面理解：

Agent就是让AI不仅仅回答你，而是开始替你完成部分任务。

这部分任务可能包括什么？读取文件、修改文件、调用工具、执行命令，并一步步推进任务。这时你会发现，Prompt和Agent的关系其实很顺畅。Prompt是你把任务说清楚，而Agent是它开始根据该任务执行操作。

前面仍然是“你说”，后面开始变成“它做”。

这就是为什么我会把这两部分放在主线中，且放得这么近。因为它们本来就是一条线上的两个步骤。

先把任务说清楚，再让它真正动手。这时许多人可能会误解，以为Agent就是“万能自动化”。但如果一下子把它想象成“万能自动化”，通常也是有点过头。

Agent当然很有用，但它也不是神。

因此，Agent最容易产生误导的地方（被疯狂神话，这原因我能理解）也在这里。一旦你看到它开始动手，就容易产生太多想象。觉得终于来了，一个能替我全自动干活的东西。Agent的陷阱大到无法想象。后面会有专门的文章来讨论这些可怕又隐藏的陷阱。

回到真正有价值的地方，不是“它什么都能做”，而是“它开始从只会说变成会做一部分事”。这已经很大了，但还没大到你可以扔掉你的大脑。

因此，在这一部分我不会给你讲一堆Agent产品。没必要。那又会掉回工具盘点。我只重点讲一个代表性事物：Claude Code。

不是因为它代表全世界。而是因为它足够典型、直观，且足够让普通人第一次真正明白：“会动手的AI”到底是什么感觉。你会看到，模型仍在后面，Prompt仍在前面，但中间增加了一层关键的东西：它开始连接工具，处理环境，并走向执行。

一旦看懂了这个变化，许多Agent概念就不会那么令人困惑了。你不会把它理解成一个神秘的热词。你会知道，它本质上是在填补AI过去最明显的短板：它以前会说，不太会做。现在开始会做一点了。

这就是第三部分最需要抓住的东西。

Agent不是凭空制造新问题，它更像是将模型原有的弱点带入更长、更真实的执行链路中。

因此，在多步执行中，真正需要小心的往往不是某个单点错误，而是几类问题同时出现：之前提到的条件是否生效，当前处于哪一步，工具使用不当，工具返回结果的因果关系是否错位，中间的某个猜测是否被当作事实继续使用。最终出错，不只是在“推理中断”，更多可能是前面的条件、状态、工具结果本身就不干净，有偏差。

这也是为什么，Agent看起来很强，但在实际使用时不能只看它是否会拆解步骤或调用工具。模型本身的边界不会因为它开始调用工具或拆解步骤而自动消失。它只是从“回答时出错”变成了“在执行过程中一步步带入错误”。公开评测也能看到这个趋势：随着多步任务变长和变复杂，成绩会明显下降。例如，在GAIA这类需要推理、检索和工具使用的任务中，Claude Sonnet 4.5从Level 1的82.07%下降到Level 3的65.39%；GPT-5 Medium从73.58%下降到38.46%；Gemini 2.0 Flash从43.40%下降到11.54%。

在更接近真实工具链的测试中，这个问题会更明显。在Toolathlon这类多步工具使用评测中，最佳公开结果仅为38.6%±2.7，这意味着第一次完整尝试成功的比例大约只有这么多；在OpenAI的PaperBench这类长链路、多阶段任务中，最佳测试代理的平均得分仅为21.0%。

这些数字不能告诉你错误一定出在哪一步，但至少能说明：任务越长、依赖越多、需要中间确认的地方越多，一次性完整做对就越难。

一起“点赞”三连↓

← 上一篇：坪地新联会举办AI实战培训助推企业数字化升级下一篇：AI算力需求激增,光纤产业迎来机遇!国内企业占据主导,龙头企业引领市场 →