标签

AI智能体入门:AI Agent到底是什么

发布时间:2026-05-01 17:50来源:微信阅读:6

ChatGPT 你肯定已经用过,但你有没有注意到它的一个明显短板——你让它去做事,它往往只会"说",却不会真正"行动"。

AI Agent 正是为了解决这种差距:它不止负责生成内容,还能感知外部情况、做出判断、调用工具并把任务落到结果上。

用一句话概括:ChatGPT 像是很会表达的"嘴",而 Agent 更像是能把事情干完的"手"。

所以这其实是 AI 从"能讲"到"能做"的关键分界点,搞明白之后你才算真正入门。

我自己琢磨了很久,觉得最贴切的一句话是:

听起来还是有点抽象?别急,咱们分开讲。

Agent 会运行在某个特定的"世界"中。这个环境可以是你电脑里的文件系统、某个网页、一个数据库,甚至也可能是另一个 AI 的输出。

它从环境里获得的信息,统称为"观察"(Observation)。

Agent 会接收各种输入——文字、图片、代码、以及用户的提问——这些都相当于它看到的"信息"。

接下来它不只是"想",还会"做":比如去调用搜索引擎、写入文件、发送邮件、触发 API 等。

那这几步如何衔接?核心就在 LLM(大语言模型)当“大脑”。它要完成:读懂输入 → 推断接下来该做什么 → 决定该用哪种工具 → 评估任务是否已经完成。

你可以把 LLM 理解成 Agent 的「神经系统」。没有这套“思考模块”,Agent 就只是个外壳。

有了“大脑”,还得配上“手”。Agent 通过调用"工具"来实现行动,例如搜索工具、代码执行工具、数据库查询工具等。

工具可以看作 Agent 与真实世界之间的接口。

另外,Agent 还需要"记忆"。常见的主要分两类:

没有记忆的 Agent,每次对话都会相当于“忘了前情”,处理复杂任务会比较吃力。

Microsoft 的课程里把 Agent 归为七种类型,从基础到更复杂的情况逐级展开。我把它整理成表格,同时也分享下我的体会。

说实话,前几种看完给我的感觉就是"差不多就这样",真正让我眼前一亮的是多智能体系统。

你可以想象:当你让一个 Agent 说"帮我做一份数据分析报告",它会自动拆成数据收集 Agent、分析 Agent、可视化 Agent、写作 Agent 等多个角色协作,最终交付给你一份完整成果。

这并不是遥不可及的未来,用 AutoGen 或者 CrewAI 现在就能搭出类似的系统。

日常场景里用得最多的,可能就是基于目标的型——它最符合我们对 AI 助手的期待:你给出目标,它自己想办法完成。

其他类型更像偏学术的分类,主要用来帮你建立更清晰的认知框架。

我觉得这件事比起“Agent 是什么”,更值得先学,因为不少人一开始就想把所有事情都 Agent 化,最后反而比直接写代码还更麻烦。

学完概念后,真正想上手怎么做?课程里提到的要点我觉得可以按下面的顺序来:

先搞清楚怎么调用 LLM、如何定义工具、以及怎样处理对话上下文。这些是地基,没打好后面就容易塌。

例如"工具调用模式"、"ReAct 循环"(Reasoning + Acting 交替进行)、"规划-执行模式"。这些都算是 Agent 的"招式"——知道有什么招,才能在合适的场景里用对。

像 LangGraph、AutoGen、Semantic Kernel 这类框架,把上述关键步骤都封装好了,让你少写大量样板代码,把精力放在业务逻辑本身。

三者关系可以这样理解:开发是基础,设计模式提供方法论,框架则是工具箱。千万别只学框架不理解原理,不然等框架升级你就会被动。

给你一个不算特别严谨但好懂的比喻:LLM 相当于图书馆,Agent 则像是会借书、整理书单、安排座位的图书管理员。

图书馆本身资料更多,但管理员能真正把你的需求推进到“办成”为止。

AI Agent 核心概念

├── 定义

│ ├── 能感知环境

│ ├── 能做出决策

│ └── 能执行行动

├── 系统组成

│ ├── 环境(观察