AI智能体入门：AI Agent到底是什么

发布时间：2026-05-01 17:50阅读：17

ChatGPT 你肯定已经用过，但你有没有注意到它的一个明显短板——你让它去做事，它往往只会"说"，却不会真正"行动"。

AI Agent 正是为了解决这种差距：它不止负责生成内容，还能感知外部情况、做出判断、调用工具并把任务落到结果上。

用一句话概括：ChatGPT 像是很会表达的"嘴"，而 Agent 更像是能把事情干完的"手"。

所以这其实是 AI 从"能讲"到"能做"的关键分界点，搞明白之后你才算真正入门。

我自己琢磨了很久，觉得最贴切的一句话是：

听起来还是有点抽象？别急，咱们分开讲。

Agent 会运行在某个特定的"世界"中。这个环境可以是你电脑里的文件系统、某个网页、一个数据库，甚至也可能是另一个 AI 的输出。

它从环境里获得的信息，统称为"观察"（Observation）。

Agent 会接收各种输入——文字、图片、代码、以及用户的提问——这些都相当于它看到的"信息"。

接下来它不只是"想"，还会"做"：比如去调用搜索引擎、写入文件、发送邮件、触发 API 等。

那这几步如何衔接？核心就在 LLM（大语言模型）当“大脑”。它要完成：读懂输入 → 推断接下来该做什么 → 决定该用哪种工具 → 评估任务是否已经完成。

你可以把 LLM 理解成 Agent 的「神经系统」。没有这套“思考模块”，Agent 就只是个外壳。

有了“大脑”，还得配上“手”。Agent 通过调用"工具"来实现行动，例如搜索工具、代码执行工具、数据库查询工具等。

工具可以看作 Agent 与真实世界之间的接口。

另外，Agent 还需要"记忆"。常见的主要分两类：

没有记忆的 Agent，每次对话都会相当于“忘了前情”，处理复杂任务会比较吃力。

Microsoft 的课程里把 Agent 归为七种类型，从基础到更复杂的情况逐级展开。我把它整理成表格，同时也分享下我的体会。

说实话，前几种看完给我的感觉就是"差不多就这样"，真正让我眼前一亮的是多智能体系统。

你可以想象：当你让一个 Agent 说"帮我做一份数据分析报告"，它会自动拆成数据收集 Agent、分析 Agent、可视化 Agent、写作 Agent 等多个角色协作，最终交付给你一份完整成果。

这并不是遥不可及的未来，用 AutoGen 或者 CrewAI 现在就能搭出类似的系统。

日常场景里用得最多的，可能就是基于目标的型——它最符合我们对 AI 助手的期待：你给出目标，它自己想办法完成。

其他类型更像偏学术的分类，主要用来帮你建立更清晰的认知框架。

我觉得这件事比起“Agent 是什么”，更值得先学，因为不少人一开始就想把所有事情都 Agent 化，最后反而比直接写代码还更麻烦。

学完概念后，真正想上手怎么做？课程里提到的要点我觉得可以按下面的顺序来：

先搞清楚怎么调用 LLM、如何定义工具、以及怎样处理对话上下文。这些是地基，没打好后面就容易塌。

例如"工具调用模式"、"ReAct 循环"（Reasoning + Acting 交替进行）、"规划-执行模式"。这些都算是 Agent 的"招式"——知道有什么招，才能在合适的场景里用对。

像 LangGraph、AutoGen、Semantic Kernel 这类框架，把上述关键步骤都封装好了，让你少写大量样板代码，把精力放在业务逻辑本身。

三者关系可以这样理解：开发是基础，设计模式提供方法论，框架则是工具箱。千万别只学框架不理解原理，不然等框架升级你就会被动。

给你一个不算特别严谨但好懂的比喻：LLM 相当于图书馆，Agent 则像是会借书、整理书单、安排座位的图书管理员。

图书馆本身资料更多，但管理员能真正把你的需求推进到“办成”为止。

AI Agent 核心概念

│

├── 定义

│ ├── 能感知环境

│ ├── 能做出决策

│ └── 能执行行动

│

├── 系统组成

│ ├── 环境（观察