AI Agent的认知与感知框架

发布时间：2026-05-10 12:47阅读：17

通俗地讲，大模型相当于AI的“头脑”，而AI Agent则像是具备了“头脑+四肢”的完整个体。它不但能够进行思考与推断，还可以主动调用各类工具、执行具体操作，以达成明确目标。

核心公式： AI Agent = 大模型 + 记忆 + 规划 + 工具使用 + 行动能力

关键架构：首先要理解几个基础范式，其中最关键的是 ReAct（Reason+Act）模式。它让 Agent 借助推理→行动→观察的循环机制，分步骤处理问题。你可以把它看作一位严谨的工程师：先理清思路（Thought），再开始执行（Action），随后根据结果判断下一步（Observation）。

能力分级：Google 给出了 Agent 的5级能力划分（从Level 0到 Level 4），可用于衡量一个Agent的自主化水平。当前多数应用大致处在Level 2（具备长期规划能力的策略型问题解决者）到Level 3（多Agent协同）之间

你可以这样来看：

这一模型构成了整个学习体系的核心枢纽。下面的四项技能维度，正是以它为中心逐层展开。

Agent之所以不同于传统RAG或聊天机器人，关键就在于它具备主动推理能力：何时去检索资料，何时继续追问，何时坦然承认无法完成。

关键学习点包括：

链式思考：把复杂任务拆分成可逐步执行的子环节

ReAct模式：形成“推理 → 行动 → 观察”的标准闭环

自我反思与修正：使Agent在失败后能够复盘自身输出，并优化后续动作

📌 实践建议：可以从“编写一个能解数学应用题的Agent”入手，让它显式展示推理过程，再比较有无推理链时的成功率差异。

现实中的任务通常并非单轮对话：Agent需要保留用户偏好、任务进度以及过往行动结果。

记忆主要分为两个层面：

短期记忆：利用模型的上下文窗口保存当前任务状态

长期记忆：借助向量数据库与RAG方案，实现跨会话的知识检索与召回

📌 实践进阶：可先从基础RAG问答做起，再逐步延伸到状态持久化——通过Redis或数据库记录Agent的工作状态，实现“中断后继续”。

LLM本身并不能直接查询数据库、发送邮件或操作浏览器——这些都需要依靠工具调用来完成。

核心学习内容：

Function Calling：把业务逻辑封装成标准函数，供Agent自主调用

工具编排与容错：在API调用失败时设计重试、降级与切换机制

安全沙箱：为Agent设定权限边界（Guardrails），避免执行高风险操作

📌 实践场景：搭建一个“个人旅行规划Agent”——它能够调用航班API、天气API和地图工具，并自动整理出完整行程单。

当单个Agent的能力不足时，采用专业分工的多Agent系统（MAS）就成为自然选择。

你需要掌握：

角色化Agent设计：为不同Agent设定“经理”、“执行者”、“审计员”等职责

协作协议：例如A2A、ANP等标准化通信方式

任务调度：保证多Agent之间不冲突、不重复、不阻塞

📌 进阶项目：构建一个“代码开发团队”——一个Agent负责编码，一个负责代码审查，一个执行测试，最后由经理Agent汇总结果。