AI Agent的认知与感知框架
通俗地讲,大模型相当于AI的“头脑”,而AI Agent则像是具备了“头脑+四肢”的完整个体。它不但能够进行思考与推断,还可以主动调用各类工具、执行具体操作,以达成明确目标。
核心公式: AI Agent = 大模型 + 记忆 + 规划 + 工具使用 + 行动能力
关键架构:首先要理解几个基础范式,其中最关键的是 ReAct(Reason+Act)模式。它让 Agent 借助推理→行动→观察的循环机制,分步骤处理问题。你可以把它看作一位严谨的工程师:先理清思路(Thought),再开始执行(Action),随后根据结果判断下一步(Observation)。
能力分级:Google 给出了 Agent 的5级能力划分(从Level 0到 Level 4),可用于衡量一个Agent的自主化水平。当前多数应用大致处在Level 2(具备长期规划能力的策略型问题解决者)到Level 3(多Agent协同)之间
你可以这样来看:
这一模型构成了整个学习体系的核心枢纽。下面的四项技能维度,正是以它为中心逐层展开。
Agent之所以不同于传统RAG或聊天机器人,关键就在于它具备主动推理能力:何时去检索资料,何时继续追问,何时坦然承认无法完成。
关键学习点包括:
链式思考:把复杂任务拆分成可逐步执行的子环节
ReAct模式:形成“推理 → 行动 → 观察”的标准闭环
自我反思与修正:使Agent在失败后能够复盘自身输出,并优化后续动作
📌 实践建议:可以从“编写一个能解数学应用题的Agent”入手,让它显式展示推理过程,再比较有无推理链时的成功率差异。
现实中的任务通常并非单轮对话:Agent需要保留用户偏好、任务进度以及过往行动结果。
记忆主要分为两个层面:
短期记忆:利用模型的上下文窗口保存当前任务状态
长期记忆:借助向量数据库与RAG方案,实现跨会话的知识检索与召回
📌 实践进阶:可先从基础RAG问答做起,再逐步延伸到状态持久化——通过Redis或数据库记录Agent的工作状态,实现“中断后继续”。
LLM本身并不能直接查询数据库、发送邮件或操作浏览器——这些都需要依靠工具调用来完成。
核心学习内容:
Function Calling:把业务逻辑封装成标准函数,供Agent自主调用
工具编排与容错:在API调用失败时设计重试、降级与切换机制
安全沙箱:为Agent设定权限边界(Guardrails),避免执行高风险操作
📌 实践场景:搭建一个“个人旅行规划Agent”——它能够调用航班API、天气API和地图工具,并自动整理出完整行程单。
当单个Agent的能力不足时,采用专业分工的多Agent系统(MAS)就成为自然选择。
你需要掌握:
角色化Agent设计:为不同Agent设定“经理”、“执行者”、“审计员”等职责
协作协议:例如A2A、ANP等标准化通信方式
任务调度:保证多Agent之间不冲突、不重复、不阻塞
📌 进阶项目:构建一个“代码开发团队”——一个Agent负责编码,一个负责代码审查,一个执行测试,最后由经理Agent汇总结果。