Agentic AI架构解析:从理解到实践的全面指南
当你让ChatGPT去订一张北京飞往东京的机票时,它会回复你,建议你去携程平台进行查询。
你和它聊了好半天,票还是得由你自己来买。 Agentic AI和普通的AI不一样。你把“下周三去东京,预算3000以内”这样的指令告诉它,它会自己去查航班、进行比价,并且完成下单操作。等它完成之后你再看,机票就已经订好了。
这并不是模型变得更强了,而是它的架构彻底发生了变化
一句话:可以自行开展相关工作的人工智能。
传统的大型语言模型也就是LLM,其实就像是顾问一样,只会动口给出建议。而具备智能体特性的AI也就是Agentic AI,则更像是助手,可以自己做出决定,并且自己动手去完成相关的工作。它的技术定义其实就包含了四个关键词:感知→规划→执行→迭代。
传统的大语言模型(LLM)只会去做第一步也就是“理解你的问题”,随后就直接输出答案。而智能体AI(Agentic AI)则多了三个步骤:先想清楚具体要怎么去开展工作也就是规划,再借助工具去完成任务也就是执行,最后要是任务干砸了还能自己进行调整迭代。
为什么2026年突然火了?三个原因叠在一起:
推理成本得到了大幅下降。同等能力的模型,其API调用成本相比2024年降幅超过80%,这是行业估算的数据。Agent需要反复调用LLM,在以前这属于烧钱的情况,现在就可以进行核算了。
当前的工具生态正逐渐走向成熟。Anthropic在2024年11月这一时间节点,正式开源了MCP协议,也就是统一了AI连接外部工具的相关标准。Google则是在2025年4月推出了A2A协议,以此来解决Agent之间的互通问题。在这之后,整个工具层便不再是一盘散沙的状态。
不少企业老板是真急了。聊天机器人其实没办法解决那些实打实的问题。企业真正想要的,其实是帮我把报表自动生成好之后再发到邮箱里,而不是建议您去使用Excel。
任何Agentic AI系统,任何具备自主行动能力的人工智能系统,拆解开来看其实就包含四个基本的组件:
这里的大语言模型并不负责输出最终答案,而是要去做决策——也就是下一步到底该调用哪一个工具?最终得到的结果符不符合预期?要不要换个完全不同的思路?
Agent场景对推理能力要求远高于对话能力。这也就是为什么OpenAI o系列以及Claude的推理模式,在Agent场景当中的表现会更好——它们擅长先想清楚,再动手去做相关的操作。
短期记忆主要是依靠上下文窗口来实现的。但要是需要处理比较复杂的任务,并且要调用几十次大语言模型的话,上下文窗口其实早就会被撑满了。
长期记忆把关键信息存到向量数据库里,下次检索出来用。这块是目前落地最拉胯的地方之一——有不少相关框架,都是直接把完整的对话历史一股脑丢到向量库里面,最终检索出来的精度往往让人感到担忧。
Agent可以做到动手,依靠的就是这一层逻辑。代码执行、API调用、数据库查询还有文件操作,这些全部都属于工具的范畴。
MCP协议就相当于我们日常使用的USB接口。在过去,每一款工具都有着属于自己的接入方式,开发者需要逐个去完成适配方面的工作。而在MCP统一了相关标准之后,工具提供方只需要按照这套协议来进行封装处理,Agent就能够直接开展调用工作了。
这可以说是Agentic AI最为核心的灵魂之处。具体来说,它的运作流程大概是这样的:
收到目标→分解成子任务→选择子任务→决定用什么工具→执行→观察结果→判断是否达成→没达成就重来。
就目前的情况来看,主流的实现模式一共可以分为四种:
ReAct(推理+行动):先开展一步推理,再执行一步行动,之后观察所得到的结果,再接着进行推理。这类方式算得上是最为经典的一类,操作起来既简单又可控,但速度相对来说会慢一些,也就是每一个步骤都需要等待大语言模型也就是LLM的响应。
Plan-and-Execute:先把整个计划给完整地列出来,随后再按照这份计划去开展具体的执行工作。这种方式整体的效率其实是比较高的,但计划有可能在最开始的时候就出现了错误,以至于等到执行到一半的时候才发现,其实已经跑偏了原本的方向。
Multi-Agent:多个智能体各自负责一块具体的工作。MetaGPT和crewAI走的就是这样的路线。这类方式虽然分工十分明确,不过协调的成本相对来说会比较高,智能体之间出现理解偏差是很常见的情况。
Reflexion:在ReAct的基础之上增加“自我反思”环节。每当执行完一次操作之后,都要对本次的表现进行一番评估,同时把相关的经验给存储到记忆当中,这样才能在后续的操作过程当中做得比之前更好。
没有任何一种模式是银弹。可以选用ReAct;要是追求运行效率的话,可以选用Plan-and-Execute;要是面对较为复杂的任务的话,可以选用Multi-Agent。要是选择错误的话,在生产环境当中就会出现诸多问题。
2025-2026年,Agent框架的数量已经快要比Agent本身还要多了。
LangGraph可以说是这几款工具里最为灵活的,不过这种灵活也就意味着它会比较复杂。AutoGen是把多Agent组织成了“对话”的形式,在微软内部,它已经被应用到代码审查的工作当中了,但随着对话轮次不断增多,使用的成本会出现飙升的情况。crewAI的上手速度相对来说比较快,不过它深度定制的能力就相对有限了。MetaGPT把软件公司的SOP编码进了Agent的流程当中,这个思路十分巧妙,但Agent之间的“理解偏差”是一个比较突出的大问题。OpenHands专注于代码修复的工作,它的Star数量超过了6万。Dify属于低代码平台,技术门槛非常低,不过它的灵活性也因此受到了限制。
一个颇为尖锐的问题随之浮现:这些框架难道不是在反复去做那些已经被前人完成过的工作吗?
说实话,其实二者之间还挺类似的。从本质上来讲,二者都是在着手解决同一个问题,也就是怎么样才能让大语言模型按照我们所期望的方式来执行多步骤的任务,只不过二者所采用的抽象方式存在着一些不一样的地方。
更让人觉得有些尴尬的是,Anthropic和OpenAI两家公司都在推进将Agent能力内置到模型当中的相关工作。比如Claude推出的Computer Use、OpenAI推出的Operator,其实都是直接把Agent能力整合到了模型本身的层面当中。要是在未来,模型本身就已经具备了足够强大的Agent能力,那这些现有的框架还能剩下多少存在的价值呢?
我的判断:1-2年短期内框架层仍有价值框架层依然会具备相应的价值,而模型内置的Agent能力还不够稳定。从长期的角度来看,框架层或许会被逐步压缩,要么就是向下沉淀成为底层的基础设施。
用crewAI搭一个最小可用Agent。
定义两个Agent:一个研究员搜索信息,一个写手整理简报。
跑下来的真实感受:
好的方面:角色抽象直观,简单线性类的任务基本上不用特意调整,就可以把它顺利跑通。
不好的方面:Agent偶尔会出现“偷懒”的情况——也就是研究员有时候只会返回2条结果,而不是预设好的3条。这其实并不是程序出现了漏洞,而是LLM本身所具备的不确定性,没办法保证它每一次都能严格按照指令来执行。另外相关的成本也不可忽视,就拿这个小型Demo来说,就已经进行了4次LLM调用,要是碰到比较复杂的任务,调用次数轻松就能达到几十次。以GPT-4o来运行一个中等复杂度的Agent任务为例,单次调用成本大概在0.5到2美元之间,这属于估算出来的数值。如果在生产环境中一天运行几百次,那么产生的账单费用会相当可观。
根据市场研究机构MarketsAndMarkets在2024年底发布的那份报告当中的预测,全球Agentic AI市场将会从2025年的51亿美元增长到2030年的471亿美元,年复合增长率能够达到44.8%。
说实在的,这类预测也就是随便看看罢了。技术预测的误差大到基本上没什么实际的参考价值。早在2014年,就有人对2024年的AI市场规模做出过预测,最终的结果跟实际的数字差了不止一个数量级。这个数字更多是给投资人看的。
幻觉被进一步放大。传统大语言模型也就是LLM产生幻觉的时候,最多也就只会给出错误的回答。而智能体也就是Agent要是产生了幻觉的话,就会基于这些错误的信息去执行相关的操作,比如说发错邮件、删错文件、下错订单。最开始第一步出现的幻觉,会级联放大到后续所有的步骤当中。在多步骤的智能体也就是Agent任务里,整体的成功率会随着步骤的数量出现明显的下降,按照推测来看,5步以内尚且还可以,10步以上基本就抓瞎了,这并不是精确的数据。
成本其实远高于预期。Agent每一次“思考”都要去调用LLM。像是简单的任务,就需要进行5到10次的调用,复杂任务的调用次数更是能达到上百次。延迟加上成本,就是企业落地过程当中最大的拦路虎。有不少POC项目在测试阶段表现得十分亮眼,但是一旦投入到生产环境就会出现卡顿的情况——不是不能用,是用不起。
评估体系几乎空白。传统大语言模型也就是LLM的评估,主要会去看准确率以及流畅度这两项指标。而智能体也就是Agent的评估要难得多,它需要去评估任务成功率、执行效率、错误恢复能力以及工具选择合理性这多个方面。就目前而言,业界还没有形成公认的评估标准。OpenAI以及Anthropic虽然拥有内部的评测框架,但这些框架并不会对外公开。要是没有一套完善的评估体系,就没办法系统性地去改进Agent,只能依靠主观的感觉来进行调整。
代码辅助与自动修复:OpenHands在其所限定的范围之内所开展的Bug修复工作,其实已经具备了实实在在的应用价值。当前顶尖的那些Agent系统,在SWE-bench Verified这个基准测试上面,它的问题解决率大概是在30%到40%上下,而这类数据目前还只是属于推测的范畴。更为精确的相关数据,还有待进一步去核实确认。
数据分析自动化:当我们给定具体的数据集以及对应的分析目标之后,相关的Agent就能够自主去完成数据清洗、可视化以及报告生成这一系列相关的工作。
客服与工单处理:主要涵盖了可以去查询订单系统里的相关内容,能够开展退款相关的操作,还有针对那些比较复杂的问题进行升级处理。
内容摘要与监控:定时去抓取信息源、筛选关键内容、生成摘要。该方案落地门槛最低。
全自动软件开发:从需求一直到上线的全流程Agent化,这其实是MetaGPT所提出的愿景。不过通过Agent编写出来的代码,往往还需要开展大量的人工修正工作。
自主商务谈判:要知道真实发生的商业博弈,它的复杂程度其实要远远超出当前智能体所具备的能力。
端到到个人助理:Google推出的Project AARONIKA以及Operator,都在推进相关的研发工作。不过就目前的情况来看,它们的准确率还没办法让人完全放心地把任务全都交给这类系统来处理。
Agentic AI的时代其实已经到来了。不过它并不会在一夜之间就颠覆掉所有的事物,而是会一步一步地渗透进每一个可以实现自动化的角落当中。
2026年5月这个时间节点,它的整体状态可以概括成:架构已经变得越发清晰,配套的框架也已经能够正常投入使用,不过在工程落地的环节,还存在着不小的差距。
推理成本其实正在逐步下降,配套的工具生态也在一步步走向成熟,就连模型本身的能力也在持续获得提升,整体的发展方向其实已经十分明确。不过要从当前“能用”的阶段升级到真正“好用”的状态,从最初的Demo演示阶段推进到实际的生产环节当中,其实还有相当多的工程层面的工作需要去完成。
对于开发者来说,当下最值得去着手去做的事情,其实并不是去追逐那些最新出现的框架,毕竟框架这类工具每个月都会发生不小的变化。真正值得真正开展起来的工作,是弄清楚你自己的业务场景当中,到底哪一个环节可以先交给Agent来进行尝试。哪怕只是把“数据采集→整理→发邮件”的这样一套流程实现自动化,也比去追逐十个框架的Demo更有价值。