标签

智能体崛起:从对话到执行的AI变革

发布时间:2026-05-21 07:20来源:微信阅读:7

"2025年是AI Agent元年,2026年则是AI Agent的大众化元年。从小龙虾生态的爆发到开源框架的崛起,从Manus的现象级产品到一人公司的兴起,我们正亲眼见证AI从辅助工具到虚拟合伙人的历史性跃迁。"

2025年,人工智能领域迎来了一场静悄悄却意义深远的变革。大语言模型(LLM)的能力边界正在被重新定义——它们不再仅仅是回答问题的"聊天机器人",而是进化成了能够自主规划、调用工具、执行复杂任务的"智能体"(AI Agent)。

从Manus的横空出世到Devin的指数级增长,从Cursor的百亿估值到MCP协议的行业标准之争,AI Agent正在重塑软件开发的每一个环节。2026年,这一领域更是迎来了"大众化元年"——"小龙虾"生态的爆发、开源框架的崛起、一人公司的兴起,标志着AI Agent正在从"科技精英的玩具"走向"普通人的生产力工具"。

本文将深入剖析AI Agent的技术架构、产业格局、应用场景,以及2026年最新发展趋势,揭示这场"从对话到行动"的智能进化将如何改变我们的工作方式。

传统的大语言模型(如ChatGPT)本质上是一个"问答系统"——用户提出问题,模型生成回答。这种交互模式虽然强大,但存在根本性局限:模型只能"说",不能"做"。

AI Agent则打破了这一局限。它不仅能够理解自然语言指令,还能自主规划执行路径、调用外部工具(API、搜索引擎、数据库等)、在多步骤任务中保持上下文连贯性,并根据执行结果动态调整策略。

表1:ChatBot vs AI Agent核心能力对比

能力维度

传统ChatBot

AI Agent

跃迁意义

交互模式

一问一答

持续对话+自主执行

从被动响应到主动行动

工具使用

不支持

可调用API、浏览器、终端

从封闭系统到开放世界

任务规划

多步规划+动态调整

从单步到复杂工作流

记忆能力

仅当前会话

短期+长期记忆

从无状态到有状态

错误恢复

无法自我修正

反思+重试+替代方案

从脆弱到鲁棒

多模态

文本为主

文本+视觉+代码+GUI

从单一到融合

AI Agent的核心架构可以抽象为三层:

感知层(Perception):理解"世界"

Agent通过自然语言理解、视觉感知、文件解析等方式获取任务指令和环境信息。与ChatBot不同,Agent需要处理更复杂的输入——不仅是用户的文字指令,还包括网页内容、API返回数据、文件内容、GUI界面截图等。

决策层(Decision):规划"怎么做"

这是Agent的"大脑"。基于ReAct(Reasoning + Acting)框架,Agent通过"思考→行动→观察→再思考"的迭代循环来完成任务。关键技术包括:

• Chain-of-Thought(CoT):将复杂问题分解为可执行的中间步骤

• Tree-of-Thought(ToT):探索多条推理路径,选择最优解

• Reflexion:从失败中反思学习,迭代改进策略

• Function Calling:通过结构化API调用外部工具

执行层(Execution):"动手"完成任务

Agent通过工具调用将决策转化为具体行动。执行层的能力决定了Agent的"行动半径"——从简单的API调用,到复杂的浏览器操作、代码编写、文件系统操作等。

2024-2025年,几项关键技术的突破使AI Agent从实验室走向了产品化:

Function Calling / Tool Use

大模型通过结构化的函数调用接口与外部工具交互。OpenAI、Anthropic、Google等厂商均在2024年大幅提升了Function Calling的准确性和可靠性。Anthropic在2025年推出的Tool Search和Programmatic Tool Calling,使Agent能够高效处理数千个工具,大幅降低了复杂工作流的延迟。

Computer Use(计算机操控)

Anthropic于2024年10月首次推出Claude的Computer Use能力,使AI能够直接操控电脑——点击按钮、填写表单、浏览网页。OpenAI于2025年1月推出的Operator(基于CUA模型)进一步强化了GUI交互能力。这意味着Agent不再依赖特定API,而是可以像人类一样使用任何软件。

MCP协议(Model Context Protocol)

Anthropic于2024年11月发布的MCP协议,正在成为连接AI应用与外部系统的"USB标准"。截至2025年底,活跃公共MCP服务器已超过1万个,Python和TypeScript SDK月下载量超过9700万次。ChatGPT、Cursor、Gemini、Microsoft Copilot等主流平台均已采用。2025年12月,Anthropic将MCP捐赠给Linux基金会下的Agentic AI Foundation(AAIF),OpenAI、Google、Microsoft、AWS等均为创始成员。

MCP的意义在于:它为AI Agent提供了一个统一的外部系统连接标准,类似于USB为硬件设备提供的即插即用能力。这极大地降低了Agent工具集成的复杂度,加速了生态繁荣。

编程开发是AI Agent最先实现商业化的领域。原因很简单:代码是高度结构化的语言,Agent的输出可以直接验证(通过测试),反馈循环清晰且快速。

Cursor:AI原生IDE的标杆

Cursor(Anysphere)是2025年增长最快的AI编程工具。2025年11月,Cursor完成23亿美元D轮融资,估值达到293亿美元。其ARR从年初的数千万美元飙升至年底的10亿美元以上,2026年初据Bloomberg报道已突破20亿美元。日活开发者超过100万,付费用户36万。

Cursor的成功在于将AI深度嵌入开发环境(IDE),支持多Agent代码协作,并通过MCP协议实现了丰富的工具集成。JetBrains 2026年1月的调查显示,Cursor在工作场景中的使用率达到18%。

Devin / Cognition:自主编程Agent的领跑者

Cognition AI于2024年3月发布了全球首个AI软件工程师Devin。与Cursor的"辅助编码"不同,Devin定位为"自主编程Agent"——给它一个任务,它会自主规划、编码、测试、部署,全程无需人类干预。

2025年9月,Cognition完成4亿美元融资,投后估值达到102亿美元。其ARR从2024年9月的100万美元飙升至2025年6月的7300万美元,增长超过70倍。2025年7月,Cognition以约2.5亿美元收购了Windsurf(Codeium),合并后ARR翻倍以上。

GitHub Copilot:企业级编程Agent

微软旗下的GitHub Copilot在2025年全面Agent化。2月推出Agent Mode(在VS Code中实时协作),5月推出Coding Agent(在GitHub Actions中异步执行)。超过23万个组织使用Copilot Studio创建自定义Agent,覆盖90%的Fortune 500企业。

Manus:通用AI Agent的现象级产品

2025年3月,中国初创公司蝴蝶效应(Butterfly Effect)发布了Manus——一个定位为"通用AI Agent"的产品。Manus在沙盒化的Linux环境中运行,可以自主浏览网页、操作终端、管理文件系统,执行各种复杂任务。

Manus的发布引发了全球关注:demo视频发布20小时内观看量突破100万,Discord社区数天内增长至13.8万人。在GAIA基准测试上,Manus达到了SOTA水平,超越了OpenAI的同类产品。

2025年4月,Manus完成7500万美元B轮融资,由Benchmark领投,腾讯、红杉中国参投,估值约5亿美元。其ARR超过1亿美元,含使用费总收入超1.25亿美元。

2025年12月,Meta宣布以20-30亿美元收购Manus。然而,2026年4月,中国国家发改委以国家安全为由叫停了该收购。这一事件不仅成为中美AI竞争的标志性案例,也凸显了AI Agent作为战略资产的重要性。

OpenAI Operator:GUI交互的突破

2025年1月,OpenAI推出了Operator(研究预览版),基于CUA(Computer-Using Agent)模型。Operator的核心突破在于:它不需要依赖特定API,而是像人类一样直接与图形用户界面(GUI)交互——浏览网页、填写表单、执行购物等任务。

2026年,AI Agent在中国有了一个形象的昵称——"小龙虾"。"小龙虾"(Claw)是对AI Agent自主执行工具能力的统称,不是某一款特定产品,而是一类产品的形态。

"小龙虾"和ChatGPT、豆包这类聊天AI的本质区别在于:它不仅能回答问题,更能"动手"完成任务。用户只需在对话框提出需求,"小龙虾"就可以自动处理复杂任务,并交付可验收的结果。

2026年,中国首次将"智能体"写入政府工作报告,标志着AI Agent上升为国家战略。中国AI Agent市场在2025年达到约182亿元人民币,同比增长78%。

字节跳动Coze(扣子):最大智能体开发平台

Coze是字节跳动旗下的AI智能体开发平台,2024年2月国内版上线。截至2025中,注册开发者超过300万,日活智能体80万个以上,平台已发布智能体超200万个。Coze支持零代码/低代码构建智能体,集成了字节生态(豆包大模型等),覆盖金融、医疗、教育、电商等30多个行业。

智谱AI:大模型公司的Agent化转型

智谱AI是全球首家上市的通用大模型公司(港股02513.HK)。2025年,其MaaS平台ARR达到约17亿元,同比增长60倍。2026年5月,港股市值突破5000亿港元。智谱清言月活用户约906万,API调用量在涨价83%的情况下仍增长4倍,展现了Agent化应用带来的强劲需求。

月之暗面Kimi:Agent集群的突破

月之暗面在2026年初完成约20亿美元融资,估值突破200亿美元。2026年1月发布的Kimi K2.5首次引入"Agent集群"能力,上线不到24小时登顶全球多个权威榜单。据Stripe数据,2026年1月底以来20天收入超越2025年全年总和,个人订阅1月支付订单数环比增长超8000%。

OpenClaw标准:"小龙虾"生态的基础设施

OpenClaw是"小龙虾"生态的核心标准,它定义了AI Agent与外部工具交互的接口规范。只要一款产品兼容OpenClaw Skills,就能调用所有基于OpenClaw开发的工具和插件,形成了类似"App Store"的生态系统。

截至2026年初,市场上已形成多款主流"小龙虾"产品:

• QClaw:面向个人用户的AI智能体

• WorkBuddy:面向企业用户的AI智能体(腾讯出品)

•各厂商推出的兼容OpenClaw的产品

2026年3月9日,腾讯云正式推出WorkBuddy——一款被外界称为"腾讯版小龙虾"的桌面AI Agent。WorkBuddy基于腾讯CodeBuddy架构,完全兼容OpenClaw全量Skills,可接入企业微信、QQ、飞书、钉钉等工具。

WorkBuddy的核心特点:

•零基础入门:用户只需在官网下载安装,1分钟完成配置并连接

•全场景覆盖:支持浏览器、文档、代码、通讯工具等多种场景

•企业级安全:强调易用性与安全性的平衡

•远程遥控:支持通过企业微信、QQ、飞书、钉钉等平台远程操控

WorkBuddy公测上线当天,因用户流量远超预期,甚至导致腾讯云旗下的CodeBuddy服务出现不稳定。技术团队紧急将服务器容量扩容十倍才恢复正常——这一现象级的上线事件,充分说明了市场对"小龙虾"类产品的强烈需求。

ima知识库:"小龙虾"的知识管理能力

腾讯ima也正式上线了ima skills,支持"龙虾"操作ima笔记、知识库等功能,已全面适配OpenClaw、WorkBuddy、QClaw等多个"小龙虾"类产品。这意味着"小龙虾"不仅能执行任务,还能调用和管理知识库,实现更复杂的信息处理能力。

2026年2月25日,美国AI研究公司Nous Research发布了一款名为Hermes Agent的开源AI Agent框架。上线一个多月即斩获61,000+ Stars,成为AI Agent领域最受关注的新星。

Hermes Agent的核心定位

Hermes Agent不是绑定在IDE上的代码补全工具,也不是简单的聊天机器人包装——它是一个真正"住在你的服务器上"的自主智能体。它能记住学到的一切,运行越久能力越强。

技术特点:

•三层记忆系统:短期记忆、中期记忆、长期记忆,实现跨会话的知识积累

•自动Skills创建:Agent能根据用户需求自动创建新的技能插件

•六平台网关:支持Linux、macOS、Windows等六大平台

•一键安装:一条curl命令即可安装,无需任何前置依赖

•完全开源:MIT协议,对商业使用完全友好

Nous Research由Jeffrey Quesnelle(GitHub ID: Teknium)创立,此前以开发Hermes系列开源语言模型闻名。Hermes Agent的发布,标志着开源社区在AI Agent领域正式发力,打破了商业公司的技术垄断。

版本迭代:

• v0.5.0(2026年3月):专注安全加固

• v0.6.0:增强多平台支持

•后续版本:持续优化长期运行能力和稳定性

2026年,AI Agent领域正在形成"开源"与"闭源"两大生态的竞争格局:

维度

闭源Agent(如Cursor、Manus)

开源Agent(如Hermes)

代表产品

Cursor、Devin、Manus

Hermes Agent、各类开源框架

优势

产品体验好、配套服务完善

灵活定制、无供应商锁定

劣势

成本高、定制受限

需要技术能力、运维成本

适用场景

企业级应用、快速原型

技术团队自建、成本敏感

数据