智能体崛起：从对话到执行的AI变革

发布时间：2026-05-21 07:20阅读：48

"2025年是AI Agent元年，2026年则是AI Agent的大众化元年。从小龙虾生态的爆发到开源框架的崛起，从Manus的现象级产品到一人公司的兴起，我们正亲眼见证AI从辅助工具到虚拟合伙人的历史性跃迁。"

2025年，人工智能领域迎来了一场静悄悄却意义深远的变革。大语言模型（LLM）的能力边界正在被重新定义——它们不再仅仅是回答问题的"聊天机器人"，而是进化成了能够自主规划、调用工具、执行复杂任务的"智能体"（AI Agent）。

从Manus的横空出世到Devin的指数级增长，从Cursor的百亿估值到MCP协议的行业标准之争，AI Agent正在重塑软件开发的每一个环节。2026年，这一领域更是迎来了"大众化元年"——"小龙虾"生态的爆发、开源框架的崛起、一人公司的兴起，标志着AI Agent正在从"科技精英的玩具"走向"普通人的生产力工具"。

本文将深入剖析AI Agent的技术架构、产业格局、应用场景，以及2026年最新发展趋势，揭示这场"从对话到行动"的智能进化将如何改变我们的工作方式。

传统的大语言模型（如ChatGPT）本质上是一个"问答系统"——用户提出问题，模型生成回答。这种交互模式虽然强大，但存在根本性局限：模型只能"说"，不能"做"。

AI Agent则打破了这一局限。它不仅能够理解自然语言指令，还能自主规划执行路径、调用外部工具（API、搜索引擎、数据库等）、在多步骤任务中保持上下文连贯性，并根据执行结果动态调整策略。

表1：ChatBot vs AI Agent核心能力对比

能力维度

传统ChatBot

AI Agent

跃迁意义

交互模式

一问一答

持续对话+自主执行

从被动响应到主动行动

工具使用

不支持

可调用API、浏览器、终端

从封闭系统到开放世界

任务规划

无

多步规划+动态调整

从单步到复杂工作流

记忆能力

仅当前会话

短期+长期记忆

从无状态到有状态

错误恢复

无法自我修正

反思+重试+替代方案

从脆弱到鲁棒

多模态

文本为主

文本+视觉+代码+GUI

从单一到融合

AI Agent的核心架构可以抽象为三层：

感知层（Perception）：理解"世界"

Agent通过自然语言理解、视觉感知、文件解析等方式获取任务指令和环境信息。与ChatBot不同，Agent需要处理更复杂的输入——不仅是用户的文字指令，还包括网页内容、API返回数据、文件内容、GUI界面截图等。

决策层（Decision）：规划"怎么做"

这是Agent的"大脑"。基于ReAct（Reasoning + Acting）框架，Agent通过"思考→行动→观察→再思考"的迭代循环来完成任务。关键技术包括：

• Chain-of-Thought（CoT）：将复杂问题分解为可执行的中间步骤

• Tree-of-Thought（ToT）：探索多条推理路径，选择最优解

• Reflexion：从失败中反思学习，迭代改进策略

• Function Calling：通过结构化API调用外部工具

执行层（Execution）："动手"完成任务

Agent通过工具调用将决策转化为具体行动。执行层的能力决定了Agent的"行动半径"——从简单的API调用，到复杂的浏览器操作、代码编写、文件系统操作等。

2024-2025年，几项关键技术的突破使AI Agent从实验室走向了产品化：

Function Calling / Tool Use

大模型通过结构化的函数调用接口与外部工具交互。OpenAI、Anthropic、Google等厂商均在2024年大幅提升了Function Calling的准确性和可靠性。Anthropic在2025年推出的Tool Search和Programmatic Tool Calling，使Agent能够高效处理数千个工具，大幅降低了复杂工作流的延迟。

Computer Use（计算机操控）

Anthropic于2024年10月首次推出Claude的Computer Use能力，使AI能够直接操控电脑——点击按钮、填写表单、浏览网页。OpenAI于2025年1月推出的Operator（基于CUA模型）进一步强化了GUI交互能力。这意味着Agent不再依赖特定API，而是可以像人类一样使用任何软件。

MCP协议（Model Context Protocol）

Anthropic于2024年11月发布的MCP协议，正在成为连接AI应用与外部系统的"USB标准"。截至2025年底，活跃公共MCP服务器已超过1万个，Python和TypeScript SDK月下载量超过9700万次。ChatGPT、Cursor、Gemini、Microsoft Copilot等主流平台均已采用。2025年12月，Anthropic将MCP捐赠给Linux基金会下的Agentic AI Foundation（AAIF），OpenAI、Google、Microsoft、AWS等均为创始成员。

MCP的意义在于：它为AI Agent提供了一个统一的外部系统连接标准，类似于USB为硬件设备提供的即插即用能力。这极大地降低了Agent工具集成的复杂度，加速了生态繁荣。

编程开发是AI Agent最先实现商业化的领域。原因很简单：代码是高度结构化的语言，Agent的输出可以直接验证（通过测试），反馈循环清晰且快速。

Cursor：AI原生IDE的标杆

Cursor（Anysphere）是2025年增长最快的AI编程工具。2025年11月，Cursor完成23亿美元D轮融资，估值达到293亿美元。其ARR从年初的数千万美元飙升至年底的10亿美元以上，2026年初据Bloomberg报道已突破20亿美元。日活开发者超过100万，付费用户36万。

Cursor的成功在于将AI深度嵌入开发环境（IDE），支持多Agent代码协作，并通过MCP协议实现了丰富的工具集成。JetBrains 2026年1月的调查显示，Cursor在工作场景中的使用率达到18%。

Devin / Cognition：自主编程Agent的领跑者

Cognition AI于2024年3月发布了全球首个AI软件工程师Devin。与Cursor的"辅助编码"不同，Devin定位为"自主编程Agent"——给它一个任务，它会自主规划、编码、测试、部署，全程无需人类干预。

2025年9月，Cognition完成4亿美元融资，投后估值达到102亿美元。其ARR从2024年9月的100万美元飙升至2025年6月的7300万美元，增长超过70倍。2025年7月，Cognition以约2.5亿美元收购了Windsurf（Codeium），合并后ARR翻倍以上。

GitHub Copilot：企业级编程Agent

微软旗下的GitHub Copilot在2025年全面Agent化。2月推出Agent Mode（在VS Code中实时协作），5月推出Coding Agent（在GitHub Actions中异步执行）。超过23万个组织使用Copilot Studio创建自定义Agent，覆盖90%的Fortune 500企业。

Manus：通用AI Agent的现象级产品

2025年3月，中国初创公司蝴蝶效应（Butterfly Effect）发布了Manus——一个定位为"通用AI Agent"的产品。Manus在沙盒化的Linux环境中运行，可以自主浏览网页、操作终端、管理文件系统，执行各种复杂任务。

Manus的发布引发了全球关注：demo视频发布20小时内观看量突破100万，Discord社区数天内增长至13.8万人。在GAIA基准测试上，Manus达到了SOTA水平，超越了OpenAI的同类产品。

2025年4月，Manus完成7500万美元B轮融资，由Benchmark领投，腾讯、红杉中国参投，估值约5亿美元。其ARR超过1亿美元，含使用费总收入超1.25亿美元。

2025年12月，Meta宣布以20-30亿美元收购Manus。然而，2026年4月，中国国家发改委以国家安全为由叫停了该收购。这一事件不仅成为中美AI竞争的标志性案例，也凸显了AI Agent作为战略资产的重要性。

OpenAI Operator：GUI交互的突破

2025年1月，OpenAI推出了Operator（研究预览版），基于CUA（Computer-Using Agent）模型。Operator的核心突破在于：它不需要依赖特定API，而是像人类一样直接与图形用户界面（GUI）交互——浏览网页、填写表单、执行购物等任务。

2026年，AI Agent在中国有了一个形象的昵称——"小龙虾"。"小龙虾"（Claw）是对AI Agent自主执行工具能力的统称，不是某一款特定产品，而是一类产品的形态。

"小龙虾"和ChatGPT、豆包这类聊天AI的本质区别在于：它不仅能回答问题，更能"动手"完成任务。用户只需在对话框提出需求，"小龙虾"就可以自动处理复杂任务，并交付可验收的结果。

2026年，中国首次将"智能体"写入政府工作报告，标志着AI Agent上升为国家战略。中国AI Agent市场在2025年达到约182亿元人民币，同比增长78%。

字节跳动Coze（扣子）：最大智能体开发平台

Coze是字节跳动旗下的AI智能体开发平台，2024年2月国内版上线。截至2025中，注册开发者超过300万，日活智能体80万个以上，平台已发布智能体超200万个。Coze支持零代码/低代码构建智能体，集成了字节生态（豆包大模型等），覆盖金融、医疗、教育、电商等30多个行业。

智谱AI：大模型公司的Agent化转型

智谱AI是全球首家上市的通用大模型公司（港股02513.HK）。2025年，其MaaS平台ARR达到约17亿元，同比增长60倍。2026年5月，港股市值突破5000亿港元。智谱清言月活用户约906万，API调用量在涨价83%的情况下仍增长4倍，展现了Agent化应用带来的强劲需求。

月之暗面Kimi：Agent集群的突破

月之暗面在2026年初完成约20亿美元融资，估值突破200亿美元。2026年1月发布的Kimi K2.5首次引入"Agent集群"能力，上线不到24小时登顶全球多个权威榜单。据Stripe数据，2026年1月底以来20天收入超越2025年全年总和，个人订阅1月支付订单数环比增长超8000%。

OpenClaw标准："小龙虾"生态的基础设施

OpenClaw是"小龙虾"生态的核心标准，它定义了AI Agent与外部工具交互的接口规范。只要一款产品兼容OpenClaw Skills，就能调用所有基于OpenClaw开发的工具和插件，形成了类似"App Store"的生态系统。

截至2026年初，市场上已形成多款主流"小龙虾"产品：

• QClaw：面向个人用户的AI智能体

• WorkBuddy：面向企业用户的AI智能体（腾讯出品）

•各厂商推出的兼容OpenClaw的产品

2026年3月9日，腾讯云正式推出WorkBuddy——一款被外界称为"腾讯版小龙虾"的桌面AI Agent。WorkBuddy基于腾讯CodeBuddy架构，完全兼容OpenClaw全量Skills，可接入企业微信、QQ、飞书、钉钉等工具。

WorkBuddy的核心特点：

•零基础入门：用户只需在官网下载安装，1分钟完成配置并连接

•全场景覆盖：支持浏览器、文档、代码、通讯工具等多种场景

•企业级安全：强调易用性与安全性的平衡

•远程遥控：支持通过企业微信、QQ、飞书、钉钉等平台远程操控

WorkBuddy公测上线当天，因用户流量远超预期，甚至导致腾讯云旗下的CodeBuddy服务出现不稳定。技术团队紧急将服务器容量扩容十倍才恢复正常——这一现象级的上线事件，充分说明了市场对"小龙虾"类产品的强烈需求。

ima知识库："小龙虾"的知识管理能力

腾讯ima也正式上线了ima skills，支持"龙虾"操作ima笔记、知识库等功能，已全面适配OpenClaw、WorkBuddy、QClaw等多个"小龙虾"类产品。这意味着"小龙虾"不仅能执行任务，还能调用和管理知识库，实现更复杂的信息处理能力。

2026年2月25日，美国AI研究公司Nous Research发布了一款名为Hermes Agent的开源AI Agent框架。上线一个多月即斩获61,000+ Stars，成为AI Agent领域最受关注的新星。

Hermes Agent的核心定位

Hermes Agent不是绑定在IDE上的代码补全工具，也不是简单的聊天机器人包装——它是一个真正"住在你的服务器上"的自主智能体。它能记住学到的一切，运行越久能力越强。

技术特点：

•三层记忆系统：短期记忆、中期记忆、长期记忆，实现跨会话的知识积累

•自动Skills创建：Agent能根据用户需求自动创建新的技能插件

•六平台网关：支持Linux、macOS、Windows等六大平台

•一键安装：一条curl命令即可安装，无需任何前置依赖

•完全开源：MIT协议，对商业使用完全友好

Nous Research由Jeffrey Quesnelle（GitHub ID: Teknium）创立，此前以开发Hermes系列开源语言模型闻名。Hermes Agent的发布，标志着开源社区在AI Agent领域正式发力，打破了商业公司的技术垄断。

版本迭代：

• v0.5.0（2026年3月）：专注安全加固

• v0.6.0：增强多平台支持

•后续版本：持续优化长期运行能力和稳定性

2026年，AI Agent领域正在形成"开源"与"闭源"两大生态的竞争格局：

维度

闭源Agent（如Cursor、Manus）

开源Agent（如Hermes）

代表产品

Cursor、Devin、Manus

Hermes Agent、各类开源框架

优势

产品体验好、配套服务完善

灵活定制、无供应商锁定

劣势

成本高、定制受限

需要技术能力、运维成本

适用场景

企业级应用、快速原型

技术团队自建、成本敏感

数据

← 上一篇：超星讲坛：AI 战争下的技术博弈与隐患下一篇：arXiv 人工智能前沿论文精选 2026年5月下旬 →