从ReAct论文到万亿产业：AI智能体的发展演进之路

发布时间：2026-07-04 14:19阅读：2

2022 年 10 月，在普林斯顿大学的某间研究室内，博士研究生姚顺雨将一篇仅有十页的学术论文上传至 arXiv 平台。论文标题相当直白——ReAct: Synergizing Reasoning and Acting in Language Models。两个月后， ChatGPT 横空出世，全球焦点都集中在对话式机器人领域，这篇编号 2210.03629 的论文几乎无人问津。

时隔三年回望，姚顺雨那个夜晚上传的文档，奠定了价值万亿美元产业的基础。

2026 年上半年， AI 产业的核心议题毫无悬念地聚焦于"AI 智能体（ Agentic AI ）"这一新兴领域。 Salesforce 的 Agentforce 年化收入突破 10 亿美元， Cognition 的估值攀升至 260 亿美元，字节的扣子发布 3.0 版本， Meta 据传以数十亿美元收购了中国企业蝴蝶效应。 Gartner 的预测更为大胆：到 2026 年底，全球 40%的企业应用将集成任务专用 AI Agent，而 2025 年这一比例尚不足 5%。

然而同一家 Gartner ，数月前曾发布一份悲观报告——到 2027 年底，超过 40%的 Agentic AI 项目将宣告终止，原因是"成本失控、商业价值不明确"。

极高的采用率与极高的失败率并存，这便是 2026 年 AI Agent 赛道的真实面貌。

AI 智能体是一类以大语言模型为核心、能够自主分解任务、调用工具、执行多步骤工作并对结果负责的软件系统。

用更通俗的话来说——它不再等待用户操作，而是如同数字员工一般"接活儿、干活儿、交活儿"。

你只需吩咐它"帮我完成一份电动车市场的调研报告"，它便会自行搜索资料、整理数据、制作 PPT 、完成后自行审核。整个过程你可以处理其他事务，数小时后前来验收即可。

这种形态与过去两年大家熟知的 ChatGPT 有何不同？前者是"问一句答一句"的对话机器，后者是"接一个任务干半天"的工作执行者。前者的产出是文字内容，后者的产出是实际完成的工作。

ReAct 论文完成了一项当时看似简单、后来被验证具有奠基意义的工作：使大模型不再是问答机器，而是在生成回复的过程中，交替产生"思考（ Thought ）"和"行动（ Action ）"。思考是自然语言的推理链条，行动是调用外部工具（如搜索引擎）并观察返回结果，再继续思考。

这个"思考-行动-观察"的循环模式，构成了当今所有主流 Agent 框架的底层设计理念。

论文发布至 arXiv 时， GPT-3.5 尚未问世。当整个世界尚未准备好接受聊天机器人的时候，普林斯顿的实验室已在探索"让语言模型动手干活"这一课题。

真正将 Agent 概念推向大众视野的，是 2023 年 3 月 30 日 GitHub 上一个名为Auto-GPT的开源项目。项目作者是游戏开发者 Toran Bruce Richards ，代码虽然粗糙，思路却极为创新——将 GPT-4 作为 CPU ，让它自行下达指令、自行搜索、自行编写文件、自行编写代码、自行反思。

同年 4 月，几乎所有关注 AI 的人士都在社交平台刷屏 Auto-GPT 的演示视频。 GitHub 上的 star 数量从几百飙升至十几万，成为当时增长最快的开源项目之一。

但这股热潮仅持续了不到三个月。到 2023 年夏季，社区开始集体反思： Auto-GPT 在演示中表现惊艳，一旦面对真实任务便原形毕露——要么陷入无限循环（思考一步反思十次），要么 token 耗尽任务仍未完成，要么"幻觉"出不存在的 API 继续调用。有一个广泛流传的笑话：让 Auto-GPT 预订机票，它先花了两小时研究"什么是航空公司"。

这次幻灭实际上是好事。它让整个行业认识到：仅靠一个大模型不断自我循环，无法解决真实世界的复杂任务。 Agent 需要更坚实的架构支撑。

Auto-GPT 退潮之后， OpenAI 在 6 月的 API 更新中添加了Function Calling能力。

这一产品决策当时并未引起太多关注，但事后看来却是 Agent 产业化最关键的锁定性决策：它将"调用工具"从工程师手写 prompt 的技巧，转变为模型的官方能力。所有后续的 Agent 产品都建立在这一能力之上。

任何试图另起炉灶的方案（如纯规则+小模型的 Agent ）都无法存活。

2024 年 3 月 12 日，一家名为Cognition Labs的初创公司在推特发布消息，展示了名为Devin的产品——号称"全球首位 AI 软件工程师"。视频中， Devin 接收自然语言任务，自主打开浏览器查资料、写代码、调试、部署，全程无需人工干预。

这条推文引发轰动。 Cognition 的联合创始人 Scott Wu 曾是国际信息学奥林匹克金牌得主，团队成员多为 ICPC 世界总决赛级别的选手。到 2024 年 3 月底， Cognition 的估值直接达到 20 亿美元。

但 Devin 也遭遇了反噬。 2024 年下半年，多位开发者实际体验后直言不讳地批评："演示中那些漂亮的任务，实际使用时的完成率不到 20%"、"修改一个 bug 要跑半小时，还改错了"。有 YouTuber 制作了标题党视频《 Devin ：史上最贵的 AI 骗局》。

Devin 的高光与翻车，戳中了 Agent 行业的核心痛点：演示能力与生产环境能力之间存在巨大鸿沟。

耐人寻味的是， Cognition 并未倒下，反而愈发强大。据 Cognition 自公布的数据（未经独立审计），其 ARR 从 2025 年 5 月的 3700 万美元一路增长至 2026 年 5 月的近 5 亿美元，最新一轮融资估值达到 260 亿美元。这一反转说明了一件事：AI Coding 这个场景，无论遭受多少批评，需求是真实存在的。

如果说 2024 年是 Agent 赛道从"炒作"走向"可用"的过渡年，那么 Anthropic 在下半年完成的两项工作，将这个赛道往前推进了半个身位。

第一项工作是Claude Computer Use， 10 月 22 日发布。 Anthropic 让 Claude 3.5 Sonnet 具备了"观看屏幕、操作鼠标、敲击键盘"的能力——不是通过特定的 API ，而是如同人类一样直接操控电脑界面。 Anthropic 本身也很克制，坦承"错误率仍然较高、只适合有防护措施的沙箱环境"。但其方向意义远大于当前能力：它宣告了 Agent 无需每个软件都提供 API ，也能覆盖企业环境中那些封闭的老旧系统。

第二项工作更被低估——Model Context Protocol （ MCP ）， 11 月 25 日发布。 MCP 是一个开放协议，用于标准化"Agent 如何连接外部工具和数据源"。在 MCP 出现之前，每个 Agent 产品都需要为每个工具单独编写适配器，完成一百个工具的集成工作还没结束就已经精疲力竭。

MCP 的理念类似于 USB 接口——统一接口标准，谁想接入谁接入。

MCP 发布不到一年， OpenAI 、 Google DeepMind 、 Microsoft 先后宣布支持。到 2025 年底， MCP 实际上已成为 Agent 生态的"HTTP"。这可能是 Anthropic 做过的最"利他"、格局最大的一件事——他们没有将这一协议锁在自家产品中，而是让整个行业受益。当然这也是巩固地位的策略——当 MCP 成为事实标准， Anthropic 获得的是十年维度的战略位置。

在国内时间线上， 2025 年 3 月 5 日是一个无法绕开的节点。一家名为蝴蝶效应的公司，注册在中国香港、总部位于北京海淀，发布了名为Manus的产品，自称"全球首款通用型 AI 智能体"。

Manus 的爆红颇具戏剧性。发布的邀请码在闲鱼上被炒至数万元一个，微信朋友圈里"求 Manus 邀请码"成为那一周的社交话题。产品定位颇为聪明——不做垂直场景，不做编程，而是将自己定位为"什么都能胜任一点的通用 Agent"。

2025 年 4 月， Benchmark 领投 Manus 的 7500 万美元融资，估值接近 5 亿美元。这轮融资的信号意义大于金额——Benchmark 是最挑剔的硅谷 VC 之一，他们领投一家中国 Agent 公司，等于向硅谷宣告"这场竞争并非美国单方面的"。

据 2026 年初的公开报道， Meta 以数十亿美元的价格收购了蝴蝶效应，是 Meta 历史上第三大收购，创始人肖弘出任 Meta 副总裁。具体金额和条款仍需以 Meta 官方披露为准，但市场对"通用 Agent"这一形态的战略价值判断，已经无需再多解释。

如果要在整个 Agent 赛道中找出"首个真正跑通 PMF"的细分场景，答案毫无争议是AI Coding。

这个场景为何率先跑通？三个原因叠加在一起。

第一，代码有明确的对错标准——能运行、能通过测试用例，这就是清晰的对齐信号。相比之下，"帮我写个营销方案"没有客观评价函数。

第二，程序员本身就是 Agent 的重度早期用户。他们容忍度高、反馈质量高、传播能力强。一位开发者在推特上分享"用 Cursor 一天完成了以前一周的工作"，比任何广告都更具说服力。

第三，代码工具生态成熟——Git 、 Docker 、 Linux 、语言服务器协议，这些都是 Agent 可以直接调用的"现成工具"。

2025 年的 AI Coding 赛道竞争极为激烈。Cursor主打"AI 原生 IDE"， 2025 年下半年 ARR 突破 10 亿美元，被称为"史上最快达到 10 亿美元 ARR 的软件公司"。Devin主打"后台异步执行"——你将 GitHub issue 提交给它，它自主创建分支、编写代码、提交 PR 。Claude Code以极简的产品形态和最强的底层模型迅速抢占市场。

一个有意思的结局： 2025 年， Cognition 收购了Windsurf（另一个 AI IDE ），这是 Agent 赛道内首次出现的规模化并购。业界解读是——AI Coding 的市场格局从"百花齐放"进入了"寡头整合"阶段。

Coding 场景验证完 PMF 之后， 2025 年下半年到 2026 年上半年， Agent 赛道的重心迅速转移至企业级市场。这一阶段的核心叙事是"数字员工"。

Salesforce是这一波最激进的公司。他们在 2024 年 9 月发布Agentforce，将自己重新定位为"全球最大的数字劳动力平台"。到 2026 财年第四季度， Salesforce 官方数据显示 Agentforce 的 ARR 达到 8 亿美元，同比增长 169%，累计签署 29,000 个客户合同。 CEO Marc Benioff 在多个场合宣称"Salesforce 已经停止招聘工程师，因为 Agentforce 能覆盖大部分需求"。

注意，我们并非说 Benioff 这句话完全没有营销成分——它后来被媒体质疑有夸大成分，但也从侧面说明 Agent 对企业软件行业的冲击。

Benioff 在 2024 年中就判断 Agent 会颠覆传统 SaaS 的按座位收费模式（因为一个 Agent 可替代数十个座位），主动进行商业模式变革——按 Agent 对话次数收费（初期定价 2 美元/对话）。这一步的战略意义在于， Salesforce 用主动的自我颠覆保住了自己在企业软件的头部位置，而不是被后来者从下方撕开一个口子。如果他犹豫半年，等到 2025 年再动手， Agentforce 的 ARR 不可能是 8 亿而是 8 千万。

Agentic AI 是典型的充分竞争格局——玩家极多、生态极其复杂。用一张表梳理六个最具代表性的玩家：

Anthropic在 Agent 赛道的位置最为特殊。他们不做"最优秀的 Agent 产品"，他们做"让 Agent 这件事成为可能"的基础设施。短板是 C 端产品能力偏弱、企业销售网络比不上 Microsoft 和 Salesforce 。这决定了他们更适合做"卖水人"。

OpenAI是 Agent 赛道的先发者，但战略过于分散——ChatGPT 要做、 GPT 模型要做、 o 系列推理要做、 Sora 视频要做、机器人也要做、 Operator 也要做。每个方向都在推进，每个方向都没有做到绝对领先。这是"什么都做"的诅咒。 2025 年发布的 Operator 被用户吐槽"想法比 Anthropic 的 Computer Use 更激进，但工程完成度不如后者"。

Microsoft的姿态是"用 Copilot Studio 为企业每一个岗位都配备 Agent"。他们不做最炫目的演示，做最能销售出去的产品。核心竞争力不是技术，是分销——Microsoft 365 在全球有 4 亿多付费用户，每一个 Windows/Office 的企业客户都是 Copilot 的天然渠道。说白了就是"把每一个已有入口都 Agent 化"。

Salesforce的 Agentforce 是垂直深度打法的典范。护城河在于"数据+流程绑定"，短板在于"如果客户不是 Salesforce 用户，就无法使用"。

AI Coding 赛道里， Cursor 适合"边写边思考、需要人机深度协作"的场景； Devin 适合"任务明确、可以委托"的场景； Claude Code 适合"喜欢用命令行、追求极致灵活性"的场景。三个产品几乎不是替代关系，而是覆盖了不同类型开发者的工作流。

中国军团里，字节扣子走"开发平台"路线， 2026 年 6 月升级至 3.0 版本，是国内最主流的 Agent 开发平台之一。国内 Agent 市场的核心特征是"生态碎片化、垂直场景深度不足、商业模式仍在探索"。相比美国市场 Salesforce 、 Microsoft 这种"以 SaaS 为基座、 Agent 为增量"的清晰路径，中国市场缺少一个成熟的企业 SaaS 基座， Agent 的落地更多依赖大厂自建生态或者从垂直行业硬啃。

2026 年的 Agent 市场呈现出一种独特格局——技术不集中、市场不集中、协议开始集中。

技术层面， Anthropic 和 OpenAI 并列第一梯队，中国的通义、 DeepSeek 、豆包在特定 benchmark 上逐步追赶，没有绝对赢家。市场层面， Salesforce 在 CRM 场景、 Microsoft 在 Office 场景、 Cursor/Cognition 在 Coding 场景，各自占据主导。但协议层面，MCP 实际上已成为 Agent 与工具通信的行业标准。

这种格局意味着——未来两年，模型能力会趋同，工具协议会统一，真正的差异化会来自"垂直场景数据+客户流程绑定"。这也是为什么 Salesforce 敢押注 Agentforce ，因为他们手里有几十万企业的 CRM 数据这一别人无法获取的资产。

用"对齐度"这个逻辑串起 AI 产业的其他四大赛道，能看出各自现状的差异。

AI 视频与内容生产：对齐度 2026 年才真正达到商用标准。 OpenAI 的 Sora 2 、字节的 Seedance 、快手的可灵是主流玩家。这个赛道的 PMF 在 C 端（ AI 微短剧）比 B 端（影视工业）跑得更快，因为微短剧的质量容错度更高。

工业 AI 与具身智能：这是 2026 年最"重"的赛道。质检、预测性维护这些场景已经跑通 PMF ，但人形机器人真正规模化落地还需要 2-3 年。对齐度取决于"物理世界的反馈信号有多稳定"——工厂环境比开放环境稳定得多，所以工业场景先跑通。

医疗 AI：合规准入是这个赛道的核心分水岭。影像诊断和 AI 制药是最先跑通的两个方向。这个赛道的对齐度极高——影像诊断有明确的对错标准——但医疗行业本身的采纳节奏比互联网慢一个数量级。

端侧 AI 硬件： AI PC 、 AI 手机的普及是 2026 年消费电子的主线。但坦白说，端侧 AI 的"杀手级应用"尚未出现——目前的应用大多是"云端能做的事情，端侧也能做，只是隐私更好"，缺乏只有端侧才能实现的独特价值。

五大赛道的对齐度排序基本对应了各自的商业化确定性：AI Coding （已完全跑通）> AI 视频微短剧 > 医疗 AI 影像 > 工业 AI 质检 > 企业 Agent > 具身智能 > 端侧 AI 硬件。

Agent 赛道之所以在 2026 年成为主线，不是因为技术突然突破，而是因为"多步任务的对齐问题"用了整整三年时间，才被系统性解决。

这三年解决了什么？

推理能力的对齐——OpenAI 的 o1/o3 系列、 Anthropic 的 extended thinking 、 DeepSeek 的 R1 ，让 Agent"想清楚再动手"的能力从 60 分提升至 90 分。工具调用的对齐——从 ReAct 论文的 prompt-based tool use ，到 Function Calling ，再到 MCP 协议，可靠性从"能跑通演示"变成了"能稳定生产"。长程任务的对齐——上下文窗口从 4K 扩展至 200K 、 1M ， Claude 3.5 及以上版本开始能够维持数小时的任务一致性。

这三层对齐能力，恰好对应了 ReAct 论文里的"思考、行动、循环"三个环节。姚顺雨在 2022 年 10 月绘制的技术蓝图，用了整整三年时间被工业界补齐。

未来会走向何方？三个可能的剧本。

最可能的剧本：分层稳定，各占其位。到 2027 年底， Agent 赛道呈现三层清晰结构。模型底座层由 5-6 家瓜分，谁也无法吞并谁；协议层 MCP 一家独大，成为 Agent 时代的 HTTP ；应用层高度垂直化。 Gartner 预测的"40%的 Agentic AI 项目会被取消"成为现实，但存活下来的 60%创造出真正的商业价值。

最危险的剧本：泡沫破裂，估值回调。到 2026 年底或 2027 年上半年，市场发现 Agent 的实际 ROI 远低于宣传——大量企业投入数百万美元部署 Agent ，但节省的人力成本无法覆盖投入。 Cognition 在 260 亿美元估值上出现减记， Salesforce 的 Agentforce 增速回落至 50%以下。整个 Agent 赛道估值回调 40%-60%。这个剧本的触发点是——当企业发现 Agent 的运行成本+维护成本+错误成本，高于其节省的人力成本的时候。

最乐观的剧本： Agent 成为新的"操作系统层"。到 2028 年， Agent 不再是"某个软件里的功能"，而是成为用户与所有软件交互的默认入口——如同今天的浏览器和搜索引擎。人类不再直接打开 Salesforce 或 Excel ，而是对 Agent 说"帮我完成这个季度的销售报告"， Agent 自行调用背后的一切工具。这个剧本一旦成真， Agent 层公司的价值会超越传统软件层，整个企业软件行业的价值链将被重组。

写到这里，忍不住想跳出 Agent 这个话题，问一个更大的问题——为什么"对齐"这个词，会成为 2026 年 AI 产业的核心逻辑？

Alignment 这个词最初在 AI 安全领域被使用，说的是"让 AI 的目标和人类目标一致"。但在 2026 年的产业语境里，它变成了另一个含义——"让输入和输出可预测地对应"。这两个含义看起来无关，其实是同一件事的两面。

一个不可预测的 AI 系统，本质上就是不可对齐的。企业不敢用、用户不敢信，商业价值就无法兑现。而"对齐"能力，恰恰是 2022 年到 2025 年整个 AI 产业最大的技术进步——不是模型变大了、参数变多了，而是"人给指令、机器交结果"这条链路的可靠性从 60%提升到了 90%。

2026 年五大 AI 赛道的爆发，本质上是同一件事——AI 产业终于跨越了"能不能用"的门槛，进入了"怎么用得规模化"的阶段。 Agent 、 AI 视频、工业 AI 、医疗 AI 、端侧硬件，每一个爆发的赛道都有一个共同点：它们所在的场景，输入-输出的对齐信号足够稳定，反馈闭环足够短，投入产出比足够清晰。

姚顺雨在 2022 年那篇 ReAct 论文的最后一段写道："我们希望这项工作能启发未来关于'如何将推理与行动更紧密地结合'的研究。"三年之后，回头看这句话，会有点感慨——一篇学术论文启发的，不只是学术研究，是一个价值几万亿美元的产业。

一个赛道的爆发从来不是偶然。它是三年前某个实验室的一次尝试、某个公司的一次押注、某个协议的一次开源，慢慢累积起来的必然。

← 上一篇：AI硬件热潮退去？四大信号揭示行业转向下一篇：AI出海工具的未来之路有多远？ →