标签

从ReAct论文到万亿产业:AI智能体的发展演进之路

发布时间:2026-07-04 14:19阅读:2

2022 年 10 月,在普林斯顿大学的某间研究室内,博士研究生姚顺雨将一篇仅有十页的学术论文上传至 arXiv 平台。论文标题相当直白——ReAct: Synergizing Reasoning and Acting in Language Models。两个月后, ChatGPT 横空出世,全球焦点都集中在对话式机器人领域,这篇编号 2210.03629 的论文几乎无人问津。

时隔三年回望,姚顺雨那个夜晚上传的文档,奠定了价值万亿美元产业的基础。

2026 年上半年, AI 产业的核心议题毫无悬念地聚焦于"AI 智能体( Agentic AI )"这一新兴领域。 Salesforce 的 Agentforce 年化收入突破 10 亿美元, Cognition 的估值攀升至 260 亿美元,字节的扣子发布 3.0 版本, Meta 据传以数十亿美元收购了中国企业蝴蝶效应。 Gartner 的预测更为大胆:到 2026 年底,全球 40%的企业应用将集成任务专用 AI Agent,而 2025 年这一比例尚不足 5%。

然而同一家 Gartner ,数月前曾发布一份悲观报告——到 2027 年底,超过 40%的 Agentic AI 项目将宣告终止,原因是"成本失控、商业价值不明确"。

极高的采用率与极高的失败率并存,这便是 2026 年 AI Agent 赛道的真实面貌。

AI 智能体是一类以大语言模型为核心、能够自主分解任务、调用工具、执行多步骤工作并对结果负责的软件系统。

用更通俗的话来说——它不再等待用户操作,而是如同数字员工一般"接活儿、干活儿、交活儿"。

你只需吩咐它"帮我完成一份电动车市场的调研报告",它便会自行搜索资料、整理数据、制作 PPT 、完成后自行审核。整个过程你可以处理其他事务,数小时后前来验收即可。

这种形态与过去两年大家熟知的 ChatGPT 有何不同?前者是"问一句答一句"的对话机器,后者是"接一个任务干半天"的工作执行者。前者的产出是文字内容,后者的产出是实际完成的工作。

ReAct 论文完成了一项当时看似简单、后来被验证具有奠基意义的工作:使大模型不再是问答机器,而是在生成回复的过程中,交替产生"思考( Thought )"和"行动( Action )"。思考是自然语言的推理链条,行动是调用外部工具(如搜索引擎)并观察返回结果,再继续思考。

这个"思考-行动-观察"的循环模式,构成了当今所有主流 Agent 框架的底层设计理念。

论文发布至 arXiv 时, GPT-3.5 尚未问世。当整个世界尚未准备好接受聊天机器人的时候,普林斯顿的实验室已在探索"让语言模型动手干活"这一课题。

真正将 Agent 概念推向大众视野的,是 2023 年 3 月 30 日 GitHub 上一个名为Auto-GPT的开源项目。项目作者是游戏开发者 Toran Bruce Richards ,代码虽然粗糙,思路却极为创新——将 GPT-4 作为 CPU ,让它自行下达指令、自行搜索、自行编写文件、自行编写代码、自行反思。

同年 4 月,几乎所有关注 AI 的人士都在社交平台刷屏 Auto-GPT 的演示视频。 GitHub 上的 star 数量从几百飙升至十几万,成为当时增长最快的开源项目之一。

但这股热潮仅持续了不到三个月。到 2023 年夏季,社区开始集体反思: Auto-GPT 在演示中表现惊艳,一旦面对真实任务便原形毕露——要么陷入无限循环(思考一步反思十次),要么 token 耗尽任务仍未完成,要么"幻觉"出不存在的 API 继续调用。有一个广泛流传的笑话:让 Auto-GPT 预订机票,它先花了两小时研究"什么是航空公司"。

这次幻灭实际上是好事。它让整个行业认识到:仅靠一个大模型不断自我循环,无法解决真实世界的复杂任务。 Agent 需要更坚实的架构支撑。

Auto-GPT 退潮之后, OpenAI 在 6 月的 API 更新中添加了Function Calling能力。

这一产品决策当时并未引起太多关注,但事后看来却是 Agent 产业化最关键的锁定性决策:它将"调用工具"从工程师手写 prompt 的技巧,转变为模型的官方能力。所有后续的 Agent 产品都建立在这一能力之上。

任何试图另起炉灶的方案(如纯规则+小模型的 Agent )都无法存活。

2024 年 3 月 12 日,一家名为Cognition Labs的初创公司在推特发布消息,展示了名为Devin的产品——号称"全球首位 AI 软件工程师"。视频中, Devin 接收自然语言任务,自主打开浏览器查资料、写代码、调试、部署,全程无需人工干预。

这条推文引发轰动。 Cognition 的联合创始人 Scott Wu 曾是国际信息学奥林匹克金牌得主,团队成员多为 ICPC 世界总决赛级别的选手。到 2024 年 3 月底, Cognition 的估值直接达到 20 亿美元。

但 Devin 也遭遇了反噬。 2024 年下半年,多位开发者实际体验后直言不讳地批评:"演示中那些漂亮的任务,实际使用时的完成率不到 20%"、"修改一个 bug 要跑半小时,还改错了"。有 YouTuber 制作了标题党视频《 Devin :史上最贵的 AI 骗局》。

Devin 的高光与翻车,戳中了 Agent 行业的核心痛点:演示能力与生产环境能力之间存在巨大鸿沟。

耐人寻味的是, Cognition 并未倒下,反而愈发强大。据 Cognition 自公布的数据(未经独立审计),其 ARR 从 2025 年 5 月的 3700 万美元一路增长至 2026 年 5 月的近 5 亿美元,最新一轮融资估值达到 260 亿美元。这一反转说明了一件事:AI Coding 这个场景,无论遭受多少批评,需求是真实存在的。

如果说 2024 年是 Agent 赛道从"炒作"走向"可用"的过渡年,那么 Anthropic 在下半年完成的两项工作,将这个赛道往前推进了半个身位。

第一项工作是Claude Computer Use, 10 月 22 日发布。 Anthropic 让 Claude 3.5 Sonnet 具备了"观看屏幕、操作鼠标、敲击键盘"的能力——不是通过特定的 API ,而是如同人类一样直接操控电脑界面。 Anthropic 本身也很克制,坦承"错误率仍然较高、只适合有防护措施的沙箱环境"。但其方向意义远大于当前能力:它宣告了 Agent 无需每个软件都提供 API ,也能覆盖企业环境中那些封闭的老旧系统。

第二项工作更被低估——Model Context Protocol ( MCP ), 11 月 25 日发布。 MCP 是一个开放协议,用于标准化"Agent 如何连接外部工具和数据源"。在 MCP 出现之前,每个 Agent 产品都需要为每个工具单独编写适配器,完成一百个工具的集成工作还没结束就已经精疲力竭。

MCP 的理念类似于 USB 接口——统一接口标准,谁想接入谁接入。

MCP 发布不到一年, OpenAI 、 Google DeepMind 、 Microsoft 先后宣布支持。到 2025 年底, MCP 实际上已成为 Agent 生态的"HTTP"。这可能是 Anthropic 做过的最"利他"、格局最大的一件事——他们没有将这一协议锁在自家产品中,而是让整个行业受益。当然这也是巩固地位的策略——当 MCP 成为事实标准, Anthropic 获得的是十年维度的战略位置。

在国内时间线上, 2025 年 3 月 5 日是一个无法绕开的节点。一家名为蝴蝶效应的公司,注册在中国香港、总部位于北京海淀,发布了名为Manus的产品,自称"全球首款通用型 AI 智能体"。

Manus 的爆红颇具戏剧性。发布的邀请码在闲鱼上被炒至数万元一个,微信朋友圈里"求 Manus 邀请码"成为那一周的社交话题。产品定位颇为聪明——不做垂直场景,不做编程,而是将自己定位为"什么都能胜任一点的通用 Agent"。

2025 年 4 月, Benchmark 领投 Manus 的 7500 万美元融资,估值接近 5 亿美元。这轮融资的信号意义大于金额——Benchmark 是最挑剔的硅谷 VC 之一,他们领投一家中国 Agent 公司,等于向硅谷宣告"这场竞争并非美国单方面的"。

据 2026 年初的公开报道, Meta 以数十亿美元的价格收购了蝴蝶效应,是 Meta 历史上第三大收购,创始人肖弘出任 Meta 副总裁。具体金额和条款仍需以 Meta 官方披露为准,但市场对"通用 Agent"这一形态的战略价值判断,已经无需再多解释。

如果要在整个 Agent 赛道中找出"首个真正跑通 PMF"的细分场景,答案毫无争议是AI Coding。

这个场景为何率先跑通?三个原因叠加在一起。

第一,代码有明确的对错标准——能运行、能通过测试用例,这就是清晰的对齐信号。相比之下,"帮我写个营销方案"没有客观评价函数。

第二,程序员本身就是 Agent 的重度早期用户。他们容忍度高、反馈质量高、传播能力强。一位开发者在推特上分享"用 Cursor 一天完成了以前一周的工作",比任何广告都更具说服力。

第三,代码工具生态成熟——Git 、 Docker 、 Linux 、语言服务器协议,这些都是 Agent 可以直接调用的"现成工具"。

2025 年的 AI Coding 赛道竞争极为激烈。Cursor主打"AI 原生 IDE", 2025 年下半年 ARR 突破 10 亿美元,被称为"史上最快达到 10 亿美元 ARR 的软件公司"。Devin主打"后台异步执行"——你将 GitHub issue 提交给它,它自主创建分支、编写代码、提交 PR 。Claude Code以极简的产品形态和最强的底层模型迅速抢占市场。

一个有意思的结局: 2025 年, Cognition 收购了Windsurf(另一个 AI IDE ),这是 Agent 赛道内首次出现的规模化并购。业界解读是——AI Coding 的市场格局从"百花齐放"进入了"寡头整合"阶段。

Coding 场景验证完 PMF 之后, 2025 年下半年到 2026 年上半年, Agent 赛道的重心迅速转移至企业级市场。这一阶段的核心叙事是"数字员工"。

Salesforce是这一波最激进的公司。他们在 2024 年 9 月发布Agentforce,将自己重新定位为"全球最大的数字劳动力平台"。到 2026 财年第四季度, Salesforce 官方数据显示 Agentforce 的 ARR 达到 8 亿美元,同比增长 169%,累计签署 29,000 个客户合同。 CEO Marc Benioff 在多个场合宣称"Salesforce 已经停止招聘工程师,因为 Agentforce 能覆盖大部分需求"。

注意,我们并非说 Benioff 这句话完全没有营销成分——它后来被媒体质疑有夸大成分,但也从侧面说明 Agent 对企业软件行业的冲击。

Benioff 在 2024 年中就判断 Agent 会颠覆传统 SaaS 的按座位收费模式(因为一个 Agent 可替代数十个座位),主动进行商业模式变革——按 Agent 对话次数收费(初期定价 2 美元/对话)。这一步的战略意义在于, Salesforce 用主动的自我颠覆保住了自己在企业软件的头部位置,而不是被后来者从下方撕开一个口子。如果他犹豫半年,等到 2025 年再动手, Agentforce 的 ARR 不可能是 8 亿而是 8 千万。

Agentic AI 是典型的充分竞争格局——玩家极多、生态极其复杂。用一张表梳理六个最具代表性的玩家:

Anthropic在 Agent 赛道的位置最为特殊。他们不做"最优秀的 Agent 产品",他们做"让 Agent 这件事成为可能"的基础设施。短板是 C 端产品能力偏弱、企业销售网络比不上 Microsoft 和 Salesforce 。这决定了他们更适合做"卖水人"。

OpenAI是 Agent 赛道的先发者,但战略过于分散——ChatGPT 要做、 GPT 模型要做、 o 系列推理要做、 Sora 视频要做、机器人也要做、 Operator 也要做。每个方向都在推进,每个方向都没有做到绝对领先。这是"什么都做"的诅咒。 2025 年发布的 Operator 被用户吐槽"想法比 Anthropic 的 Computer Use 更激进,但工程完成度不如后者"。

Microsoft的姿态是"用 Copilot Studio 为企业每一个岗位都配备 Agent"。他们不做最炫目的演示,做最能销售出去的产品。核心竞争力不是技术,是分销——Microsoft 365 在全球有 4 亿多付费用户,每一个 Windows/Office 的企业客户都是 Copilot 的天然渠道。说白了就是"把每一个已有入口都 Agent 化"。

Salesforce的 Agentforce 是垂直深度打法的典范。护城河在于"数据+流程绑定",短板在于"如果客户不是 Salesforce 用户,就无法使用"。

AI Coding 赛道里, Cursor 适合"边写边思考、需要人机深度协作"的场景; Devin 适合"任务明确、可以委托"的场景; Claude Code 适合"喜欢用命令行、追求极致灵活性"的场景。三个产品几乎不是替代关系,而是覆盖了不同类型开发者的工作流。

中国军团里,字节扣子走"开发平台"路线, 2026 年 6 月升级至 3.0 版本,是国内最主流的 Agent 开发平台之一。国内 Agent 市场的核心特征是"生态碎片化、垂直场景深度不足、商业模式仍在探索"。相比美国市场 Salesforce 、 Microsoft 这种"以 SaaS 为基座、 Agent 为增量"的清晰路径,中国市场缺少一个成熟的企业 SaaS 基座, Agent 的落地更多依赖大厂自建生态或者从垂直行业硬啃。

2026 年的 Agent 市场呈现出一种独特格局——技术不集中、市场不集中、协议开始集中。

技术层面, Anthropic 和 OpenAI 并列第一梯队,中国的通义、 DeepSeek 、豆包在特定 benchmark 上逐步追赶,没有绝对赢家。市场层面, Salesforce 在 CRM 场景、 Microsoft 在 Office 场景、 Cursor/Cognition 在 Coding 场景,各自占据主导。但协议层面,MCP 实际上已成为 Agent 与工具通信的行业标准。

这种格局意味着——未来两年,模型能力会趋同,工具协议会统一,真正的差异化会来自"垂直场景数据+客户流程绑定"。这也是为什么 Salesforce 敢押注 Agentforce ,因为他们手里有几十万企业的 CRM 数据这一别人无法获取的资产。

用"对齐度"这个逻辑串起 AI 产业的其他四大赛道,能看出各自现状的差异。

AI 视频与内容生产:对齐度 2026 年才真正达到商用标准。 OpenAI 的 Sora 2 、字节的 Seedance 、快手的可灵是主流玩家。这个赛道的 PMF 在 C 端( AI 微短剧)比 B 端(影视工业)跑得更快,因为微短剧的质量容错度更高。

工业 AI 与具身智能:这是 2026 年最"重"的赛道。质检、预测性维护这些场景已经跑通 PMF ,但人形机器人真正规模化落地还需要 2-3 年。对齐度取决于"物理世界的反馈信号有多稳定"——工厂环境比开放环境稳定得多,所以工业场景先跑通。

医疗 AI:合规准入是这个赛道的核心分水岭。影像诊断和 AI 制药是最先跑通的两个方向。这个赛道的对齐度极高——影像诊断有明确的对错标准——但医疗行业本身的采纳节奏比互联网慢一个数量级。

端侧 AI 硬件: AI PC 、 AI 手机的普及是 2026 年消费电子的主线。但坦白说,端侧 AI 的"杀手级应用"尚未出现——目前的应用大多是"云端能做的事情,端侧也能做,只是隐私更好",缺乏只有端侧才能实现的独特价值。

五大赛道的对齐度排序基本对应了各自的商业化确定性:AI Coding (已完全跑通)> AI 视频微短剧 > 医疗 AI 影像 > 工业 AI 质检 > 企业 Agent > 具身智能 > 端侧 AI 硬件。

Agent 赛道之所以在 2026 年成为主线,不是因为技术突然突破,而是因为"多步任务的对齐问题"用了整整三年时间,才被系统性解决。

这三年解决了什么?

推理能力的对齐——OpenAI 的 o1/o3 系列、 Anthropic 的 extended thinking 、 DeepSeek 的 R1 ,让 Agent"想清楚再动手"的能力从 60 分提升至 90 分。工具调用的对齐——从 ReAct 论文的 prompt-based tool use ,到 Function Calling ,再到 MCP 协议,可靠性从"能跑通演示"变成了"能稳定生产"。长程任务的对齐——上下文窗口从 4K 扩展至 200K 、 1M , Claude 3.5 及以上版本开始能够维持数小时的任务一致性。

这三层对齐能力,恰好对应了 ReAct 论文里的"思考、行动、循环"三个环节。姚顺雨在 2022 年 10 月绘制的技术蓝图,用了整整三年时间被工业界补齐。

未来会走向何方?三个可能的剧本。

最可能的剧本:分层稳定,各占其位。 到 2027 年底, Agent 赛道呈现三层清晰结构。模型底座层由 5-6 家瓜分,谁也无法吞并谁;协议层 MCP 一家独大,成为 Agent 时代的 HTTP ;应用层高度垂直化。 Gartner 预测的"40%的 Agentic AI 项目会被取消"成为现实,但存活下来的 60%创造出真正的商业价值。

最危险的剧本:泡沫破裂,估值回调。 到 2026 年底或 2027 年上半年,市场发现 Agent 的实际 ROI 远低于宣传——大量企业投入数百万美元部署 Agent ,但节省的人力成本无法覆盖投入。 Cognition 在 260 亿美元估值上出现减记, Salesforce 的 Agentforce 增速回落至 50%以下。整个 Agent 赛道估值回调 40%-60%。这个剧本的触发点是——当企业发现 Agent 的运行成本+维护成本+错误成本,高于其节省的人力成本的时候。

最乐观的剧本: Agent 成为新的"操作系统层"。 到 2028 年, Agent 不再是"某个软件里的功能",而是成为用户与所有软件交互的默认入口——如同今天的浏览器和搜索引擎。人类不再直接打开 Salesforce 或 Excel ,而是对 Agent 说"帮我完成这个季度的销售报告", Agent 自行调用背后的一切工具。这个剧本一旦成真, Agent 层公司的价值会超越传统软件层,整个企业软件行业的价值链将被重组。

写到这里,忍不住想跳出 Agent 这个话题,问一个更大的问题——为什么"对齐"这个词,会成为 2026 年 AI 产业的核心逻辑?

Alignment 这个词最初在 AI 安全领域被使用,说的是"让 AI 的目标和人类目标一致"。但在 2026 年的产业语境里,它变成了另一个含义——"让输入和输出可预测地对应"。这两个含义看起来无关,其实是同一件事的两面。

一个不可预测的 AI 系统,本质上就是不可对齐的。企业不敢用、用户不敢信,商业价值就无法兑现。而"对齐"能力,恰恰是 2022 年到 2025 年整个 AI 产业最大的技术进步——不是模型变大了、参数变多了,而是"人给指令、机器交结果"这条链路的可靠性从 60%提升到了 90%。

2026 年五大 AI 赛道的爆发,本质上是同一件事——AI 产业终于跨越了"能不能用"的门槛,进入了"怎么用得规模化"的阶段。 Agent 、 AI 视频、工业 AI 、医疗 AI 、端侧硬件,每一个爆发的赛道都有一个共同点:它们所在的场景,输入-输出的对齐信号足够稳定,反馈闭环足够短,投入产出比足够清晰。

姚顺雨在 2022 年那篇 ReAct 论文的最后一段写道:"我们希望这项工作能启发未来关于'如何将推理与行动更紧密地结合'的研究。"三年之后,回头看这句话,会有点感慨——一篇学术论文启发的,不只是学术研究,是一个价值几万亿美元的产业。

一个赛道的爆发从来不是偶然。它是三年前某个实验室的一次尝试、某个公司的一次押注、某个协议的一次开源,慢慢累积起来的必然。