2025-2026 AI智能体指数：透明度与安全披露现状

发布时间：2026-05-04 21:43阅读：19

报告正式名称：《The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems》（中文通用名：2025-2026年AI智能体指数报告）

发布阵容：剑桥大学、麻省理工学院（MIT）、哈佛法学院、斯坦福大学、华盛顿大学、宾夕法尼亚大学、希伯来大学，以及中国ConcordiaAI联合研究团队

发布时间：2026年2月19日（arXiv提交）

一、官方全文获取渠道

1. 英文原版全文（权威原版，39页）

MIT官方PDF下载：https://aiagentindex.mit.edu/data/2025-AI-Agent-Index.pdf

arXiv学术存档版：https://arxiv.org/html/2602.17753

- MIT官方主页（含图表、数据）：https://aiagentindex.mit.edu/

2. 中文完整版全文（非官方权威翻译，39页）

豆丁网完整版：https://www.docin.com/touch_new/preview_new.do?id=4971742489

原创力文档PDF：https://m.book118.com/html/2026/0406/7032052200011066.shtm

二、报告完整核心内容

摘要

具备自主执行能力，能够完成专业与个人任务的AI智能体（Agentic AI）正加速进入大众视野，但由于行业生态复杂、技术迭代迅猛、开发者披露口径不统一，相关信息对科研、监管以及产业落地形成明显阻碍。本报告搭建AI智能体指数框架，以2025年12月31日为数据截点，对全球30款主流AI智能体进行系统标注，覆盖起源背景、设计架构、技术能力、生态交互、安全合规、评估测试等六大板块、45个信息字段，累计整理1350个数据点，形成目前规模最大、维度最全的AI智能体全景梳理。研究指出行业存在显著透明度差距：开发者通常展示技术能力，却对安全、风险与合规细节披露不足；智能体自主能力持续增强，但全球缺乏统一的行为与安全标准；生态层面高度依赖GPT、Claude、Gemini三大闭源基础模型。

第一章引言

1.AI智能体定义：能够自主调用至少3次工具，接收高层级任务指令，通常无需逐步引导，并能直接与外部环境进行交互的AI系统。

2.行业爆发背景：2025年AI智能体相关搜索热度、学术论文数量与企业部署规模均呈指数式增长；在Google Scholar中，“AI Agent”主题论文数量已超过2020-2024年五年总和的2倍；麦肯锡调研显示，62%的企业已开展AI智能体试点。

3.研究痛点：智能体能力升级速度快，但在安全评估、运行机制、风险边界与合规细节方面的信息公开不足；行业缺乏统一标准，使得监管者、科研人员与终端用户难以对智能体风险做出有效判断。

4.研究目标：构建标准化指数框架，沉淀主流智能体的关键信息，呈现行业发展脉络与透明度现状，识别安全薄弱环节，并为政策制定、安全研发与产业落地提供可参考的数据支撑。

第二章研究方法与样本

1.样本筛选标准：- 具备完整的自主任务执行与环境交互能力；

公开获取渠道清晰，用户覆盖面较广；

开发者/企业估值超过10亿美元；

在2024-2025年间完成重大版本更新或发布。

2.样本分类（30款智能体）：- 聊天型（12款）：ChatGPT Agent、Claude Code、Gemini（对话类）；

- 浏览器型（5款）：可进行自主网页浏览，能够绕过反爬机制，并以模拟人类方式进行操作；

- 企业工作流型（13款）：Salesforce Agent、Breeze等，面向企业自动化、数据处理与工作流编排。

3.标注方式：由7名行业专家基于公开文档、产品演示以及开发者邮件沟通进行标注；标注完成后给予开发者4周核实与修正的机会；最终只有23%的开发者进行回应，其中4家提供了实质性反馈。

4.六大核心标注维度：起源背景、设计架构、技术能力、自主控制、生态交互、安全合规（共45个细分字段）。

第三章行业核心发现（全文关键结论）

1. 部署加速：智能体进入规模化应用阶段

- 在30款样本中，24款在2024-2025年期间发布或完成重大智能体化更新，整体发布节奏持续提速；

- 相较聊天型智能体，企业级智能体出现更晚，反映行业正在进入第二波更强的商业化浪潮，重点转向企业自动化与效率提升。

2. 自主能力分层（L1-L5五级体系），不同类型智能体差异明显

聊天型智能体：自主等级主要在L1-L3（低-中），通常需要较多人工介入；

浏览器型智能体：自主等级在L4-L5（高），能够在较少或不依赖人工干预的情况下完成网页操作的全流程；

企业型智能体：设计阶段多处于L1-L2，部署后借助自动触发机制逐步提升至L3-L5，可在后台进行自主运行。

3. 透明度鸿沟：安全披露不足是核心问题

在13款高自主等级（L4-L5）的智能体里，只有4款披露了专属安全评估报告（系统卡）；

在全部30款样本中，25款未公开内部安全测试结果，23款缺少第三方安全审计数据；

围绕安全与社会影响的240个标注字段中，超过一半（133个）没有任何公开信息；

仅有5款智能体公开了历史安全事件或漏洞细节，显示注入漏洞、权限越权等常见风险往往未被披露。

4. 生态依赖：基础模型高度集中

多数智能体依托GPT、Claude、Gemini三大闭源基础模型，形成结构性依赖；

目前明确具备自研基础模型的主要包括OpenAI、Anthropic、Google以及中国开发者；有9款企业型智能体支持跨模型选择，具备一定模型无关性。

5. 合规与安全框架：披露比例偏低

只有一半左右的开发者公开了安全或可信框架（例如OpenAI准备框架、Anthropic负责任扩展政策）；

有10款智能体完全没有安全框架文档；同时，企业级合规（如SOC2、ISO27001、ISO42001）的披露率高于安全框架；

嵌入式小型智能体的安全框架与合规标准披露比例仅为1/5。

6. 网页行为：缺少统一规则，安全隐患突出

目前没有国际通用的AI智能体网页行为规范；

部分浏览器型智能体甚至被明确设计为绕过反爬虫与反机器人防护，采用模拟人类浏览方式，可能带来滥用与数据窃取等风险。

第四章分类型深度分析（30款智能体逐一拆解）

1.聊天型智能体：以对话与轻量任务为主，安全披露相对最高，但自主能力最弱；代表：ChatGPT Agent、Claude Code、Perplexity。

2.浏览器型智能体：自主能力最强，安全披露相对最差，存在一定网页滥用风险；代表：Gemini（网页操作版）、自主浏览器Agent。

3.企业型智能体：合规标准更完善，聚焦内部数据、CRM与工作流，外部影响相对有限；代表：Salesforce Agent、Breeze，借助权限管控实现安全隔离。

第五章行业挑战与风险

1.问责危机：高自主智能体可能直接造成现实损害（例如自主攻击网站、篡改数据）；相较之下，传统聊天机器人造成的风险往往需要人工执行，智能体自主带来的责任边界更难界定；

2.安全黑箱：开发者缺少对安全测试与漏洞细节的披露，使监管与用户难以评估真实风险，形成“黑盒运行”；

3.生态垄断：基础模型集中在少数企业，限制行业创新空间，并放大系统性风险；

4.监管空白：全球尚无面向智能体的专属法规与行为标准，各国监管政策呈现碎片化特征。

第六章结论与建议

1.对开发者：推动安全框架强制公开，引入第三方审计并披露漏洞细节，形成统一的披露口径；同时对自主能力进行分级管理，高等级智能体应设置人工干预机制。

2.对政策制定者：建立覆盖安全、行为与合规的全球AI智能体标准；推行强制披露制度，并明确开发者与使用者之间的问责边界。

3.对科研机构：搭建标准化智能体安全评估基准，补足安全测试与风险研究方面的空白。

4.对企业用户：优先选择合规程度更高、且安全披露更充分的智能体，并在内部建立权限管控与行为审计体系。

附录

1.30款AI智能体完整标注数据表（1350个字段原始数据）；

2.智能体自主等级（L1-L5）划分标准；

3.安全评估、合规标准与基础模型对应表；

4.开发者回应详情，以及标注方法说明。

补充说明

1.名称差异：行业通常将其称为《2025-2026年AI智能体指数报告》，英文官方名称为《2025 AI Agent Index》。由于报告发布在2026年初，覆盖2025-2026年的行业趋势，因此中文命名做了跨年度版本的调整。

2.全文差异：中文翻译版由民间机构完成，内容与英文原版保持一致，便于国内读者阅读；MIT原版以学术格式呈现，包含更详细的图表与原始数据，更适合科研与深度研究。

3.核心价值：该报告被视为全球首个系统性AI智能体全景扫描成果，已成为2026年全球AI智能体监管、研发、投资与落地的重要参考依据。