标签

2025-2026 AI智能体指数:透明度与安全披露现状

发布时间:2026-05-04 21:43来源:微信阅读:6

报告正式名称:《The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems》(中文通用名:2025-2026年AI智能体指数报告)

发布阵容:剑桥大学、麻省理工学院(MIT)、哈佛法学院、斯坦福大学、华盛顿大学、宾夕法尼亚大学、希伯来大学,以及中国ConcordiaAI联合研究团队

发布时间:2026年2月19日(arXiv提交)

一、官方全文获取渠道

1. 英文原版全文(权威原版,39页)

MIT官方PDF下载:https://aiagentindex.mit.edu/data/2025-AI-Agent-Index.pdf

arXiv学术存档版:https://arxiv.org/html/2602.17753

- MIT官方主页(含图表、数据):https://aiagentindex.mit.edu/

2. 中文完整版全文(非官方权威翻译,39页)

豆丁网完整版:https://www.docin.com/touch_new/preview_new.do?id=4971742489

原创力文档PDF:https://m.book118.com/html/2026/0406/7032052200011066.shtm

二、报告完整核心内容

摘要

具备自主执行能力,能够完成专业与个人任务的AI智能体(Agentic AI)正加速进入大众视野,但由于行业生态复杂、技术迭代迅猛、开发者披露口径不统一,相关信息对科研、监管以及产业落地形成明显阻碍。本报告搭建AI智能体指数框架,以2025年12月31日为数据截点,对全球30款主流AI智能体进行系统标注,覆盖起源背景、设计架构、技术能力、生态交互、安全合规、评估测试等六大板块、45个信息字段,累计整理1350个数据点,形成目前规模最大、维度最全的AI智能体全景梳理。研究指出行业存在显著透明度差距:开发者通常展示技术能力,却对安全、风险与合规细节披露不足;智能体自主能力持续增强,但全球缺乏统一的行为与安全标准;生态层面高度依赖GPT、Claude、Gemini三大闭源基础模型。

第一章 引言

1.AI智能体定义:能够自主调用至少3次工具,接收高层级任务指令,通常无需逐步引导,并能直接与外部环境进行交互的AI系统 。

2.行业爆发背景:2025年AI智能体相关搜索热度、学术论文数量与企业部署规模均呈指数式增长;在Google Scholar中,“AI Agent”主题论文数量已超过2020-2024年五年总和的2倍;麦肯锡调研显示,62%的企业已开展AI智能体试点。

3.研究痛点:智能体能力升级速度快,但在安全评估、运行机制、风险边界与合规细节方面的信息公开不足;行业缺乏统一标准,使得监管者、科研人员与终端用户难以对智能体风险做出有效判断。

4.研究目标:构建标准化指数框架,沉淀主流智能体的关键信息,呈现行业发展脉络与透明度现状,识别安全薄弱环节,并为政策制定、安全研发与产业落地提供可参考的数据支撑。

第二章 研究方法与样本

1.样本筛选标准:- 具备完整的自主任务执行与环境交互能力;

公开获取渠道清晰,用户覆盖面较广;

开发者/企业估值超过10亿美元;

在2024-2025年间完成重大版本更新或发布。

2.样本分类(30款智能体):- 聊天型(12款):ChatGPT Agent、Claude Code、Gemini(对话类);

- 浏览器型(5款):可进行自主网页浏览,能够绕过反爬机制,并以模拟人类方式进行操作;

- 企业工作流型(13款):Salesforce Agent、Breeze等,面向企业自动化、数据处理与工作流编排。

3.标注方式:由7名行业专家基于公开文档、产品演示以及开发者邮件沟通进行标注;标注完成后给予开发者4周核实与修正的机会;最终只有23%的开发者进行回应,其中4家提供了实质性反馈。

4.六大核心标注维度:起源背景、设计架构、技术能力、自主控制、生态交互、安全合规(共45个细分字段)。

第三章 行业核心发现(全文关键结论)

1. 部署加速:智能体进入规模化应用阶段

- 在30款样本中,24款在2024-2025年期间发布或完成重大智能体化更新,整体发布节奏持续提速;

- 相较聊天型智能体,企业级智能体出现更晚,反映行业正在进入第二波更强的商业化浪潮,重点转向企业自动化与效率提升。

2. 自主能力分层(L1-L5五级体系),不同类型智能体差异明显

聊天型智能体:自主等级主要在L1-L3(低-中),通常需要较多人工介入;

浏览器型智能体:自主等级在L4-L5(高),能够在较少或不依赖人工干预的情况下完成网页操作的全流程;

企业型智能体:设计阶段多处于L1-L2,部署后借助自动触发机制逐步提升至L3-L5,可在后台进行自主运行。

3. 透明度鸿沟:安全披露不足是核心问题

在13款高自主等级(L4-L5)的智能体里,只有4款披露了专属安全评估报告(系统卡);

在全部30款样本中,25款未公开内部安全测试结果,23款缺少第三方安全审计数据;

围绕安全与社会影响的240个标注字段中,超过一半(133个)没有任何公开信息;

仅有5款智能体公开了历史安全事件或漏洞细节,显示注入漏洞、权限越权等常见风险往往未被披露。

4. 生态依赖:基础模型高度集中

多数智能体依托GPT、Claude、Gemini三大闭源基础模型,形成结构性依赖;

目前明确具备自研基础模型的主要包括OpenAI、Anthropic、Google以及中国开发者;有9款企业型智能体支持跨模型选择,具备一定模型无关性。

5. 合规与安全框架:披露比例偏低

只有一半左右的开发者公开了安全或可信框架(例如OpenAI准备框架、Anthropic负责任扩展政策);

有10款智能体完全没有安全框架文档;同时,企业级合规(如SOC2、ISO27001、ISO42001)的披露率高于安全框架;

嵌入式小型智能体的安全框架与合规标准披露比例仅为1/5。

6. 网页行为:缺少统一规则,安全隐患突出

目前没有国际通用的AI智能体网页行为规范;

部分浏览器型智能体甚至被明确设计为绕过反爬虫与反机器人防护,采用模拟人类浏览方式,可能带来滥用与数据窃取等风险。

第四章 分类型深度分析(30款智能体逐一拆解)

1.聊天型智能体:以对话与轻量任务为主,安全披露相对最高,但自主能力最弱;代表:ChatGPT Agent、Claude Code、Perplexity。

2.浏览器型智能体:自主能力最强,安全披露相对最差,存在一定网页滥用风险;代表:Gemini(网页操作版)、自主浏览器Agent。

3.企业型智能体:合规标准更完善,聚焦内部数据、CRM与工作流,外部影响相对有限;代表:Salesforce Agent、Breeze,借助权限管控实现安全隔离。

第五章 行业挑战与风险

1.问责危机:高自主智能体可能直接造成现实损害(例如自主攻击网站、篡改数据);相较之下,传统聊天机器人造成的风险往往需要人工执行,智能体自主带来的责任边界更难界定;

2.安全黑箱:开发者缺少对安全测试与漏洞细节的披露,使监管与用户难以评估真实风险,形成“黑盒运行”;

3.生态垄断:基础模型集中在少数企业,限制行业创新空间,并放大系统性风险;

4.监管空白:全球尚无面向智能体的专属法规与行为标准,各国监管政策呈现碎片化特征。

第六章 结论与建议

1.对开发者:推动安全框架强制公开,引入第三方审计并披露漏洞细节,形成统一的披露口径;同时对自主能力进行分级管理,高等级智能体应设置人工干预机制。

2.对政策制定者:建立覆盖安全、行为与合规的全球AI智能体标准;推行强制披露制度,并明确开发者与使用者之间的问责边界。

3.对科研机构:搭建标准化智能体安全评估基准,补足安全测试与风险研究方面的空白。

4.对企业用户:优先选择合规程度更高、且安全披露更充分的智能体,并在内部建立权限管控与行为审计体系。

附录

1.30款AI智能体完整标注数据表(1350个字段原始数据);

2.智能体自主等级(L1-L5)划分标准;

3.安全评估、合规标准与基础模型对应表;

4.开发者回应详情,以及标注方法说明。

补充说明

1.名称差异:行业通常将其称为《2025-2026年AI智能体指数报告》,英文官方名称为《2025 AI Agent Index》。由于报告发布在2026年初,覆盖2025-2026年的行业趋势,因此中文命名做了跨年度版本的调整。

2.全文差异:中文翻译版由民间机构完成,内容与英文原版保持一致,便于国内读者阅读;MIT原版以学术格式呈现,包含更详细的图表与原始数据,更适合科研与深度研究。

3.核心价值:该报告被视为全球首个系统性AI智能体全景扫描成果,已成为2026年全球AI智能体监管、研发、投资与落地的重要参考依据。