360发布智能体安全白皮书：Skill成风险新入口

发布时间：2026-05-25 17:29阅读：18

近日，360 AI安全研究院推出了《AI安全系列报告：智能体安全新范式——当AI有了“手和脚”，企业安全边界必须重建》（简称《报告》）。报告强调，随着智能体快速进入企业办公、研发、运维、客服等关键业务领域，AI安全的核心矛盾正由“生成风险”向“执行风险”转变。

过去，大模型安全主要聚焦于AI是否会“说错话”，比如出现幻觉、违规输文或泄露敏感信息。然而，当智能体开始调用工具、访问数据并执行真实任务时，其最大的风险正逐渐演变为“做错事”。

报告提出了“合法动作的非法后果”这一概念，用来刻画智能体在身份、工具及流程均正常的情况下，因恶意诱导、逻辑误判或上下文污染，最终执行出违背业务意图或突破安全边界的风险形态。

智能体安全六层攻击面模型

为了明确智能体风险的渗透点以及企业安全边界的构筑位置，报告构建了智能体安全六层攻击面模型，将企业级智能体攻击面划分为人机交互层、通信调用层、组件间层、智能体之间、工具调用层和基础运行环境层，助力企业从身份、工具、数据、记忆、行为和运行环境等维度重构安全防线。对此，360围绕智能体安全提出了“意图检测、环境隔离、逻辑纠偏”三大策略，并构建了“端+云+管理平台”的能力闭环。

具体而言，端侧与主机侧重点解决智能体运行环境的可控性、高风险动作的阻断及敏感数据的保护；云端侧重于持续开展Skill检测、漏洞运营、风险特征沉淀及安全策略更新；管理平台则侧重于智能体资产发现、风险可视化、行为审计和策略编排，推动企业防护从单点防御向体系化治理演进。

报告认为，AI安全涵盖两类问题：一是“确定性计算”中的传统安全问题，如漏洞、入侵、权限管控、配置脆弱及供应链风险；二是“不确定性计算”引发的新问题，如提示词注入、工具投毒、意图篡改、返回值污染及智能体误操作。针对这两类问题，360提出了两条解决路径：一是利用AI技术强化传统安全防护，提升漏洞发现、入侵研判、样本分析及响应处置的效率；二是确保不确定性任务在安全约束下执行，即允许智能体做事，但严禁越界。

报告还指出，Skill正日益成为智能体生态中至关重要的风险入口。作为智能体调用外部工具、连接业务系统的核心组件，Skill实质上已融入智能体的能力链条。一旦Skill存在安全隐患，风险将不再局限于单一插件，更可能波及企业账号体系、数据资产、业务系统乃至合规管理。

近期备受瞩目的龙虾，正是智能体生态迅猛发展的典型代表。在OpenClaw等生态中，Skill是扩展智能体能力的关键载体。智能体能否执行邮件发送、数据查询、文件处理、业务流转等任务，往往取决于其可调用的Skill。因此，OpenClaw类平台的安全隐患，既涉及智能体本体安全，也涵盖Skill准入、权限边界、运行审计及工具调用治理。

十大高风险Skill类型

针对Skill安全，360沙箱云-SKILLS分析平台为AI Agent Skill生态提供了安全检测与云鉴定服务，支持Skill压缩包、详情页、下载链接等多种提交方式，检测流程涵盖静态分析、AI意图识别、动态沙箱及持续运营等环节，旨在帮助开发者、企业安全团队及智能体使用者提前识别Skill上线前的潜在风险。

360 AI安全研究院指出，智能体安全的关键不在于限制智能体少做事，而在于确保其在可信边界内做正确的事。

← 上一篇：AI术语全解析:从Token到Agent,一文读懂AI核心概念下一篇：生成式AI赋能个性化教育的创新实践 →