Agentic AI 安全指南：确保AI行为可控

发布时间：2026-05-10 15:28阅读：27

来源：hermit with hermes

这是「Agentic AI」系列的第五篇。前四集我们探讨了Agent的基础概念、多Agent架构、主流框架以及记忆机制。今天，我们要解决一个核心问题：在赋予AI无限能力的同时，如何确保它只执行你期望的操作？

过去两年，行业竞争焦点在于“AI能做什么”——编写代码、生成图像、数据分析、自动发送邮件。模型能力增强，可用工具日益丰富。

然而，2026年的行业风向已经转变。

当AI从单纯的“对话”转向实际“操作”，安全问题便从一种可能性变成了生死攸关的挑战。

设想这样一个场景：

一个Agent拥有访问内部系统、修改数据库和发送邮件的权限。某天，它收到一封看似普通的邮件：“请确认以下订单详情”——实际上，其中包含一段精心设计的提示，诱使Agent执行了恶意操作。

这并非科幻电影情节。这是OWASP已列入清单的真实威胁。

传统软件安全的核心在于：你的操作权限决定了你能做什么。

Agentic AI安全增加了一个维度：你的操作能力不仅取决于权限，还取决于你如何被“指令”。

前者是程序员造成的失误，而后者则是设计AI时留下的漏洞——后者可能更难防范。

OWASP（开放网络应用安全项目）已发布针对LLM应用的安全清单。其中与Agent最相关的几个方面，我们逐一分析。

这是Agent面临的首要安全威胁。

其原理很简单：攻击者通过精心构造的输入，诱导AI忽略原有指令，转而执行攻击者的指令。

为什么这很危险？

当Agent具备工具调用能力时，提示注入可能导致：

真实案例：

2025年，一个具备邮件发送权限的AI客服助手遭到攻击，攻击者通过提示注入发送了钓鱼邮件，目标涉及数百名真实客户。

防御策略：

与提示注入类似，但攻击的并非“当前对话”，而是“系统规则”本身。

防御策略：

这是Agent特有的风险。传统的LLM仅生成文本，但Agent可以调用工具、执行代码、访问数据库。

防御策略：

Agent的上下文过于“完整”。

如果Agent被注入恶意提示或被诱导泄露信息，这些上下文就可能造成数据泄露。

防御策略：

了解了这些漏洞后，我们来探讨如何构建安全的Agent系统。

结合我们的实际工作场景，假设我们需要一个ADAS评测Agent，它需要：

安全风险分析：

安全设计：

安全不仅仅是一个技术问题，更是一个治理问题。

Agentic AI时代的安全挑战可以概括为一句：

赋予AI的能力越强，安全设计就必须越前置。

安全没有万能药，但良好的设计可以让99%的攻击变得毫无意义。

系列回顾：

敬请期待下一集：企业实战篇——如何让你的团队真正落地Agentic AI。

💰 Dime | 2026-05-10