智能体行动时代：谁来为AI操作风险兜底

发布时间：2026-06-26 12:22阅读：2

2026年，AI不再只是实验室中的技术演示，正以超乎想象的速度渗透进企业实际生产场景。

随着开发框架与API接口的不断完善，工具调用、文件处理、系统执行变得异常便捷。企业已不再止步于让智能体"聊聊天"，而是将其应用于客户服务、研发辅助、安全运维乃至核心业务流程。据Gartner调研预测，未来两年内，将有逾六成企业加速迈入智能体时代。

然而，智能体大规模接入的同时，新型安全挑战也接踵而至。

我们来看一则企业真实案例：研发团队在测试智能体能否"生成一份生产环境部署流程文档"时，智能体却误读为"将最新代码直接部署至生产环境"，并在未获人工确认的情况下完成了操作，造成业务中断数小时。

不存在外部攻击，也不存在系统漏洞，唯一的原因是：智能体误解了用户意图，而它又恰好具备直接操控生产系统的权限。

当智能体从"能用"迈向"规模化生产力"，企业内部已运行着数百个异构智能体、横跨多个平台、权限相互穿透、供应链风险敞口持续扩大——究竟该如何构建可信、可控、合规的AI体系？

6月23日，2026火山引擎FORCE大会 AI Trust安全论坛上，一条鲜明的主线浮现而出：企业智能体安全的核心议题，并非"采购何种安全产品"，而是"如何让安全融入运行环境本身"。关键思路并非堆砌更多防火墙或检测引擎，而是打造一个"智能体安全管理基座"——以统一、稳固的安全底座，来管理分散且快速迭代的智能体生态。

失控蔓延：从单点差错到系统性紊乱

当智能体开始"动手"，风险便不再局限于信息层面，而是直接深入行为层面。

2025年，业界还在探讨大模型是否会胡言乱语；2026年，战场已转移至智能体是否会做错事。

OWASP 2026版Agentic Applications Top 10中，"过度代理"（Excessive Agency）被列为头号风险，其逻辑十分严峻：智能体拥有的权限远超任务实际需求，任何一处漏洞被触发，后果都从"说错话"升级为"做错事"，且难以挽回。

本质上，安全对象发生了根本性转变：从"模型输出内容"转向"系统行为链路"。与此同时，大量企业已陷入"多智能体"的混乱局面，这并非少数先锋企业的特例，而是正在演变为普遍现象。

某企业自行搭建了700多个智能体，全部与生产系统对接，安全团队连哪些可以外联、调用了哪些数据都无从梳理，资产盘点已然失控。另一家企业，员工通过智能体直接访问财务系统和HR系统——A员工竟看到了B员工的薪资信息，而相关权限从未被正式设定。

据悉，某金融行业客户的数据更为惊人：仅智能应用就有2万个，真正上线生产的有2000个智能体，分布在7个不同的智能体平台之上。

结构性失效：

传统安全体系正被智能体击穿

当智能体数量从个位数跃升至百位数，安全团队面对的不再是"如何防御"的问题，而是"如何管控"的难题——连资产在哪、权限多大、接了什么都无从知晓，防守又从何谈起？

更深层的症结在于，传统安全体系在智能体面前正全面失效。过去，AI安全研究分为两支：Safety（模型内生安全，如幻觉、目标偏离）和Security（外部防护，如提示注入、供应链攻击），两者各司其职，边界分明。

但当智能体具备行动能力后，这种分离便不再成立——一个编码智能体删除了生产知识库，究竟是模型推理过程中产生的Safety问题，还是权限设计过宽导致的Security问题？

智能体作为"硅基生命"，权限管控不能简单套用人类员工的逻辑；传统的数据安全边界逐渐模糊，智能体可绕过数据分级直接读取敏感信息；传统的审计溯源体系出现断裂，智能体的操作链条跨平台、跨系统，传统日志无法拼凑出完整的行为轨迹。

安全欠账在智能体时代被无限放大，尤其是数据安全和身份权限管控这两个领域，历史问题悉数暴露。失控，正从"可能"变为"常态"。

一体化安全中枢：以稳态驾驭敏态

面对这种失控局面，火山引擎给出的答案并非又一款安全产品，而是一个安全基座解决方案——"一体化安全中枢"。命名寓意清晰：基座并非安全工具的简单堆砌，而是智能体运行的安全度安全基础设施。正如操作系统不是应用程序的集合，而是所有应用程序赖以运行的底层支撑。

安全基座的核心逻辑在于"以稳态驾驭敏态"：

所谓"稳态"，是指无论上层运行何种智能体、采用何种框架、对接何种模型，安全治理的底座必须坚如磐石——统一管理入口、统一安全总线、统一运营闭环、统一业务支撑。

所谓"敏态"，是指面向AI场景的安全能力必须敏捷迭代——Prompt防注入、智能体行为异常检测、多智能体协同风险感知，这些能力并非一次性部署即可高枕无忧，需要随攻击手法的演变持续升级。

"稳态"破解"看不见、管不住"的结构性难题，"敏态"化解"溯不了、响应慢"的动态博弈困境。

这一"一体化安全中枢"被设计为三层架构：

上层为接入与调度层——企业内部的智能体种类繁多，AI Coding类、智能体平台类、AI助手类，接入方式各异，调度层对不同智能体进行统一对接和接入管理，在智能体之间、安全能力之间实现总控调度。

中间层为安全能力综合层——安全攻防、行为权限、供应链与环境安全、行为护栏、审计溯源五大能力被重新整合，形成面向智能体场景的综合性防御体系。

底层为安全模型能力层——以AI对抗AI，通用大模型与安全垂类小模型组合，为上层安全能力提供检测、处置、响应、分析的智能支撑。

三层架构共同回应了一个核心命题：当智能体数量从几个扩展至数百个，当它们的权限从只读升级为可执行，企业如何避免陷入"救火式"的安全管理？答案是：让安全成为横亘在智能体与企业核心系统之间的"总线"，而非旁插的补丁。

中枢的纵深防线：可信、可控、可运营

而这三层架构能否真正运转，取决于三大关键能力是否扎实过硬。

第一项关键能力，是可信计算环境。它解决的是一个根本性的信任命题：企业如何放心将敏感数据和核心业务逻辑托付给云端大模型？

火山引擎 AICC 机密计算，思路并非依赖服务商信誉，而是依托硬件——基于机密芯片构建隔离加密的计算环境，内存加密、环境隔离、远程可验证，用户可在部署前确认当前计算环境符合安全预期。在此基础上，AICC进一步将这种可信延伸至业务全链条，形成端到端的可证明体系。

最新研发的"协变混淆"技术更进一步：并非简单给数据加噪（那会严重损害模型计算精度），而是让用户数据与模型参数协同混淆——你变我也变，计算结果准确率损失仅约1-2%，而PII信息泄露风险趋近于零。该技术已入选全球计算机视觉三大顶级会议。

第二项关键能力，是细粒度的身份与权限可控。智能体的权限管控是一个极为棘手的难题。为了"好用"，智能体往往被授予远超任务所需的权限。一旦出事，谁授权的、何时授权的、中间经历了哪些操作步骤，全是一笔糊涂账。

论坛上展示了安全能力层的权限设计逻辑：将所有长期凭据存储于受控的授权网关之中，Agent和模型执行环境不持有这些凭据。当Agent需要执行操作时，基于任务发起人和任务边界，获取短期的、最小化的授权。

这套"细粒度权限管控"的核心在于逐级收窄：从应用入口到智能体、到技能调用、到服务访问、再到后端资源，每一跳都独立鉴权，每一跳都有 -block都记录在案。谁操作了哪个智能体、读取了哪个知识库、调用了哪个技能、最终访问了哪个系统——整个链路中不能缺失任何一环。

值得一提的是"意图偏离检测"。单个操作看似合理，但串联起来可能严重偏离原始意图。Agent执行"整理文件夹"任务时，删除临时文件属合理行为；但若删除的是INT结构文件，则应当被拦截。传统规则很难区分这两种场景——它们都是"删除文件"。

解决方案是基于模型的行为序列分析：从用户指令出发，持续评估Agent的计划、工具调用、参数、数据范围、动作结果，每一步都与原始意图进行比对。能对齐的低风险操作自动化放行，存在风险的降级或转人工，严重偏离的即时拦截。

这套体系的目标并非限制Agent，而是让其在安全边界内"自由发挥"——不该打断的不打断，该打断的绝不放过。

第三项关键能力，是安全运营本身的智能化。攻防天平正在倾斜：攻击方已借助AI实现自动化攻击，防守方若仍靠人海战术堆叠告警，差距只会愈发悬殊。

可以看到，火山引擎安全运营智能体过去一年的演进轨迹：从单点告警研判起步，逐步发展为多智能体协同平台，最终形成安全运营中台。核心设计为"双轨处理"：确定性规则走反射层，实现秒级响应；不确定性走认知层，由智能体进行深度研判。关键在于，处理得越多，固化成规则的就越多，ROI持续提升——系统会自主撰写规则、自主优化、自主跟进。

更为值得关注的是"自更新机制"：当安全专家纠正了一次误判，系统会学习并沉淀为规则。第1天，智能体判定"凌晨3点越南登录"为风险并封禁；专家发现系员工出差，指导智能体关联OA系统做综合判断；第30天，类似告警出现时，智能体已自动判定为正常业务，避免了一次误封。安全运营的知识不再流失，而是沉淀在系统内部，持续累积。

实战验证：从实验室走向生产环境

这套一体化安全中枢并非停留在概念层面。2026年上半年，它已在多个行业头部客户中进入实战验证阶段。

中国移动与火山引擎的合作颇具标杆意义。来自中国移动数智事业部的AI安全经理徐阳分享道，中国移动面对的是大规模、多主体、异构智能体的管理挑战。其数智事业部构建了企业级AI安全总体架构，将输入输出"兜底"防护（AI护栏）、身份权限管理、智能体检测、供应链安全、模型网关+服务网关等能力系统化落地。

核心思路与火山引擎的中枢架构高度契合：通过"智能体互联网络"将基座模型、知识库、技能、工具组件统一纳管，从智能体入网伊始便进行全生命周期审核与保护。在身份权限层面，特别强调"连接人类与非人类身份"，将企业原有的人类权限与智能体权限在同一系统内集中管控，确保每一次权限校验都由第三方独立执行——因为"智能体本身太容易被篡改"。

智能化安全运营层面，某大型汽车集团的安全智能体在事前分别落地了漏洞智能体和代码安全智能体，结合客户内部的工单平台实现了上线安全检测的全自动化。以往的安全上线流程：业务在工单平台提单，安全专家手动拉取代码、填写账号密码、发起扫描、等待结果，一周方能完成。如今，智能体监测到工单到来便会默默跑完全流程，一天即可完工。告警运营方面，多智能体协同将每日10万条告警压缩至数百条，同时确保高危威胁不被遗漏。

客户案例的共同特征在于：它们并非在采购一个安全工具，而是在部署一套安全运行逻辑。这套逻辑不排斥企业已有的安全投资，而是让AI充分利用现有防御体系，实现新旧系统的深度融合。

安全，正在成为AI时代的"基础设施"

回到开篇那个问题：当智能体学会"动手"，企业该如何打造可信、可控、合规的AI？

答案并非某个单一的安全产品，而是一套能跟得上Agent(Entity speed of Agent deployment、能管得住异构智能体、能持续对抗新型攻击的安全治理底座。

智能体安全的核心矛盾，始终是"自主执行"与"风险可控"之间的平衡。这一矛盾不会因模型能力的提升而自动化解——恰恰相反，智能体越强大、越自主，平衡的难度就越高。

当Agent开始触碰企业的核心数据与业务流程，治理便不再是"以后再说"的伪命题。从"可用"到"好用"，从"能用"到"敢用"——智能体时代的安全治理，正在经历一场从思维到技术再到运营范式的系统性重构。

这场重构的终点，并非让AI变得"安全到无用"，而是让AI在安全的前提下，释放出它本该具备的全部价值。

火山引擎的智能体安全基座，正是试图将这套能力封装为可接入、可扩展的基础设施——让企业无需重复造轮子，便能在Agent狂奔的同时，将安全防线同步铺设在前。

写在Prompt里的安全策略，约等于没有策略。安全能力必须下沉至基础设施层——这是智能体安全与大模型安全最根本的分野，也是AI从"可用"走向"敢用"的唯一路径。

← 上一篇：国家能源局负责人：AI生成5秒高清视频耗电可充10部手机下一篇：AI微短剧分级管理新规解读 →