潘剑锋：驾驭AI不确定性，筑牢智能体安全防线

发布时间：2026-06-27 01:44阅读：2

新浪科技讯 6月26日下午消息，在ISC.AI 2026大会现场，360集团首席科学家、集团高级副总裁潘剑锋指出，去年业界对AI能否胜任漏洞挖掘尚存疑虑，而今AI挖掘漏洞已令安全人员倍感压力。

在他看来，这并非安全人员的淘汰危机，而是行业加速升级的信号。针对智能体的天然安全短板，他提出了“驾驭AI不确定性”这一全新的安全治理范式。

潘剑锋认为，传统安全面临的挑战，不仅在于攻击手段增多、速度加快，更深层的原因在于计算逻辑发生了转变。

传统软件基于确定性计算，人将不确定世界抽象为确定的计算模型，这是人适应机器。但大模型出现后，计算从确定走向了不确定，模型能直接处理模糊、开放及充满变化的真实世界任务，实现了机器反过来适应人。

这种不确定性赋予了AI推理、创造及处理复杂任务的能力，同时也成为智能体新型安全风险的根源。即便输入相同任务，智能体也可能产生差异化的理解、推理路径及行动结果。

潘剑锋将这种不确定性分为一体两面。

一面来自外部。攻击者无需直接下达明显恶意指令，而是将恶意意图隐藏在用户输入、系统提示、工具返回等内容中。人未必能察觉危险，大模型却可能“读懂”隐藏指令，进而实现模型注入、指令覆盖等。

另一面来自内部。大模型依赖统计规律生成结果，不具备对现实世界的完整稳定认知，因此无法彻底避免幻觉，例如编造不存在的实体、对事件顺序和持续时间的认知错误等。同时，当智能体开始连续推理、调用工具，甚至协同工作时，一个看似微小的判断错误，可能沿着任务链不断传递放大。

潘剑锋认为，智能体时代的安全目标需要从“防御确定威胁”，转向“管控不确定性”。

围绕这一变化，潘剑锋在主题演讲中提出了360智能体安全治理的整体思路：在输入层识别恶意意图，在推理层减少幻觉和错误判断，在执行层限制智能体的行动边界。这套思路背后的逻辑是，不确定性很难被彻底消除，但可以被识别、约束和兜底。换言之，安全不能保证AI永远不犯错，但必须确保错误不会直接演变成安全事故。

在输入层，360通过恶意意图识别引擎，识别隐藏在用户输入、系统提示、工具返回中的攻击意图，防止智能体被诱导、越狱或劫持任务目标，其解决的核心思路是“以模治模”。对于外界普遍关注的360差异化问题，潘剑锋将关键归结为两个字：数据。

“恶意意图识别模型的专项训练越来越由数据决定。”他表示，360长期积累了搜索、安全攻防及监管合规等多类数据，形成了一般安全厂商难以获得的语料资源。实测显示，接入360恶意意图识别引擎后，开源大模型的整体安全性可提升10%至30%。

在推理层，360通过自研的世界认知模型，为大模型提供理解世界内在机制、预测未来状态、辅助决策的“认知锚点”，约束和引导大语言模型的推理过程，从根源上抑制大语言模型的幻觉。

在执行层，环境孪生沙箱则为智能体划定安全的行动半径，对工具调用、数据访问和系统操作进行监控，出现异常时及时拦截和回滚。

对于未来的市场格局，潘剑锋判断，智能体安全将成为每个智能体的标配基础设施。

但这一市场不会被一家厂商完全垄断。“它可能更像手机行业，几家大型厂商占据主要市场，同时不同细分领域仍然存在大量专业化空间。”

他同时强调，AI厂商并不会因为模型能力增强，就直接取代安全公司。安全仍然是一个高度垂直、依赖攻防经验和行业知识的专业领域。但AI的发展，已经开始重新划定安全行业的门槛。

责任编辑：刘万里 SF014

新浪财经声明：此消息系转载自合作媒体，新浪财经登载此文出于传递更多信息之目的，文章内容仅供参考，不构成投资建议。

郑重声明：1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。