智能体安全新规发布:确立分级标尺,助推助手从可用迈向可信
人工智能正加速从单纯对话迈向复杂任务执行。随着智能助手类智能体在办公、政务、金融、医疗等领域的广泛渗透,提示注入、数据外泄、权限劫持、多智能体协同失控等新型安全隐患愈发显著。如何为智能体“加装安全锁”,已成为人工智能产业亟待解决的关键难题。
6月10日,新华网携手中国信息通信研究院等多家参编单位,正式颁布《智能助手类智能体安全分级规范与建设指南》(简称“指南”),致力于为技术方、服务商及行业用户打造一套“可控、可信、可追溯”的安全防护体系。
五级安全架构:为智能体设定“安全等级”
指南构建了L1到L5五级递进式智能体安全分级体系,层级清晰、梯度适配各类应用场景。L1为基础级,守住行业基本合规底线,具备基础安全防护能力;L2为进阶级,强化安全管控能力,具备基础安全防护与审计能力,可抵御常规安全风险;L3为自主级,具备全生命周期安全防护体系,可抵御中高级安全风险;L4为协同级,强化多智能体协同、跨设备协同场景的安全能力,具备跨系统、跨组织的安全协同保障能力;L5为自治级,是AI智能助手安全能力最高等级,实现安全能力深度落地,具备纵深防御能力与可追溯审计能力,可抵御高级持续性安全威胁。
“不同场景的智能助手对安全的要求各不相同。”参与编制的专家指出,“这套分级体系犹如智能体的‘能力资质标尺’,使企业、政府及终端用户能依据场景风险等级挑选适配产品,有效规避标准‘一刀切’及高风险智能体违规上线的风险。”
全链路安全闭环:从输入到协作,全程都有“护栏”
不同于以往行业标准多聚焦模型输出安全的单一维度管控,指南立足智能体全生命周期运行逻辑,围绕“输入→感知→决策→记忆→工具→执行→协作”运行闭环,为每一个运行环节细化明确刚性安全要求。在输入环节,要求防御提示注入与多模态对抗样本;在记忆环节,强调会话隔离、加密存储与防篡改;在工具调用环节,建立工具网关与最小权限边界;在执行环节,落实沙箱隔离与高危操作人工复核;在协作环节,实现多智能体身份认证与群体行为监控。
这意味着,智能助手不再是神秘的“黑箱”操作,而是从数据入口到行动出口,每一步都处于可控、可追溯、可审计的状态。
重点场景强化:政务、金融、医疗配备“专属安全锁”
指南特别针对高风险领域设置了场景化增强要求。在政务场景,强调“数据不出域”、接入统一身份认证、意识形态安全审核与人工复核机制;在金融服务场景,明确资金类操作强制人工复核、交易操作全链路追溯;在医疗健康场景,规定诊疗建议不得替代执业医师、患者隐私数据严格隔离。
“这并非泛化的技术建议,而是一份具备落地执行力的‘操作手册’。”评审专家表示,“特别是在关乎公共利益、民生保障及群众生命财产安全的重点领域,指南为智能助手的市场准入、日常运行和合规监管提供了可落地、可核验、可督导的明确标尺。”
内容安全:为智能体植入“可信知识基因”
值得关注的是,指南在内容安全与价值观对齐方面,特别强调了权威知识底座的作用。从源头上遏制语料污染、知识偏差与内容幻觉,是确保智能体回答有据可查、合规可靠的前提。新华社拥有经过严格审核的事实数据与主流价值观语料,能提供可追溯、可核验的“可信知识底座”。指南编制团队认为,将此类权威底座嵌入智能助手的记忆与知识库,能有效落实内容安全防控。未来,更多机构可依托此类底座快速构建符合安全等级的行业智能体。
从规范到能力:安全正从“防火墙”转变为“竞争力”
指南不仅提出了技术要求,还同步提供了分级评估方法,涵盖文档审查、配置核查、渗透测试等多种手段,确保安全能力可量化、可验证、可比较。指南明确指出,安全不再是智能助手的“成本项”,而是构建用户信任、形成差异化竞争优势的核心资产。新华网后续将联合相关机构推动指南落地与评价体系建设,依托“新华语典”等权威基础设施,为智能体安全治理提供从能力到标准、从评价到优化的完整链条。从“可用”到“可信”,从“对话”到“行动”,指南旨在为人工智能产业的健康发展筑牢安全基石。

