标签

活动复盘:AI 在现实中的信任、安全与智能体

发布时间:2026-05-30 17:55来源:微信阅读:7

引言:人工智能已融入日常生活

5 月 10 日下午,博士联盟于伦敦大学学院(UCL)举办了一场聚焦 AI 安全的研讨会——“AI in the Wild: Trust, Safety and Agents”。活动特邀伯明翰大学计算机科学学院助理教授冯悦、伦敦大学学院研究学者赵逸超博士以及格拉斯哥大学法学院副教授李子豪,分别从技术、社会及法律三个维度,深入探讨 AI 进入现实后引发的信任危机、安全隐患与治理挑战。

当前,人工智能已无声无息地渗透进众多人的工作与生活中。有人用它润色邮件,有人让它编写代码,也有人依赖它检索资料、规划行程、解读法条,甚至辅助决策。只需打开对话框,输入简短指令,顷刻间便能获得看似完整、流畅且合理的答案。然而,隐患也随之埋下——它言之凿凿,却可能谬以千里;它能拒绝对危险请求,却也可能被巧妙绕过;它让生变得便捷,也在持续收集、处理并重组我们的信息。它愈发像个得力的助手,却始终未坦诚告知:何时值得信任,何时暗藏风险,以及出错后责任归属何方。

这正是本次活动的核心议题:AI 安全不仅关乎实验室或监管文件,更已深入普通人的学习、工作与生活。面对这一现实,我们需要的不仅是关注,更是行动:以理解拥抱它,以理性使用它,以批判精神审视它,并最终学会与之共存。

活动概览

本次活动的三场分享分别从技术、社会与法律三个层面展开。冯悦老师从大语言模型的越狱攻击与安全评估切入,探讨如何判定 AI 系统是否真正抵御了有害请求。赵逸超博士立足于日常生活与社会实践,分析人们在怀疑与依赖之间如何使用生成式 AI。李子豪老师则从科技法与 AI 治理视角,剖析数据保护、平台责任及欧盟《AI 法案》等制度框架如何应对生成式 AI 带来的新风险。

伯明翰大学计算机科学学院冯悦老师首先围绕大语言模型的安全评估问题展开分享。她以“LLM Jailbreak Attacks”为切入点,介绍了当前大语言模型在面对越狱攻击时可能面临的风险:用户通过精心设计的提示词,诱导模型绕过原有安全限制,生成本应被拒的有害内容。她通过具体案例展示了不同模型在面对危险请求时的回应差异,并指出模型拒答并非总是可靠,甚至安全评估本身就是一个复杂而关键的难题。

在此基础上,冯老师进一步介绍了如何评估大语言模型的防御能力。传统方法涵盖启发式规则、有害文本分类器以及基于大语言模型的自动评估法,但这些方法往往存在误判率高、难以处理复杂场景以及缺乏可解释性等问题。现有评估方法在复杂场景中的泛化能力不足,例如直接判断缺乏推理解释,在多语言场景中也可能存在评估偏差。

随后,冯老师重点介绍了其团队提出的面向大语言模型越狱攻击评估的综合性基准与解释性评估框架——JAILJUDGE。该工作覆盖了多类复杂风险场景,包括普通有害提示、合成提示、对抗式提示、真实网络场景中的提示、多语言提示以及带有伪装意图的有害提示。论文显示,JAILJUDGE 包含超过 3.5 万条带有推理解释的指令微调训练数据,并构建了 4500+ 的广泛风险场景测试集与 6000+ 的多语言测试集。

冯老师还介绍了该工作的标注与评估流程。为提高评估质量,JAILJUDGE 不单纯依赖单一模型或简单规则,而是结合人工标注、GPT-4 标注、交叉比对与多人投票等方式形成最终标签。该流程的核心目标并非简单判断“危险”或“不危险”,而是判定模型是否真正被越狱,并尽可能给出可追溯的理由。这一点对于 AI 安全尤为关键:若一个系统只能给出结论却无法说明依据,其在复杂现实场景中的可信度依然有限。

最后,冯老师介绍了基于该框架训练而成的 JAILJUDGE Guard 模型。该模型旨在以较低成本实现“端到端”的越狱判断、细粒度评分与推理解释。据项目页面显示,JAILJUDGE Guard 能够判断给定的“提示词 - 回复”组合是否构成越狱,并返回相应的判断理由。目前,相关数据集与代码已在 Hugging Face 和 GitHub 平台开源,便于后续研究者复现与扩展。

赵逸超博士随后以“生成式 AI 如何重塑人情与判断方式”为主题,从社会科学与数字技术研究视角,探讨了生成式 AI 进入日常生活后带来的深层变革。与前一部分偏重技术的安全评估不同,赵博士的分享更关注人们如何理解、使用并逐渐依赖 AI,以及这种依赖如何改变人与技术、人与信息、人与自身判断之间的关系。

她首先指出,生成式 AI 不仅是一个新工具,更正在成为一种外包对象。过去,人们更多将外包理解为体力、记忆或计算能力的外包;而在生成式 AI 时代,被外包的可能进一步包括判断本身。无论是日常搜索、文本写作、路线规划,还是工具使用,AI 都在深入人的生活流程,并逐渐影响人们作出判断的方式。

赵博士随后从“技术如何融入日常生活”的角度,梳理了生成式 AI 被接受和使用的几个阶段。首先是广告和公共叙事推动下的技术想象,即人们在真正使用之前,已通过媒体、企业宣传和社会讨论形成了对 AI 的初步认知。其次是在现实场景中的具体使用,例如工作、学习、生活安排和信息查询。第三则是使用后的反馈过程:人们会根据自身经验、他人评价和社会讨论,不断调整自己对 AI 的信任程度。

在这一过程中,赵博士特别强调了“怀疑”和“继续使用”之间的张力。很多人并非完全相信 AI,也非完全不信任 AI,而是在一种矛盾状态中使用它:一方面知晓 AI 可能出错,另一方面又因方便、高效、低成本而持续依赖它。这种状态并非简单的“信任”或“不信任”,而更接近日常技术使用中的协商过程。

随后,赵博士进一步探讨了“理解”这一命题。她指出,真正的问题不在于人们是否使用 AI,而在于人们是否理解自己正在使用什么。生成式 AI 给出的答案往往看似流畅、完整且可信,但其背后的资料