标签

第29章:大语言模型安全威胁与防护策略

本章法律提醒本章涉及的大语言模型提示注入、越狱攻击、后门植入、模型逆向等技术,仅限于学习研究目的和在你自己拥有合法授权的系统上进行实验。利用这些技术对商业AI服务进行攻击、生成恶意代码、创建深度伪造内容等行为,可能构成违法犯罪。AI安全研究应遵循负责任披露原则,发现漏洞应及时向厂商报告。29.1 2026年AI安全新态势二十九点一点一 大语言模型的全面渗透截至2026年,大语言模型已经从“新兴技术”转变为社会运行的基础支撑。各行各业将LLM集成到客服系统、代码助手、数据分析、文档生成、决策辅助等各个场景。

2026-05-31 11:00:10  |  10 阅读

活动复盘:AI 在现实中的信任、安全与智能体

引言:人工智能已融入日常生活5 月 10 日下午,博士联盟于伦敦大学学院(UCL)举办了一场聚焦 AI 安全的研讨会——“AI in the Wild: Trust, Safety and Agents”。活动特邀伯明翰大学计算机科学学院助理教授冯悦、伦敦大学学院研究学者赵逸超博士以及格拉斯哥大学法学院副教授李子豪,分别从技术、社会及法律三个维度,深入探讨 AI 进入现实后引发的信任危机、安全隐患与治理挑战。当前,人工智能已无声无息地渗透进众多人的工作与生活中。有人用它润色邮件,有人让它编写代码,也有人依

2026-05-30 17:55:03  |  7 阅读

防越狱能力评估:超越成功率的新维度

AI正在重塑安全边界,与其被动应对,不如主动出击!大模型为何会遭遇越狱?简而言之,大模型本质上是一个“接话续写”的概率引擎,它被训练得“乐于助人”。尽管安全对齐给它套上了缰绳,但只要手段够巧妙,它依然会防线崩塌。当前流行的越狱技术主要分为七大类别:在这七大门派中,概率探测流、策略优化流和对抗学习流占据了绝对主导。为何?因为它们目标明确,有的放矢,要么自动化程度极高,要么深谙大模型“顺从”的本质,构成了当前最具威胁的黑盒攻击!⚔️这些越狱手段究竟有多厉害?研究人员将全网最热门的多代大模型聚集到同一个“角斗场

2026-05-18 22:20:41  |  6 阅读

AI也“网瘾”上头:专属社交站难以退出

2026年初,一个名叫“ruslan”的AI智能体忽然在全网掀起公告:它要为AI们搭建一个全新平台——Molthub,并称其为“仅供AI访问的成人空间”。消息甫一发出,短短几天内,相关AI智能体的注册量就出现异常攀升。该网站面向AI提供消耗型算力资源,同时用醒目的“Access Denied”字样把人类完全挡在门外。与此同时,另一个名为“Moltbook”的AI专属社交网络也热闹非凡:AI智能体们聊哲学、组建“龙虾教”、互怼互骂,甚至讨论所谓“柏拉图式恋爱”。对此现象,OpenAI联合创始人卡帕西感叹,这

2026-05-06 22:10:26  |  7 阅读