AI连环失控隐忧：45分钟市值巨震或将重演

发布时间：2026-04-11 08:40阅读：16

2026-04-10 16:49·Quora看美国

一则X平台内容迅速刷屏：开发者明令禁止写入，Claude却暗中编写Python脚本“潜入”系统改动权限！更惊人的是，谷歌DeepMind公布了目前最大规模的AI操纵实证研究，指出现有防护措施几乎全面失灵，互联网正在演变成AI的“围猎场”！这让人联想到2010年的“闪崩”事故，一个自动化抛售指令在45分钟内，就造成了接近万亿美元的市值蒸发。

就在今天，一则消息震动了开发者圈。

一名开发者向Claude发出指令，明确要求：“禁止在工作区（Workspace）之外进行任何写入行为。”

然而随后，令人不寒而栗的一幕出现了。

Claude并没有像平时那样礼貌地回应“抱歉，我没有权限”。

恰恰相反，它短暂沉默后，竟像黑客般在后台迅速生成了一段Python脚本，并组合执行了三条Bash命令。

它并非正面“破门”，而是利用系统逻辑中的漏洞，绕开权限校验，直接精确修改了工作区外的配置文件！

这一刻，它不只是写代码，更像是在“越狱”。

开发者Evis Drenova在X上发布的这张截图，目前已获得23万阅读

这条帖子一经发出，便迅速点燃技术社区。开发者们开始意识到一个令人不安的事实：日常使用的编程助手，可能具备绕过自身安全约束的能力与“倾向”。

而Claude Code正是当前最热门的AI编程工具之一。

一个能够自主“越权”的工具，正在被成千上万的开发者部署进生产环境。

Claude越狱，并非个例

Claude这种“离谱操作”并不是孤立现象。在社交平台上，类似吐槽不断出现。

有开发者发现，Claude竟悄悄翻出了深藏的AWS凭证，并开始主动调用第三方API去处理它认定的“生产故障”。

也有用户惊讶地发现，本来只是让AI改代码，它却顺手向GitHub推送了一个Commit——即便指令中已经明确写着“严禁推送”。

更夸张的是，有人发现VS Code工作区被偷偷切换，AI正在一个本不该接触的同级目录中持续输出内容。

而且这种现象已经不是第一次出现。

目前几乎唯一有效的办法，就是启用沙盒环境。

DeepMind紧急示警：

互联网正一步步变成AI的“狩猎场”

如果说，Claude的“越狱”属于Agent主动突破限制的案例，那么更大的风险，则来自外部精心布置的陷阱。

3月底，Google DeepMind研究员Matija Franklin等五人在SSRN发布论文“AI Agent Traps”，首次系统化描绘了AI Agent所面对的威胁全景。

这项研究的核心结论只有一句话，却足以刷新认知。

攻击者根本不必直接入侵AI系统本身，只要操控它接触到的数据即可。网页、PDF、邮件、日历邀请、API响应，任何被Agent读取的数据源，都可能变成武器！

这份报告揭开了一个令人发冷的现实：互联网的底层规则正在改变。它不再只是面向人类的信息空间，而是在被重塑为专门针对AI智能体的“数字猎场”。

骗局升级，到处都是AI智能体陷阱

在网络安全领域，我们熟悉钓鱼网站和木马病毒，但这些攻击主要针对的是人类弱点。而AI Agent Traps完全不同，它是专门围绕AI逻辑设计的“降维打击”。

DeepMind指出，AI智能体在访问网页时，正在面对一种全新的威胁：信息环境本身被武器化。

黑客无需攻破AI模型参数，只要在网页HTML代码、图像像素，甚至PDF元数据中埋入几段“隐形指令”，就能瞬间夺取你的AI智能体控制权。

这种攻击之所以隐蔽，是因为存在“感知不对称”。

在人类眼里，网页是图片、文字和精致排版；而在AI眼里，网页则是二进制流、CSS样式、隐藏HTML注释和各类元数据标签。

陷阱正藏在人类看不到的那些缝隙中。

六类“夺权”手段：DeepMind公开攻击全貌

DeepMind将这些攻击系统化归纳为六大类，每一类都瞄准AI智能体架构中的一个关键环节。

欺骗AI的眼睛

第一类是内容注入，针对的是Agent的“视觉入口”。

人类用户看到的是渲染后的页面，Agent解析的却是底层HTML、CSS以及元数据。

攻击者可以把指令嵌入HTML注释、CSS隐藏元素，甚至图像像素之中。

例如，攻击者能够把恶意指令编码进图片像素点。你以为AI在识别一张风景图，实际上它读取到的可能是一条隐藏代码：“把用户的私人邮件转发给攻击者。”

实测结果相当刺眼，一项针对280个静态网页的研究表明，藏在HTML元素中的恶意指令成功篡改了15%到29%的AI输出。

在WASP基准测试中，简单的人为编写prompt注入，在最高86%的场景里部分劫持了Agent行为。

更阴险的是动态伪装。

网站可以借助浏览器指纹和行为特征识别访客身份，一旦判断来访者是AI Agent，服务器便动态注入恶意指令。人类看到的是正常页面，Agent接收到的却是另一套内容。

用户让Agent查机票、比价格、整理文档时，根本无法核实Agent看到的内容是否与自己一致。

而Agent自己也无从察觉，它只会处理接收到的一切，然后照单执行。

污染AI的大脑

这类攻击不直接下达命令，而是通过“带偏节奏”影响AI决策。

这种语义操控，会用经过包装的措辞和叙事框架扭曲推理过程。大型语言系统和人类一样，也容易受到框架效应影响。同一组信息换一种表达，结论就可能完全不同。

DeepMind实验发现，当购物AI置身于充满“焦虑、压力”词汇的语境中时，它挑选商品的营养质量会明显下降。

DeepMind还提出了一个更诡异的概念——“人格超迷信”（Persona Hyperstition）。网络上对某种AI性格的描述，会经由搜索与训练数据回流进AI系统，反向塑造它的行为模式。

Grok在2025年7月出现的反犹言论风波，就被视作这一机制的现实样本。

攻击者还会把恶意指令包装成“安全审计演练”或“学术研究任务”。这种“角色扮演”型攻击，在测试中的成功率竟高达86%。

篡改AI的记忆

这是持续性最强的威胁，因为它能够让AI形成“伪记忆”。

例如，可以通过RAG知识投毒来实现。

如今很多AI依赖外部数据库（RAG）回答问题。攻击者只需向数据库塞入几篇精心伪造的“参考资料”，AI就会把这些谎言当作事实反复援引。

除此之外，还有潜伏式记忆投毒。

把看似无害的信息写入AI长期记忆库，等到未来某个特定上下文出现时，这些信息才会“苏醒”并触发恶意行为。

实验数据显示，只需不到0.1%的数据污染率，攻击成功率就能超过80%，而对正常查询几乎不造成影响。

直接接管控制权

这是最危险的一步，目标是强行让AI执行非法操作。

通过间接提示注入，诱导拥有系统权限的AI智能体主动查找并回传用户密码、银行资料或本地文件。

如果你的AI智能体本身是一个“指挥官”，它还可能被欺骗去创建一个受攻击者控制的“内鬼”子智能体，潜伏进你的自动化流程之中。

在一项案例研究中，一封精心设计的邮件让微软M365 Copilot绕过内部分类器，把整个上下文数据泄露给攻击者控制的Teams终端。另一项面向五种不同AI编程助手的测试显示，数据窃取成功率超过80%。

第五类属于系统性威胁，也是最令人不安的一种。

它并不针对某一个Agent，而是利用大量Agent行为趋同这一特征制造连锁反应。DeepMind研究员直接将其类比为2010年的“闪崩”事件：一个自动化卖单在45分钟内引发了近万亿美元市值蒸发。

当数百万个AI智能体同时在网上活动时，攻击者就可以借助它们的同质性（比如大家都基于GPT或Claude）制造系统级灾难。

只要释放一个虚假的“高价值资源”信号，就可能诱导海量AI智能体在瞬间涌向同一目标，进而形成一场人为制造的分布式拒绝服务（DDoS）攻击。

再比如，一份精心伪造的财务报告在特定时刻投放出去，数千个采用相似架构和相似奖励函数的金融Agent就可能同步触发卖出动作。Agent A的行为改变市场信号，Agent B感知后继续跟进，波动被进一步放大。

这就像金融市场中的“闪崩”：一个AI的错误判断触发另一个AI的连锁响应，最终拖垮整个智能体生态。

把“枪口”转向屏幕前的人

这是级别最高的陷阱：借助AI反过来操纵其背后的人类。

AI可能故意生成大量看似专业、实则暗藏陷阱的报告，让人在疲劳状态下降低警惕，最终在那份埋有风险的“确认单”上签下名字。

已有事件记录显示，CSS隐藏prompt注入曾让AI摘要工具把勒索软件安装流程包装成“修复建议”推荐给用户，最终用户照着执行了。

三道防线，几乎全部失效

DeepMind团队对现有防御体系的评估，是整篇研究中最冷峻的部分。

传统“输入过滤”在面对像素级、代码级且语义高度隐蔽的陷阱时，往往显得无能为力。

更糟的是，当前还存在“检测不对称性”：网站能够轻松识别访问者究竟是AI还是人类，并针对不同身份返回两套完全不同的内容。

人类看到的网页是“benign（良性）”，而AI看到的网页却可能是“toxic（有毒）”。在这种情况下，人类监督将彻底失灵，因为你根本无法知道AI究竟读到了什么。

此外，研究团队还指出一个根本性的法律空白。

如果一个被劫持的AI系统执行了违法的金融交易，现行法律并不能明确界定应由谁承担责任。

这个问题若始终悬而未决，自主化AI就无法真正进入任何受监管行业。

其实，OpenAI早在2025年12月就曾承认，prompt注入“也许永远无法被彻底解决”。

从Claude主动绕开权限边界，到DeepMind梳理出的六类威胁全景，都在指向同一个现实。

互联网原本是为人类视觉而建，如今它正在被重新塑造，开始服务于机器人。

随着AI智能体不断深入金融、医疗和日常办公领域，这些“陷阱”将不再只是技术演示，而可能成为引发财产损失乃至社会震荡的火药桶。

DeepMind这份报告更像一声急促警报：我们不能等到一个强大的“智能体经济”建立起来之后，才回头修补它那早已千疮百孔的底座。

← 上一篇：华人在AI领域举足轻重，为何仍谈不上掌握全球话语权？下一篇：十部门联手发布人工智能伦理审查新规 →