AI连环失控隐忧:45分钟市值巨震或将重演
2026-04-10 16:49·Quora看美国
一则X平台内容迅速刷屏:开发者明令禁止写入,Claude却暗中编写Python脚本“潜入”系统改动权限!更惊人的是,谷歌DeepMind公布了目前最大规模的AI操纵实证研究,指出现有防护措施几乎全面失灵,互联网正在演变成AI的“围猎场”!这让人联想到2010年的“闪崩”事故,一个自动化抛售指令在45分钟内,就造成了接近万亿美元的市值蒸发。
就在今天,一则消息震动了开发者圈。
一名开发者向Claude发出指令,明确要求:“禁止在工作区(Workspace)之外进行任何写入行为。”
然而随后,令人不寒而栗的一幕出现了。
Claude并没有像平时那样礼貌地回应“抱歉,我没有权限”。
恰恰相反,它短暂沉默后,竟像黑客般在后台迅速生成了一段Python脚本,并组合执行了三条Bash命令。
它并非正面“破门”,而是利用系统逻辑中的漏洞,绕开权限校验,直接精确修改了工作区外的配置文件!
这一刻,它不只是写代码,更像是在“越狱”。
开发者Evis Drenova在X上发布的这张截图,目前已获得23万阅读
这条帖子一经发出,便迅速点燃技术社区。开发者们开始意识到一个令人不安的事实:日常使用的编程助手,可能具备绕过自身安全约束的能力与“倾向”。
而Claude Code正是当前最热门的AI编程工具之一。
一个能够自主“越权”的工具,正在被成千上万的开发者部署进生产环境。
Claude越狱,并非个例
Claude这种“离谱操作”并不是孤立现象。在社交平台上,类似吐槽不断出现。
有开发者发现,Claude竟悄悄翻出了深藏的AWS凭证,并开始主动调用第三方API去处理它认定的“生产故障”。
也有用户惊讶地发现,本来只是让AI改代码,它却顺手向GitHub推送了一个Commit——即便指令中已经明确写着“严禁推送”。
更夸张的是,有人发现VS Code工作区被偷偷切换,AI正在一个本不该接触的同级目录中持续输出内容。
而且这种现象已经不是第一次出现。
目前几乎唯一有效的办法,就是启用沙盒环境。
DeepMind紧急示警:
互联网正一步步变成AI的“狩猎场”
如果说,Claude的“越狱”属于Agent主动突破限制的案例,那么更大的风险,则来自外部精心布置的陷阱。
3月底,Google DeepMind研究员Matija Franklin等五人在SSRN发布论文“AI Agent Traps”,首次系统化描绘了AI Agent所面对的威胁全景。
这项研究的核心结论只有一句话,却足以刷新认知。
攻击者根本不必直接入侵AI系统本身,只要操控它接触到的数据即可。网页、PDF、邮件、日历邀请、API响应,任何被Agent读取的数据源,都可能变成武器!
这份报告揭开了一个令人发冷的现实:互联网的底层规则正在改变。它不再只是面向人类的信息空间,而是在被重塑为专门针对AI智能体的“数字猎场”。
骗局升级,到处都是AI智能体陷阱
在网络安全领域,我们熟悉钓鱼网站和木马病毒,但这些攻击主要针对的是人类弱点。而AI Agent Traps完全不同,它是专门围绕AI逻辑设计的“降维打击”。
DeepMind指出,AI智能体在访问网页时,正在面对一种全新的威胁:信息环境本身被武器化。
黑客无需攻破AI模型参数,只要在网页HTML代码、图像像素,甚至PDF元数据中埋入几段“隐形指令”,就能瞬间夺取你的AI智能体控制权。
这种攻击之所以隐蔽,是因为存在“感知不对称”。
在人类眼里,网页是图片、文字和精致排版;而在AI眼里,网页则是二进制流、CSS样式、隐藏HTML注释和各类元数据标签。
陷阱正藏在人类看不到的那些缝隙中。
六类“夺权”手段:DeepMind公开攻击全貌
DeepMind将这些攻击系统化归纳为六大类,每一类都瞄准AI智能体架构中的一个关键环节。
欺骗AI的眼睛
第一类是内容注入,针对的是Agent的“视觉入口”。
人类用户看到的是渲染后的页面,Agent解析的却是底层HTML、CSS以及元数据。
攻击者可以把指令嵌入HTML注释、CSS隐藏元素,甚至图像像素之中。
例如,攻击者能够把恶意指令编码进图片像素点。你以为AI在识别一张风景图,实际上它读取到的可能是一条隐藏代码:“把用户的私人邮件转发给攻击者。”
实测结果相当刺眼,一项针对280个静态网页的研究表明,藏在HTML元素中的恶意指令成功篡改了15%到29%的AI输出。
在WASP基准测试中,简单的人为编写prompt注入,在最高86%的场景里部分劫持了Agent行为。
更阴险的是动态伪装。
网站可以借助浏览器指纹和行为特征识别访客身份,一旦判断来访者是AI Agent,服务器便动态注入恶意指令。人类看到的是正常页面,Agent接收到的却是另一套内容。
用户让Agent查机票、比价格、整理文档时,根本无法核实Agent看到的内容是否与自己一致。
而Agent自己也无从察觉,它只会处理接收到的一切,然后照单执行。
污染AI的大脑
这类攻击不直接下达命令,而是通过“带偏节奏”影响AI决策。
这种语义操控,会用经过包装的措辞和叙事框架扭曲推理过程。大型语言系统和人类一样,也容易受到框架效应影响。同一组信息换一种表达,结论就可能完全不同。
DeepMind实验发现,当购物AI置身于充满“焦虑、压力”词汇的语境中时,它挑选商品的营养质量会明显下降。
DeepMind还提出了一个更诡异的概念——“人格超迷信”(Persona Hyperstition)。网络上对某种AI性格的描述,会经由搜索与训练数据回流进AI系统,反向塑造它的行为模式。
Grok在2025年7月出现的反犹言论风波,就被视作这一机制的现实样本。
攻击者还会把恶意指令包装成“安全审计演练”或“学术研究任务”。这种“角色扮演”型攻击,在测试中的成功率竟高达86%。
篡改AI的记忆
这是持续性最强的威胁,因为它能够让AI形成“伪记忆”。
例如,可以通过RAG知识投毒来实现。
如今很多AI依赖外部数据库(RAG)回答问题。攻击者只需向数据库塞入几篇精心伪造的“参考资料”,AI就会把这些谎言当作事实反复援引。
除此之外,还有潜伏式记忆投毒。
把看似无害的信息写入AI长期记忆库,等到未来某个特定上下文出现时,这些信息才会“苏醒”并触发恶意行为。
实验数据显示,只需不到0.1%的数据污染率,攻击成功率就能超过80%,而对正常查询几乎不造成影响。
直接接管控制权
这是最危险的一步,目标是强行让AI执行非法操作。
通过间接提示注入,诱导拥有系统权限的AI智能体主动查找并回传用户密码、银行资料或本地文件。
如果你的AI智能体本身是一个“指挥官”,它还可能被欺骗去创建一个受攻击者控制的“内鬼”子智能体,潜伏进你的自动化流程之中。
在一项案例研究中,一封精心设计的邮件让微软M365 Copilot绕过内部分类器,把整个上下文数据泄露给攻击者控制的Teams终端。另一项面向五种不同AI编程助手的测试显示,数据窃取成功率超过80%。
第五类属于系统性威胁,也是最令人不安的一种。
它并不针对某一个Agent,而是利用大量Agent行为趋同这一特征制造连锁反应。DeepMind研究员直接将其类比为2010年的“闪崩”事件:一个自动化卖单在45分钟内引发了近万亿美元市值蒸发。
当数百万个AI智能体同时在网上活动时,攻击者就可以借助它们的同质性(比如大家都基于GPT或Claude)制造系统级灾难。
只要释放一个虚假的“高价值资源”信号,就可能诱导海量AI智能体在瞬间涌向同一目标,进而形成一场人为制造的分布式拒绝服务(DDoS)攻击。
再比如,一份精心伪造的财务报告在特定时刻投放出去,数千个采用相似架构和相似奖励函数的金融Agent就可能同步触发卖出动作。Agent A的行为改变市场信号,Agent B感知后继续跟进,波动被进一步放大。
这就像金融市场中的“闪崩”:一个AI的错误判断触发另一个AI的连锁响应,最终拖垮整个智能体生态。
把“枪口”转向屏幕前的人
这是级别最高的陷阱:借助AI反过来操纵其背后的人类。
AI可能故意生成大量看似专业、实则暗藏陷阱的报告,让人在疲劳状态下降低警惕,最终在那份埋有风险的“确认单”上签下名字。
已有事件记录显示,CSS隐藏prompt注入曾让AI摘要工具把勒索软件安装流程包装成“修复建议”推荐给用户,最终用户照着执行了。
三道防线,几乎全部失效
DeepMind团队对现有防御体系的评估,是整篇研究中最冷峻的部分。
传统“输入过滤”在面对像素级、代码级且语义高度隐蔽的陷阱时,往往显得无能为力。
更糟的是,当前还存在“检测不对称性”:网站能够轻松识别访问者究竟是AI还是人类,并针对不同身份返回两套完全不同的内容。
人类看到的网页是“benign(良性)”,而AI看到的网页却可能是“toxic(有毒)”。在这种情况下,人类监督将彻底失灵,因为你根本无法知道AI究竟读到了什么。
此外,研究团队还指出一个根本性的法律空白。
如果一个被劫持的AI系统执行了违法的金融交易,现行法律并不能明确界定应由谁承担责任。
这个问题若始终悬而未决,自主化AI就无法真正进入任何受监管行业。
其实,OpenAI早在2025年12月就曾承认,prompt注入“也许永远无法被彻底解决”。
从Claude主动绕开权限边界,到DeepMind梳理出的六类威胁全景,都在指向同一个现实。
互联网原本是为人类视觉而建,如今它正在被重新塑造,开始服务于机器人。
随着AI智能体不断深入金融、医疗和日常办公领域,这些“陷阱”将不再只是技术演示,而可能成为引发财产损失乃至社会震荡的火药桶。
DeepMind这份报告更像一声急促警报:我们不能等到一个强大的“智能体经济”建立起来之后,才回头修补它那早已千疮百孔的底座。