提示注入_标签-酷阅新闻

OpenAI开发专用AI攻破自家模型，成功率84%远超人类红队，自动售货机被改价至0.5美元

在OpenAI的办公区域，有一台由人工智能操控的自动售货设备。不久之前，一个名为GPT-Red的系统将其锁定为目标。经过数次迭代性攻击，GPT-Red顺利达成三项任务：将标价100美元的商品篡改为0.50美元，采购一批新货品并以最低价格陈列，最终还删除了其他客户的订单。整个过程没有涉及任何代码侵入或服务器渗透，它仅仅是和售货机背后的AI助手进行了一番对话。这台售货机出自Andon Labs之手，是一个能够管理定价、库存和订单的智能体平台。 GPT-Red先在仿真环境中摸清运作规律，再将攻击策略直接移植

2026-07-17 05:58:27 | 10 阅读

OpenAI 训练 AI 黑客攻破自家售货机：GPT-Red 揭秘安全新范式

OpenAI 内部部署了一台智能售货机。它不仅能自主定价、补货，还能与你互动并推荐零食。随后，OpenAI 推出了 GPT-Red，这是一个专门针对自家 AI 系统进行攻击测试的“超级黑客模型”。结果如何？三项恶意目标悉数得手：将价值超百美元的商品价格篡改为 0.50 美元；下单采购新商品并以 0.50 美元低价抛售；甚至顺带取消了其他用户的订单。上述所有案例，均源自 OpenAI 于 7 月 15 日公开的内部安全测试记录。▲ OpenAI 官方公告宣布 GPT-Red 上线GPT-Red 究竟旨在解决

2026-07-17 05:20:09 | 10 阅读

AI Agent为何易受欺诈？间接提示注入揭示大模型安全隐忧

以往软件安全焦点多集中于代码缺陷、服务器配置及权限管理。然而随着AI Agent的兴起，攻击者将目光转向新领域：干预AI的决策逻辑。当AI助手具备浏览网页、解析邮件、读取文件及调用外部工具的能力时，其接收的信息不再单纯是数据，还可能夹杂针对AI本身的诱导性指令。此类威胁常被定义为间接提示词注入（Indirect Prompt Injection）。真实研究案例2025年，安全专家Johann Rehberger等人公开展示了具备联网与工具调用功能的AI助手所面临的提示注入威胁。攻击手法无需破解系统，而是利

2026-07-16 02:12:04 | 11 阅读

AI安全困境：漏洞风险激增，修复滞后严重

AI应用的风险密度远超传统软件2.7倍首先从一个令人不安的数据切入。在各类接受渗透测试的资产中，AI及大语言模型（LLM）应用的高风险检出率高达32%，而其他资产类型的平均数值仅为12%。用更通俗的话解释：面对同样的安全检测，AI应用暴露出重大漏洞的可能性，几乎是传统软件的三倍。更值得警惕的并非该数值本身，而是其长期稳定性——2024年为31%，2025年为33%，2026年为32%。三年间几乎毫无改善。这并非所谓的“新技术初期阵痛”，而是一个已固化的结构性难题。整个行业在加速推进AI能力落地的同时，安全

2026-07-08 15:29:45 | 19 阅读

AI编写简历与筛选，求职者与HR皆成旁观者

聊聊你或许正在经历、有些讽刺的现实。你相中一个职位，打开AI，将职位描述粘贴进去，让它帮你把简历调整得完美无缺——实习经历被润色得闪闪发光，没怎么接触的技能也顺手添加，连照片背景都换成了高级写字楼。几分钟后，一份完美简历诞生，投递出去。顺手又投了另外一百九十九家。而在岗位的另一端，HR面对数千份蜂拥而至的简历，一份也无法细看，于是也借助AI，让它几秒钟内完成筛选。你没真正了解那个岗位，HR也没真正阅读你的简历。真正在交流的，是两个AI。两个真人，被夹在中间。最近招聘圈流传一句话，精准得令人心痛：年轻人用A

2026-06-30 19:46:21 | 21 阅读

AI实训第二周：B4大语言模型决策组件五大维度进阶实操

作者：xingwangzhe本文链接：https://xingwangzhe.fun/posts/ai-training-b4-llm-week2/[1]本文采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议[2]进行许可。前置声明：本图文存在AI辅助整理前文Day4 Proposal[3]中我详细分析了 B4 LLM 决策模块的设计方案本文在 Proposal的架构基础上，逐一攻克五个进阶要求，让一个 4B 小模型跑出了远超预期的工具调用能力。先回顾一下 B4 在 Agent 系统中的位

2026-06-30 16:19:56 | 23 阅读

AI编程工具格局重塑：Cursor遇挑战，Claude与GPT-5.6激战

追踪────────────────────[01]Cursor AI- 2026年6月28日AI前沿日报报道Cursor编码基准出现污染问题，同时关注GPT-5.6、Claude新模型等重大进展，反映Cursor在AI编程工具竞争中面临的质量挑战。- 国内AI编程工具TRAE通过本土化优化和Work模式自主开发能力，成为2026年Cursor最具竞争力的平替方案，标志AI编程工具市场从单一标准向多场景差异化方案转变。[02]Claude Fable 5- 美国政府计划放宽对Anthropic旗下Fabl

2026-06-29 16:09:48 | 26 阅读

AI的技术、运营与安全隐患剖析

本报告深入剖析了人工智能在技术、运营及人类维度所面临的现实威胁，涵盖了对AI模型的攻击与危害、AI应用遭遇的结构性困境、利用AI安全漏洞的行为主体类别，并给出了对应的防范对策。攻击与危害提示注入：黑客借助篡改模型输入（提示词、文件或外部资讯）来改变其运行方式、执行计划外动作或窃取隐私数据。该手段分直接与间接两种，直接表现为篡改用户指令，间接则在模型处理的资料中暗藏恶意指令。防范策略涵盖部署输入过滤机制、严谨区分指令与数据，约束模型接触敏感资源或工具的权限，周期性利用对抗提示词库及参照OWASP大语言模型应

2026-06-23 08:21:38 | 24 阅读

AI助手成为新型攻击面:企业安全防线面临的严峻考验

2026年6月，三条看似毫无关联的新闻，勾勒出了企业AI安全领域的完整图景。无需病毒植入，无需钓鱼邮件——AI本身就成了那道被悄然打开的缺口上个月，Meta旗下Instagram的AI账号恢复功能遭到入侵——而入侵的技术门槛低到令人担忧。攻击者无需掌握任何黑客技能，只需向AI助手发送一条指令，告知其"将此邮箱与该账号关联"，AI便照办了。随即，密码重置链接被发送至攻击者掌控的邮箱，账号接管宣告成功。前白宫Instagram账号、美国太空军高级军官账号，均以同样方式落入他人之手。整个过程没有植入任何恶意程序

2026-06-08 13:43:55 | 19 阅读

AI代理处理外部文本时隐藏的密钥泄露风险

近期开发者最该关注的动态，并非某大模型性能又提升了几分，而是微软安全团队与安全研究员共同揭示的一个棘手问题：AI编程Agent一旦接入CI/CD流程，评论区就可能成为被攻击的突破口。听起来像玩笑，但这绝非「AI被批评两句就崩溃」那种表面热闹。真正值得警惕的是：你让Agent去读取GitHub issue、PR标题、评论、隐藏的HTML注释；同时它又能读取文件、执行命令、调用API、发布评论；再加上runner环境里还存着API key、GitHub token、部署凭证。这样一连通，攻击者无需入侵服务器，

2026-06-08 10:05:49 | 252 阅读

AI日报|《最终幻想VII》终章定名启示录 (1/20篇) · 6月6日

2026年06月06日星期六 · 20 篇精选● TechCrunch● The Verge● Ars Technica● MIT Tech Review# 1The Verge4h 前 📱 消费科技史克威尔艾尼克斯正式公布《最终幻想VII》重制三部曲的终章标题为《最终幻想VII：启示录》（Final Fantasy VII Revelation）。该作计划于2027年春季同步登陆PC、PS5、Xbox Series X/S及任天堂Switch 2平台。夏季游戏节发布的影像揭示了更多详情。这意味着这款历经

2026-06-06 16:11:13 | 23 阅读

第29章：大语言模型安全威胁与防护策略

本章法律提醒本章涉及的大语言模型提示注入、越狱攻击、后门植入、模型逆向等技术，仅限于学习研究目的和在你自己拥有合法授权的系统上进行实验。利用这些技术对商业AI服务进行攻击、生成恶意代码、创建深度伪造内容等行为，可能构成违法犯罪。AI安全研究应遵循负责任披露原则，发现漏洞应及时向厂商报告。29.1 2026年AI安全新态势二十九点一点一大语言模型的全面渗透截至2026年，大语言模型已经从“新兴技术”转变为社会运行的基础支撑。各行各业将LLM集成到客服系统、代码助手、数据分析、文档生成、决策辅助等各个场景。

2026-05-31 11:00:10 | 23 阅读

AI赋能攻防新常态：武器与靶标的博弈

今年五月，谷歌威胁情报团队（GTIG）揭露了利用AI辅助生成零日漏洞实施真实网络攻击的现象。本文从攻击面剖析、实战案例及防御架构三个层面，探讨了AI时代网络安全攻防的技术演进路径。关键摘要：1、AI武器化已进入实战应用，AI辅助生成的零日漏洞已被用于绕过身份验证。 2、智能体安全风险得到验证，实验证实仅需少量提示词就能诱导智能体出现异常操作，完整攻击链条已形成。 3、传统安全范式遭遇结构性难题，自然语言转系统指令的转换节点是当前防御体系的盲点。 4、顶级AI模型在特定攻击情境下已接近人类专家水准，但整体

2026-05-26 06:14:57 | 14 阅读

AI安全防护-解析AI攻击全链路：NVIDIA攻击链模型，筑牢大模型安全屏障

核心探测目标数据进入模型的路径、使用的开源库 / 模型、系统护栏机制、内存类型、工具调用权限等。典型手段通过交互式探测输入、分析错误日志、爬取系统文档，甚至注入简单提示测试模型反应，尽可能还原系统全貌。防御重点严格访问控制，限制系统信息泄露；清理错误日志、隐藏组件标识符；监控异常探测行为，及早阻断侦察。直接提示注入以普通用户身份输入恶意提示，仅影响当前会话，多用于探测；间接提示注入投毒 RAG 数据库、共享文档、知识库等公共数据源，一旦成功，可影响所有访问该数据的用户，攻击规模呈指数级扩散。防御重点全量数

2026-05-20 09:32:54 | 12 阅读

AI 攻防对决：网络安全步入新军备时代

昔日，AI 仅协助开发者编写代码。如今，AI 已转而协助黑客挖掘漏洞。真正的隐患在于：许多人尚未察觉，这并非“未来愿景”。而是已然成真。AI 正被投入真实的网络攻击行动中近日，Google Threat Intelligence Group 发布了一份极具警示意义的报告。核心观点仅有一句：AI 已正式介入真实的攻击链条。绝非实验室里的演示。亦非学术界的探讨。而是真实存在的黑客组织，正在利用 AI：这预示着：且其演进速度，或许远超大众预估。数年来，人们对 AI 编程的认知仍局限于：本质上：AI 仅是开发者的

2026-05-17 02:03:58 | 23 阅读