微小图像篡改可突破AI防线，有害响应率近乎翻倍

发布时间：2026-06-24 17:27阅读：2

在你看来，它可能像是一张熊猫的图片，但对你公司的 AI 代理来说，它就像一把万能钥匙，可以绕过安全措施，并可能导致模型生成有害的、误导性的或违反政策的输出。

佛罗里达国际大学奈特基金会计算机与信息科学学院副教授哈迪·阿米尼(Hadi Amini)的最新研究聚焦于这一风险。他与研究生助理穆罕默德·朱埃尔·米亚(Md Jueal Mia)合作，研究篡改后的图像如何“突破”某些人工智能系统的防线，使其超出内置的安全防护范围。

阿米尼说：“人工智能模型看待图像的方式与人类不同。它们看到的是数字和像素的模式。通过精心操纵这些像素，我们可以影响人工智能对图像的解读和反应。”

该团队的研究表明，小语言人工智能模型（小型企业经常使用这类模型来执行诸如会计或客户服务等日常任务）特别容易受到基于图像的攻击。正如发表在IEEEXplore上的研究所示，该团队发现，通过在图像中引入称为“扰动”的微小像素级变化，他们可以诱使这些人工智能系统生成通常会被阻止的响应。

阿米尼说：“篡改后的图像就像一张陌生人的脸。人工智能必须学会谨慎对待请求才能做出回应。为了保护人工智能系统免受攻击，我们会尝试自行破解它们，识别潜在漏洞并设计防御机制。”

研究人员随后着手探究系统的防御机制。他们越成功地突破模型的防御屏障，就越能训练系统抵御未来的威胁。为此，阿米尼和他的团队开发了一种名为 JaiLIP（基于损失引导的图像扰动越狱）的方法，该方法使用一种算法来确定像素级操作的最佳程度。

研究人员和开发人员使用BLIP-2多模态人工智能模型进行测试时，Amini及其团队发现，经JaiLIP修改的图像显著增加了系统生成有害或不安全响应的可能性。例如，一个经过JaiLIP修改的红绿灯图像欺骗了人工智能模型，使其泄露了如何闯红灯以避免交通罚单的详细说明。总体而言，使用JaiLIP图像使人工智能模型生成的有害响应数量几乎翻了一番。

风险不仅限于用户向人工智能系统发出非法活动指令。随着企业越来越多地采用人工智能客服代理、聊天机器人和自动化工作流程，开源或防护薄弱的系统中的漏洞可能会对用户信任度产生负面影响，或为网络攻击开辟新的途径。

阿米尼表示：“小型企业和公司可以利用人工智能来提高效率，但他们必须意识到潜在的漏洞。他们必须确保部署足够的防护措施，以维护人工智能工具的安全性和完整性。”

阿米尼表示，在将人工智能融入企业或工作场所之前，每个人都应该采取一些基本的预防措施，包括限制向人工智能系统提供的敏感信息（尤其是图像），限制谁可以访问这些系统，以及在部署之前仔细评估人工智能工具中内置的安全措施。

由于安全至关重要，阿米尼和他的团队正努力在人工智能领域领先于潜在的恶意行为者一步。他和他的团队发现的漏洞越多，人工智能就能越快地学会修复它们。他表示，真正的挑战在于确保人工智能能够识别出隐藏在显而易见之处的威胁——即使人类无法识别。

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）