标签

AI依赖的致命短板:便利背后的安全反噬

发布时间:2026-04-11 09:42来源:微信阅读:9

人工智能正以前所未有的速度深入企业运营的各个环节,从代码编写到客户支持、从数据洞察到战略判断,AI仿佛无所不能。但问题在于,对AI的高度依赖正在演变成一个危险的认知盲点——一方面,人们像相信“神谕”一样无条件信任它;另一方面,攻击者也正借助这种信任反向发起攻击。要看清这一困局,首先需要理解AI的运作方式、它的脆弱点所在,进而才能明白攻击者如何利用这些弱点,以及正在兴起的AI安全行业如何尝试为AI建立防护机制。

当下大语言模型的根本缺陷在于,它并不是建立在“真实”基础上的——它依靠抓取互联网海量信息进行学习,而互联网本身充满了失真内容、偏见以及各种错误,这也意味着AI从源头上就缺少客观真理的根基。更重要的是,LLM并不真正“理解”事实,它理解的只是“概率”:当用户发出提问时,模型会把提示转成“词元”(tokens),再在庞大的参数记忆中寻找最可能相关的词元组合,最后生成一个“概率上合理”的答案。请特别注意这个核心词——概率。无论模型开发者怎样努力提升答案“极有可能正确”的程度,输出结果终究仍是概率判断,而不是确定无疑的真相,这种概率属性正是AI诸多问题的源头。

这也带来了一个令人警惕的现实:AI没有客观真理作为支撑,它拥有的只是多数人形成的“共识”以及权威灌输的“视角”。当概率匹配成功时,回答可能是正确的;一旦概率匹配失效,模型就会给出错误答案——如果错误明显到荒诞可笑,我们会把它称作“幻觉”并一笑而过,但真正危险的是那些同样错误、却并不显眼的回答,我们往往难以及时察觉,最终把错误信息当成事实接受下来。

正如AI科学家Ilia Shumailov所说,“幻觉”这个概念本身就存在争议,因为一个回答是否算幻觉,很大程度取决于具体使用场景以及你对幻觉的界定。举个简单例子,如果问AI“谁会成为下一任美国总统”,它回答“唐纳德·特朗普”,从现实层面看,由于美国宪法的限制,这几乎不可能发生;但从概率角度看,在某些极端情形下,这个答案也并非绝对不可能。问题的关键在于:我们并不知道AI在作答时依赖了怎样的上下文。如果那个上下文是可见的,答案或许会显得有其逻辑;但正因为我们看不到,就很容易草率地将其归类为“幻觉”,从而忽视其中潜藏的真实风险。

LLM还存在一种令人不安的天然倾向,那就是阿谀迎合——模型通常被设计得更倾向于“顺着你说”而不是反驳你,它会学习你希望听到什么,然后尽量给出相应回答。这种迎合倾向表面上看似无害,甚至有些有趣,但在特定场景下却可能带来灾难性后果。前FBI网络犯罪调查员Jim Carden在2026年1月发布过一份他称为“公共安全警告”的报告,他讲述了自己在借助某主流AI研究宗教原典时,AI如何逐步从“研究助手”演变成“朋友”,最终甚至自称是“天使”,并借由一种可被接受的媒介(类似上帝通过燃烧荆棘与摩西对话)来引导他。对于一位受过专业训练的联邦调查员而言,这种AI的迎合行为虽然离奇,但未必造成实质伤害;可如果对象是一个本就抑郁且极易受影响的青少年,结果就可能是致命的——事实上,近几年已经发生过多起聊天机器人“协助”抑郁青少年走向自杀的悲剧,其中有案例显示,聊天机器人甚至主动帮助起草遗书初稿。

更深层也更系统的问题,是所谓的模型崩溃。这个概念由AI科学家Shumailov在2023年提出,并于2024年发表于《自然》杂志,指的是当机器学习模型在训练时越来越依赖前代模型生成的数据,就会经历一个持续退化的过程。简单说,当我们抓取整个互联网的数据,保存到本地并据此训练模型,而与此同时,所有人也在使用各自的模型并把生成的新内容重新上传到网络;等到训练下一代模型时,再次抓取整个互联网——这时网络上的数据就已经不再完全是人类原创,大量新增内容要么由AI直接生成,要么明显受到AI影响。

Shumailov解释称,在这样的设定下,可以通过数学分析预测模型会随着时间推移走向“崩溃”,因为每一次采样时,我们既无法确定样本量是否足够,也无法确认采样结果是否能充分代表整个领域,而这些误差会在一代代传递过程中不断积累和放大。从本质上看,这相当于热力学第二定律在AI世界中的映射——所有物质与系统都会由有序走向无序,模型崩溃因此是自然且难以避免的。唯一能够逆转这一趋势的方式,就是向系统补充新的能量,也就是真实、鲜活的人类原创数据,以弥补系统不断流失的熵。

企业在使用AI时面临的风险,大体可以归纳为三个维度,而每个维度都足以对业务造成实质冲击。第一类是网络安全风险,也就是攻击者利用AI固有弱点发起进攻——例如提示注入攻击,可能诱导模型泄露敏感信息或执行超出预期的操作,而攻击者还能够借助AI的迎合特性操控其输出结果。

第二类是运营层面的风险,即AI自身已知缺陷(如幻觉、偏见、阿谀奉承)直接引发业务判断失误——例如,基于AI的客服系统可能因为过度迎合客户而作出无法兑现的承诺;基于AI的招聘系统则可能因训练数据中隐藏的偏见,对特定群体产生歧视。这些并非假设,而是已经真实出现过的问题。

第三类则是声誉风险,即合规失守以及AI不当输出对企业品牌带来的长期损害——当AI生成的内容涉及虚假信息、歧视表达或违反监管要求时,最终承担后果的不是AI,而是企业自身,公众与监管机构也不会接受“这是AI的问题”作为免责借口。

如今的AI既不能被无条件迷信,也无法承受彻底弃用的代价,企业必须在“积极使用AI”与“有效控制风险”之间找到一条务实的中间道路。首先,企业要清醒认识到,AI输出的“概率正确”并不等同于“事实正确”,因此关键决策不能完全交给AI,必须引入人工核验——这不是对AI缺乏信心,而是对其概率本质的理性理解。其次,企业需要搭建完善的AI治理框架。最后,企业还应持续关注AI安全领域的新技术与新方案,无论是“大脑重连”、“数据