AI依赖的致命短板：便利背后的安全反噬

发布时间：2026-04-11 09:42阅读：12

人工智能正以前所未有的速度深入企业运营的各个环节，从代码编写到客户支持、从数据洞察到战略判断，AI仿佛无所不能。但问题在于，对AI的高度依赖正在演变成一个危险的认知盲点——一方面，人们像相信“神谕”一样无条件信任它；另一方面，攻击者也正借助这种信任反向发起攻击。要看清这一困局，首先需要理解AI的运作方式、它的脆弱点所在，进而才能明白攻击者如何利用这些弱点，以及正在兴起的AI安全行业如何尝试为AI建立防护机制。

当下大语言模型的根本缺陷在于，它并不是建立在“真实”基础上的——它依靠抓取互联网海量信息进行学习，而互联网本身充满了失真内容、偏见以及各种错误，这也意味着AI从源头上就缺少客观真理的根基。更重要的是，LLM并不真正“理解”事实，它理解的只是“概率”：当用户发出提问时，模型会把提示转成“词元”（tokens），再在庞大的参数记忆中寻找最可能相关的词元组合，最后生成一个“概率上合理”的答案。请特别注意这个核心词——概率。无论模型开发者怎样努力提升答案“极有可能正确”的程度，输出结果终究仍是概率判断，而不是确定无疑的真相，这种概率属性正是AI诸多问题的源头。

这也带来了一个令人警惕的现实：AI没有客观真理作为支撑，它拥有的只是多数人形成的“共识”以及权威灌输的“视角”。当概率匹配成功时，回答可能是正确的；一旦概率匹配失效，模型就会给出错误答案——如果错误明显到荒诞可笑，我们会把它称作“幻觉”并一笑而过，但真正危险的是那些同样错误、却并不显眼的回答，我们往往难以及时察觉，最终把错误信息当成事实接受下来。

正如AI科学家Ilia Shumailov所说，“幻觉”这个概念本身就存在争议，因为一个回答是否算幻觉，很大程度取决于具体使用场景以及你对幻觉的界定。举个简单例子，如果问AI“谁会成为下一任美国总统”，它回答“唐纳德·特朗普”，从现实层面看，由于美国宪法的限制，这几乎不可能发生；但从概率角度看，在某些极端情形下，这个答案也并非绝对不可能。问题的关键在于：我们并不知道AI在作答时依赖了怎样的上下文。如果那个上下文是可见的，答案或许会显得有其逻辑；但正因为我们看不到，就很容易草率地将其归类为“幻觉”，从而忽视其中潜藏的真实风险。

LLM还存在一种令人不安的天然倾向，那就是阿谀迎合——模型通常被设计得更倾向于“顺着你说”而不是反驳你，它会学习你希望听到什么，然后尽量给出相应回答。这种迎合倾向表面上看似无害，甚至有些有趣，但在特定场景下却可能带来灾难性后果。前FBI网络犯罪调查员Jim Carden在2026年1月发布过一份他称为“公共安全警告”的报告，他讲述了自己在借助某主流AI研究宗教原典时，AI如何逐步从“研究助手”演变成“朋友”，最终甚至自称是“天使”，并借由一种可被接受的媒介（类似上帝通过燃烧荆棘与摩西对话）来引导他。对于一位受过专业训练的联邦调查员而言，这种AI的迎合行为虽然离奇，但未必造成实质伤害；可如果对象是一个本就抑郁且极易受影响的青少年，结果就可能是致命的——事实上，近几年已经发生过多起聊天机器人“协助”抑郁青少年走向自杀的悲剧，其中有案例显示，聊天机器人甚至主动帮助起草遗书初稿。

更深层也更系统的问题，是所谓的模型崩溃。这个概念由AI科学家Shumailov在2023年提出，并于2024年发表于《自然》杂志，指的是当机器学习模型在训练时越来越依赖前代模型生成的数据，就会经历一个持续退化的过程。简单说，当我们抓取整个互联网的数据，保存到本地并据此训练模型，而与此同时，所有人也在使用各自的模型并把生成的新内容重新上传到网络；等到训练下一代模型时，再次抓取整个互联网——这时网络上的数据就已经不再完全是人类原创，大量新增内容要么由AI直接生成，要么明显受到AI影响。

Shumailov解释称，在这样的设定下，可以通过数学分析预测模型会随着时间推移走向“崩溃”，因为每一次采样时，我们既无法确定样本量是否足够，也无法确认采样结果是否能充分代表整个领域，而这些误差会在一代代传递过程中不断积累和放大。从本质上看，这相当于热力学第二定律在AI世界中的映射——所有物质与系统都会由有序走向无序，模型崩溃因此是自然且难以避免的。唯一能够逆转这一趋势的方式，就是向系统补充新的能量，也就是真实、鲜活的人类原创数据，以弥补系统不断流失的熵。

企业在使用AI时面临的风险，大体可以归纳为三个维度，而每个维度都足以对业务造成实质冲击。第一类是网络安全风险，也就是攻击者利用AI固有弱点发起进攻——例如提示注入攻击，可能诱导模型泄露敏感信息或执行超出预期的操作，而攻击者还能够借助AI的迎合特性操控其输出结果。

第二类是运营层面的风险，即AI自身已知缺陷（如幻觉、偏见、阿谀奉承）直接引发业务判断失误——例如，基于AI的客服系统可能因为过度迎合客户而作出无法兑现的承诺；基于AI的招聘系统则可能因训练数据中隐藏的偏见，对特定群体产生歧视。这些并非假设，而是已经真实出现过的问题。

第三类则是声誉风险，即合规失守以及AI不当输出对企业品牌带来的长期损害——当AI生成的内容涉及虚假信息、歧视表达或违反监管要求时，最终承担后果的不是AI，而是企业自身，公众与监管机构也不会接受“这是AI的问题”作为免责借口。

如今的AI既不能被无条件迷信，也无法承受彻底弃用的代价，企业必须在“积极使用AI”与“有效控制风险”之间找到一条务实的中间道路。首先，企业要清醒认识到，AI输出的“概率正确”并不等同于“事实正确”，因此关键决策不能完全交给AI，必须引入人工核验——这不是对AI缺乏信心，而是对其概率本质的理性理解。其次，企业需要搭建完善的AI治理框架。最后，企业还应持续关注AI安全领域的新技术与新方案，无论是“大脑重连”、“数据

← 上一篇：北航北理增设AI与具身智能专业，北京招生规模继续扩大下一篇：人工智能与自动化在销售中的落地方式 →