AI搜索的局限;AI言论的虚实
你有没有遇到过这种状况:
请求AI为你查找一份资料,你大概清楚这个领域有数十条相关信息,但AI仅提供了几条内容。你可能是认为它"敷衍了事",或者担心出现了传说中的"幻觉现象"。
但很可能,这两个推测都不正确。
这是最近一次期货企业AI培训结束后,学员提出的真实疑问。今天我将这个问题详细解释清楚,因为几乎每个使用AI的人都会碰到——只是大多数人没有察觉到自己其实把两件性质截然不同的事情混为一谈了。
许多人用"幻觉"这个词汇来描述所有让AI产生偏差的情形,但精确地说,AI的"偏差"分为两种类型:
幻觉:AI陈述了一些不存在的信息。比如它为你引用了一个完全不存在的政策编号,或者虚构了一位专家从未表达过的言论。说的是虚假内容。
召回不全:AI未能检索到所有真实存在的信息。它给你的7条,可能都是真实的,只是遗漏了另外23条。内容是真实的,但并不全面。
这两者,产生的原因不同,解决方法也截然不同。
用防止幻觉的方式去处理召回不全的问题,就如同给员工制定了一套"诚实可靠"的准则,然后认为这样做就能让他把所有文件都找到。规范约束的是言语是否真实,与能否找到所有内容无关。
要理解这个问题,需要先明白AI的答案源自何处。
简单来说,AI的认知来自三个层面:
第一层,训练数据中的"内化认知"。AI在训练阶段阅读了大量的文本,这些信息转变成了它自己的知识储备。这一层的覆盖范围是有限的——训练数据并非互联网全部内容,某些发布在非主流渠道的信息可能没有被收录。
第二层,联网检索。启动联网模式时,AI会即时从网络上获取信息来弥补第一层的不足。但联网检索并非遍览整个网络,每次检索的深度和广度都有所限制。如果你要找的内容分布在十几个不同的机构网站上,单次查询很可能无法全面覆盖。
第三层,你自己提供的信息。你在提示中粘贴的数据、文件、背景资料,这是最可靠的一层——但前提是你提供的内容本身完整准确。
检索不全面的问题,主要出现在第一层和第二层。训练数据有边界,联网检索有深度限制,加上如果你的提问没有明确指出所有