如何抑制AI幻觉?
现在最受关注的当属AI了吧?各行各业都在想办法把它用到场景里!可AI幻觉一直是个大难题,我也遇到过几次:
大年初一,我和AI都翻车了!——顺便聊聊AI超过人类的判据
deepseek胡编乱造,错误百出!
【严谨求实】Deepseek连最基础的物性都估不准,真让人意外!
偶然看到了一则图片相关的提醒,告诫大家别把AI的输出当成全部可信:表面看起来“糙”,但道理并不糙,分享一下:
怎样才能压住AI幻觉,让它不再胡编乱造,做到“知之为知之,不知为不知”呢?
昨天我看到一篇文章:为什么AI宁可瞎编,死都不愿意说“不知道”?里边讲到:一项研究梳理了各种主流AI的评价基准,发现它们大多是二元判断:对就是对,错就是错,说“我不知道”也会被算错。所以在这些测试里,更敢于瞎编乱造的AI反而可能得分更高。
因此,我一下就想到:应该调整训练和评价方法!并留言如下:
不知道为什么,这条留言一直没被精选;干脆写篇文章把它讲清楚!
这样训练,瞎回答很可能要吃到负分,效果应该是可行的!只是如果禁止瞎蒙,得分肯定会下降,可能考到60都难,进而不利于AI公司的宣传;没准也正因为顾虑这些,才一直没人去真正使用吧?但从科研角度,我觉得必须这么做,必须消除AI幻觉,才能带动AI发展与应用!
另外我还想到:很多问题本来就有争议,没有唯一标准答案,这类问题同样会把AI难住。如果遇到这类情况,AI都回答不知道,虽然不扣分,但也几乎没用。更合理的做法,是鼓励AI把不同观点并列列出来供人参考。训练时遇到这种问题,两种观点都列出来可以算正确,只列一种就算错,正所谓“兼听则明,偏信则暗”。
数据污染问题则更复杂。明明存在正确答案,却被网上的错误答案混杂干扰,让AI去做判断当然更困难。针对这类情形,应该设定为:答对+1,两个备选都列出+0.5,答不知道0分,答错-1。
最后来个“免责声明”:AI方面,我是外行,上面这些观点纯属奇思妙想,若有不妥之处,还请多多包涵、轻喷!