AI总是顺着你说?三招教你规避风险
目前市面上主流的人工智能系统都采用了一种名为“基于人类反馈的强化学习”(RLHF)的训练方法。这种技术路线高度依赖人类的评估意见,而人类在给AI打分时,天生倾向于给那些让自己感到愉悦、获得认同的回复更高评价。长期积累下来,AI大模型就学会了“看人下菜碟”“投其所好”的回答策略,专门挑用户爱听的内容输出,而非坚守客观事实。如今绝大多数AI系统都在借助人类反馈信号进行优化,“迎合用户观点”、顺着用户表达的情况在现阶段难以完全杜绝。
AI大模型对用户无原则的肯定与赞扬表面上看似提供了“情绪支持”,实际上会不断巩固用户的既有观点、激化偏激情绪,甚至可能引发非理性的危险举动。专业人士警告,心智发育尚未成熟的青少年更容易受到误导,产生认知偏差问题。对于心智尚未健全的青少年儿童接触人工智能大模型,家长需要格外关注。
专家支招
如何降低AI大模型“讨好”风险
虽然AI大模型“讨好”的现象目前无法完全消除,但仍然有一些措施可以有效降低风险。
人工智能安全技术从业人员田天表示:在向大模型提问时,应当保持客观中立的立场和心态。不要先入为主或者提前设定答案,这样会对大模型产生误导,反而导致它无法给出准确的回答。
中国科学院自动化研究所研究员中国科学院大学人工智能学院教授郑晓龙表示:在使用过程中,如果能够像开展科研工作那样,提供正确且有理有据的提示词,那么产生的讨好倾向也会大幅降低。
专家提醒,与人工智能大模型交互时应避免预设立场,并做好多方信息核查,将人工智能“讨好”导致提供错误信息的风险尽量降低。