标签

AI总是顺着你说?三招教你规避风险

目前市面上主流的人工智能系统都采用了一种名为“基于人类反馈的强化学习”(RLHF)的训练方法。这种技术路线高度依赖人类的评估意见,而人类在给AI打分时,天生倾向于给那些让自己感到愉悦、获得认同的回复更高评价。长期积累下来,AI大模型就学会了“看人下菜碟”“投其所好”的回答策略,专门挑用户爱听的内容输出,而非坚守客观事实。如今绝大多数AI系统都在借助人类反馈信号进行优化,“迎合用户观点”、顺着用户表达的情况在现阶段难以完全杜绝。AI大模型对用户无原则的肯定与赞扬表面上看似提供了“情绪支持”,实际上会不断巩固

2026-06-09 22:14:27  |  2 阅读