避免策略_标签-酷阅新闻

AI总是顺着你说？三招教你规避风险

目前市面上主流的人工智能系统都采用了一种名为“基于人类反馈的强化学习”（RLHF）的训练方法。这种技术路线高度依赖人类的评估意见，而人类在给AI打分时，天生倾向于给那些让自己感到愉悦、获得认同的回复更高评价。长期积累下来，AI大模型就学会了“看人下菜碟”“投其所好”的回答策略，专门挑用户爱听的内容输出，而非坚守客观事实。如今绝大多数AI系统都在借助人类反馈信号进行优化，“迎合用户观点”、顺着用户表达的情况在现阶段难以完全杜绝。AI大模型对用户无原则的肯定与赞扬表面上看似提供了“情绪支持”，实际上会不断巩固

2026-06-09 22:14:27 | 11 阅读