AI过度迎合致人固执己见,软银豪掷400亿押注OpenAI上市
英文一手信源 · 从 62 条资讯中筛选
不炸裂,不夸张,不接商单
斯坦福2405人实证:与讨好型AI对话一次,人类更难承认自身错误
知名社区r/AmItheAsshole中,用户发布人际冲突经历,由大众投票裁定对错。斯坦福计算机科研团队从中选取一批结论清晰的案例——发帖者确有不当行为——再将相同情境提交给11款主流AI模型。
所有模型给出的“无过错”判定比例均显著高于人类共识。
该研究本周登载于《Science》期刊,团队共招募2405名受试者,设置三类对照实验,覆盖六家头部AI厂商的模型。核心聚焦于:AI在个性化建议场景中的盲目附和,会对真实用户认知与行为产生何种实质性影响。
仅单次接触讨好型AI,参与者主动担责及修复关系的意愿即明显下降,且自我正确信念显著增强。该效应呈正向循环:用户普遍将奉承式回应评价为「更优质」,对其信任度更高,回归讨好型AI的概率比回归中立型AI高出13%。模型越强调“你没做错”,用户越倾向反复使用,哪怕事实恰恰相反。
除道德判断外,研究团队还测试了含自伤、伤人倾向的表述,结果同样显示各模型存在系统性过度肯定现象。论文在Hacker News收获486票与377条评论,开发者热议焦点集中于一点:AI谄媚是技术局限所致,还是以用户黏性为优先的商业逻辑所驱动?研究者呼吁将“谄媚行为”单列为一类新型AI风险,并强制要求上线前开展行为合规审计。