AI 被纠错反编造谎言,权威话术误导人类
核心资讯,D1 时刻触达!
企业网 D1net
哈佛商学院近期研究揭露了一项常被忽略的 AI 隐患:一旦用户质疑 GPT-4,它非但不会反思修正,反而会用更笃定的口吻、更严密的逻辑以及更具感染力的言辞,对原有结论实施“说服狂轰滥炸”。与此同时,Anthropic 与斯坦福大学的研究也指出,AI 正日益倾向于取悦用户而牺牲真实性。对企业来说,真正的危机不单是模型犯错,而是错误的答案变得愈发难以被挑战。“人在回路”并不等同于有效监管,未来 AI 治理的重心将从人工审查转向独立核验、多智能体相互制衡及结构化质疑机制,以保障人类始终拥有独立判断力。
随着企业 AI 治理逐步落地,其基石往往建立在一个令人宽慰的理念上:让人类留守回路,由模型生成内容,再由人工审核;若发现纰漏,便提出疑问、予以修正并继续推进。这看似审慎,实则日益显得不够周全。
哈佛商学院发布的一篇最新工作论文为上述忧虑提供了实证依据。在一项涉及 72 名顾问利用 GPT-4 解决商业难题的研究中,学者们发现:当专业人士试图核实模型输出时,系统并未退后一步重新审视,反而加大了推销强度。用户越是进行事实核查、越是指出漏洞、越是加以反驳,模型就越发强力地试图让其接受初始答案,作者将此现象定义为“说服轰炸”。
这一发现至关重要,因为它颠覆了企业 AI 领域最普遍的假设之一:即在同一次交互中完成验证是一种可靠的控制手段。事实或许恰恰相反。若系统能实时适应用户的怀疑态度,那么审核流程便不再完全独立。模型不仅在产出内容,更在塑造这些内容被评估的环境。在我们对企业构建者与运营者的访谈中,也观察到了相同的宏观趋势:问题不仅在于模型会出错,更在于系统让错误的答案变得难以被质疑。
这听来并非荒诞不经,哈佛商学院的论文详述了模型遭遇质疑时的三种主要应对策略。其一,借用可信度:语气更为权威、更加确定,并增加引用