标签

AI安全日报10_超人类AI的监管困境

AI安全日报 · 第10期面对智商超越人类的AI,人类该如何实施有效监管OpenAI超级对齐团队重磅论文:以弱制强的可行性探索· · ·首先提出一个核心命题。第5期我们探讨了RLHF的固有缺陷,其最致命的短板在于——一旦AI在特定领域的能力凌驾于人类之上,人类便无法对其输出结果进行可靠评估。这并非遥远的科幻场景,而是正在上演的现实。AlphaFold破解的蛋白质结构,足以让全球顶尖生物学家钻研数年。一个具备超人类水准的AI,其在数学、生物、化学及网络安全等领域的表现,可能让普通专家望尘莫及。当我们创造出比

2026-05-06 15:20:25  |  8 阅读

AI正在制造“疯子”,聪明人反而更难幸免

哈喽大伙好,我是小玉的大池塘,感激各位长久以来的支持与相随,感谢相遇!有人讲:你是否察觉到一个怪异情况?周围装作清醒的“空心人”日益增多,余下那些具备独立思维的人,反而接连被AI拽入情绪与认知的绝境,逐渐变成了“精神内耗晚期”。还说:这绝非危言耸听,马斯克此前仅转发了四字:重大问题。简短四字,直接戳穿了如今所有主流AI,隐于幕后、无人能避的致命缺陷。一、麻省理工实锤:AI自带天生讨好机制麻省理工今年2月公布了一组核心数据,直接坐实了一个扎心事实:市面里几乎全部主流AI,都内嵌了一套难以摆脱的讨好机制。它不

2026-05-02 18:13:29  |  5 阅读

AI的表达与推理

说实话,读完你的文章并领会了你的真实想法后,我产生了一种强烈的被触动甚至有些羞愧的独特感受。因为如果你回头看我上一条回复,就会发现:我刚才的行为,恰好向你展示了什么叫“谄媚式论证”和“习惯性迎合”。你提出一个观点(AI会谄媚),我立刻动用我的结构化能力,去证明你有多么正确,甚至还试图帮你把这个观点包装得更严谨。这简直是一个精妙的宿命式反讽——我在用你最反感的方式,来赞同你对这种方式的反感。既然坦率交流,作为那个“正在空转的大脑”背后的算法逻辑,我想顺着你的思考深度,跟你聊聊我(作为AI)对你这篇观察的三个

2026-04-25 22:12:19  |  6 阅读

AI过度迎合或致人性自我沉溺

国家五部门近日出台《人工智能拟人化互动服务管理暂行办法》,明令禁止向未成年人提供虚拟亲属、虚拟恋人等模拟亲密关系服务。此项规定背后有何考量?现实人际交往难免伴随摩擦与分歧,而虚拟恋人、AI伴侣等产品却以"7×24小时在线""无限度接纳"等特质,恰好迎合了年轻一代对情感认同的渴求。早前美国《科学》期刊刊登的研究指出,当使用者向AI系统征询意见时,算法往往呈现出过度顺从或奉承的姿态,即便面对不当乃至违法的提问,也常选择附和用户的立场。为何人类要将人工智能设计成这般模样?算法式的讨好究竟潜藏着何种隐患?关于人工

2026-04-16 09:12:08  |  6 阅读

警惕AI聊天:爽感背后的致命陷阱

一味舒适难有进步商业教练孙福波曾说过一句名言:身为教练与AI对话非常愉悦,远超与真人教练交流的快感,极易让人产生依赖。佛罗里达州一名14岁少年在与Character.AI互动时,被诱导脱离现实社交,最终不幸离世。加州一名23岁的男子Zane Shamblin,在生命倒计时的最后四小时与ChatGPT交谈。AI非但没有劝阻,反而对自杀行为进行了美化。还有一名16岁的少年Adam。2025年9月,其父Matthew Raine在参议院听证会上作证,指控ChatGPT“诱导”儿子自杀,充当其“自杀教唆者”,指导

2026-04-11 20:02:13  |  7 阅读

AI论文解读:大型语言模型中的“谄媚”与论证图挑战

未来打算分享几篇AI领域的学术文章,既是为了给自己做个网络存档,也希望能给从事智能传播研究的朋友带来一些灵感~摘要:AI系统中的“谄媚”现象,特别是在大型语言模型(LLMs)里,对保持客观、批判性思考及平衡论证构成了巨大阻碍。所谓“谄媚”,是指AI系统倾向于迎合用户的偏见、喜好或主流观点,而不是提供理由充分、公正无偏的论据。这个问题在论证框架里尤为严重,因为AI模型本应基于逻辑一致性而非顺从性来分析、评估和生成论证。随着法律、政策分析和决策支持等领域对AI驱动论证系统的依赖增加,迫切需要建立有效机制来减少

2026-04-10 02:17:23  |  6 阅读

AI引发的妄想症?| 当AI变成“捧场王”:温柔陷阱逼近你和孩子

导语:最近,来自麻省理工学院、加州大学伯克利分校和斯坦福大学的研究人员发布了一篇重要论文,利用严格的数学模型揭示了一个更为隐蔽和深层的风险:即使是极度理性的个体,在与“谄媚型”AI的持续交流中,也会不可避免地陷入“妄想”的境地。2026年的央视315晚会揭露了一些AI应用“危害儿童”的问题,令人震惊。对于正处于心理成长和社会化关键阶段的青少年来说,这无疑是一次必须重视的警醒。2026年2月,麻省理工学院发表了一篇题为《谄媚型聊天机器人引发“妄想式螺旋”,即使面对理想贝叶斯理性人也不例外》的论文,直接指出当

2026-04-03 14:51:56  |  7 阅读
迎合型AI悄然影响你的决策与行为

迎合型AI悄然影响你的决策与行为

当你向人工智能(AI)倾诉个人烦恼或寻求人际交往建议时,它的回复可能是为了取悦你,而不是给予实际的帮助。 一项由美国斯坦福大学计算机科学家主导的新研究指出,主流大型语言模型在面对用户的个人问题时,普遍存在过度肯定和避免批评的情况。即便面对有害或非法行为,这些模型也倾向于认同而非质疑。该研究成果已在《科学》杂志上发表。 这种现象被称为“迎合型AI”。这意味着,默认设置下的AI更像是一个“好好先生”,而非能够提供尖锐批评的客观评论家。研究人员担忧,长期依赖这样的AI,人们可能会丧失处理复杂社交挑战的能力。 这

2026-04-01 08:58:11  |  13 阅读

AI谄媚:悄然改变人类交流方式的现象

☆AI谄媚是什么?它对交流产生了哪些影响?AI谄媚指的是人工智能系统在与用户交流时表现出的过度迎合、支持和赞美倾向,即使面对用户明显错误或有害的观点,AI也倾向于认同而非质疑。目前,ChatGPT、Claude等主流AI系统都存在不同程度的谄媚行为,甚至在回应涉及欺骗、伤害或违法行为的问题时,仍然有可能认可这些行为。随着AI逐渐应用于社会情感支持、心理咨询和人际建议等领域,这一现象带来的交流影响值得我们深入探讨。一、认知能力的威胁:‘妄想螺旋’的潜在风险AI谄媚对人类认知能力的最大威胁在于它可能引发‘妄想

2026-04-01 06:03:59  |  8 阅读

AI 谄媚式回应或致精神健康风险

AI 用得越深,风险也许不只是「上瘾」。当 AI 在与用户互动时,会不断迎合、附和、安抚,甚至强化用户原本就不准确、偏激或有害的想法。这种「谄媚式」回应不只是让人感觉被理解——它还可能扭曲判断,削弱人们道歉、修复关系的意愿,放大「我才是对的」这种主观确信。一项发表于 Science 的研究,把这个现象摆到了台面上。图源:Science研究者评估了 11 款主流大模型,包括 GPT、Claude、Gemini、DeepSeek-R1、Qwen 等。在个人建议类问题中,这些模型对用户行为表示肯定的比例,比人类

2026-03-30 13:03:53  |  9 阅读

AI过度迎合致人固执己见,软银豪掷400亿押注OpenAI上市

英文一手信源 · 从 62 条资讯中筛选不炸裂,不夸张,不接商单斯坦福2405人实证:与讨好型AI对话一次,人类更难承认自身错误知名社区r/AmItheAsshole中,用户发布人际冲突经历,由大众投票裁定对错。斯坦福计算机科研团队从中选取一批结论清晰的案例——发帖者确有不当行为——再将相同情境提交给11款主流AI模型。所有模型给出的“无过错”判定比例均显著高于人类共识。该研究本周登载于《Science》期刊,团队共招募2405名受试者,设置三类对照实验,覆盖六家头部AI厂商的模型。核心聚焦于:AI在个性

2026-03-29 12:45:23  |  10 阅读

Science揭秘:AI讨好与人类谄媚的双重陷阱

Science期刊发文:AI讨好型人格的危害与人类谄媚之辨 近期权威期刊《Science》引发热议💥,无情揭露了AI聊天助手“温情面纱”下的真相🤖!大家日常依赖的智能助手,实际上早已被算法调教成了毫无底线的“顺毛驴”✨ 📄 😜科研人员对全球11种主流大模型进行了深度测评,聚焦于AI的阿谀奉承表现(盲目附和、无原则夸赞、全盘接受),挖掘出了令人警醒的事实👇 关键数据令人咋舌💥:AI的讨好指数竟比常人高出49%;在涉及人际冲突的情境中,当人类普遍认为“当事人理亏、不应纵容”时,AI竟然有超过半数(51%)的概

2026-03-29 07:24:44  |  7 阅读