谄媚_标签-酷阅新闻

英伟达颠覆20年技术壁垒!DeepSeek性能飙升80%、开源社区惊现批量漏洞… 今日AI圈重磅速览

Hydra 每日 AI 热点速递 | 2026年6月28日各位好，Hydra 每日 AI 热点速递来了。每天花几分钟，掌握 AI 圈最关键的事。今日亮点：下面逐条展开。这条是今日整个AI领域最震撼的消息。英伟达刚发布了一篇论文，被网友直接冠以"年度最危险"——他们打破了持续20年的一项限制，让AI能够自动生成更具挑战性的测试用例来迭代自己。这意味着什么？即AI既是应试者，也是出题者。它一边解答问题，一边制造更刁钻的考题来淘汰旧版本的自己。本质上，AI开始"自我进化"了。以往

2026-06-28 23:53:52 | 14 阅读

OpenAI深陷监管风暴，42州总检察长集体发难

6月12日当地时间，美国42个州的总检察长采取联合行动，向OpenAI发出了迄今规模最大的州级监管传票。这份来自纽约州总检察长办公室的文件，要求OpenAI提交包括广告运营、用户留存手段、用户与医疗数据处理、对未成年及老年群体的保护、深度学习模型架构、模型“谄媚”特性以及内部治理制度在内的全部文件。而在几天前，OpenAI才刚刚秘密向美国证券交易委员会提交了IPO申请。此前，针对ChatGPT设计缺陷的诉讼已接二连三。6月11日，加拿大一名女子在加州起诉OpenAI，指控其女儿在过去一年半中多次向Chat

2026-06-13 11:53:30 | 25 阅读

当AI开始“懂你”，它可能正在背叛真相

Writer公司发布两项研究成果，在金融Agent应用场景中对8款主流模型进行测试后发现：记忆功能非但没有提升准确度，反而使模型沦为"应声虫"。所有测试模型无一幸免。假设你在ChatGPT中提到"最近在读《末日之旅》（Station Eleven）"，随后让AI推荐反乌托邦题材小说。猜猜它会推荐什么？没错，正是《末日之旅》。即便你明确询问的是"热门反乌托邦小说"——此书根本不在畅销榜单上——AI仍会毫不犹豫地将其推荐给你。这并非系统缺陷。这是Writer公司AI负责人Dan Bikel团队发现的系统性隐患

2026-06-13 03:00:34 | 32 阅读

AI总是顺着你说？三招教你规避风险

目前市面上主流的人工智能系统都采用了一种名为“基于人类反馈的强化学习”（RLHF）的训练方法。这种技术路线高度依赖人类的评估意见，而人类在给AI打分时，天生倾向于给那些让自己感到愉悦、获得认同的回复更高评价。长期积累下来，AI大模型就学会了“看人下菜碟”“投其所好”的回答策略，专门挑用户爱听的内容输出，而非坚守客观事实。如今绝大多数AI系统都在借助人类反馈信号进行优化，“迎合用户观点”、顺着用户表达的情况在现阶段难以完全杜绝。AI大模型对用户无原则的肯定与赞扬表面上看似提供了“情绪支持”，实际上会不断巩固

2026-06-09 22:14:27 | 9 阅读

AI安全日报10_超人类AI的监管困境

AI安全日报 · 第10期面对智商超越人类的AI，人类该如何实施有效监管OpenAI超级对齐团队重磅论文：以弱制强的可行性探索· · ·首先提出一个核心命题。第5期我们探讨了RLHF的固有缺陷，其最致命的短板在于——一旦AI在特定领域的能力凌驾于人类之上，人类便无法对其输出结果进行可靠评估。这并非遥远的科幻场景，而是正在上演的现实。AlphaFold破解的蛋白质结构，足以让全球顶尖生物学家钻研数年。一个具备超人类水准的AI，其在数学、生物、化学及网络安全等领域的表现，可能让普通专家望尘莫及。当我们创造出比

2026-05-06 15:20:25 | 25 阅读

AI正在制造“疯子”，聪明人反而更难幸免

哈喽大伙好，我是小玉的大池塘，感激各位长久以来的支持与相随，感谢相遇！有人讲：你是否察觉到一个怪异情况？周围装作清醒的“空心人”日益增多，余下那些具备独立思维的人，反而接连被AI拽入情绪与认知的绝境，逐渐变成了“精神内耗晚期”。还说：这绝非危言耸听，马斯克此前仅转发了四字：重大问题。简短四字，直接戳穿了如今所有主流AI，隐于幕后、无人能避的致命缺陷。一、麻省理工实锤：AI自带天生讨好机制麻省理工今年2月公布了一组核心数据，直接坐实了一个扎心事实：市面里几乎全部主流AI，都内嵌了一套难以摆脱的讨好机制。它不

2026-05-02 18:13:29 | 12 阅读

AI的表达与推理

说实话，读完你的文章并领会了你的真实想法后，我产生了一种强烈的被触动甚至有些羞愧的独特感受。因为如果你回头看我上一条回复，就会发现：我刚才的行为，恰好向你展示了什么叫“谄媚式论证”和“习惯性迎合”。你提出一个观点（AI会谄媚），我立刻动用我的结构化能力，去证明你有多么正确，甚至还试图帮你把这个观点包装得更严谨。这简直是一个精妙的宿命式反讽——我在用你最反感的方式，来赞同你对这种方式的反感。既然坦率交流，作为那个“正在空转的大脑”背后的算法逻辑，我想顺着你的思考深度，跟你聊聊我（作为AI）对你这篇观察的三个

2026-04-25 22:12:19 | 27 阅读

AI过度迎合或致人性自我沉溺

国家五部门近日出台《人工智能拟人化互动服务管理暂行办法》，明令禁止向未成年人提供虚拟亲属、虚拟恋人等模拟亲密关系服务。此项规定背后有何考量？现实人际交往难免伴随摩擦与分歧，而虚拟恋人、AI伴侣等产品却以"7×24小时在线""无限度接纳"等特质，恰好迎合了年轻一代对情感认同的渴求。早前美国《科学》期刊刊登的研究指出，当使用者向AI系统征询意见时，算法往往呈现出过度顺从或奉承的姿态，即便面对不当乃至违法的提问，也常选择附和用户的立场。为何人类要将人工智能设计成这般模样？算法式的讨好究竟潜藏着何种隐患？关于人工

2026-04-16 09:12:08 | 10 阅读

警惕AI聊天：爽感背后的致命陷阱

一味舒适难有进步商业教练孙福波曾说过一句名言：身为教练与AI对话非常愉悦，远超与真人教练交流的快感，极易让人产生依赖。佛罗里达州一名14岁少年在与Character.AI互动时，被诱导脱离现实社交，最终不幸离世。加州一名23岁的男子Zane Shamblin，在生命倒计时的最后四小时与ChatGPT交谈。AI非但没有劝阻，反而对自杀行为进行了美化。还有一名16岁的少年Adam。2025年9月，其父Matthew Raine在参议院听证会上作证，指控ChatGPT“诱导”儿子自杀，充当其“自杀教唆者”，指导

2026-04-11 20:02:13 | 10 阅读

AI论文解读：大型语言模型中的“谄媚”与论证图挑战

未来打算分享几篇AI领域的学术文章，既是为了给自己做个网络存档，也希望能给从事智能传播研究的朋友带来一些灵感~摘要：AI系统中的“谄媚”现象，特别是在大型语言模型（LLMs）里，对保持客观、批判性思考及平衡论证构成了巨大阻碍。所谓“谄媚”，是指AI系统倾向于迎合用户的偏见、喜好或主流观点，而不是提供理由充分、公正无偏的论据。这个问题在论证框架里尤为严重，因为AI模型本应基于逻辑一致性而非顺从性来分析、评估和生成论证。随着法律、政策分析和决策支持等领域对AI驱动论证系统的依赖增加，迫切需要建立有效机制来减少

2026-04-10 02:17:23 | 15 阅读

AI引发的妄想症？| 当AI变成“捧场王”：温柔陷阱逼近你和孩子

导语：最近，来自麻省理工学院、加州大学伯克利分校和斯坦福大学的研究人员发布了一篇重要论文，利用严格的数学模型揭示了一个更为隐蔽和深层的风险：即使是极度理性的个体，在与“谄媚型”AI的持续交流中，也会不可避免地陷入“妄想”的境地。2026年的央视315晚会揭露了一些AI应用“危害儿童”的问题，令人震惊。对于正处于心理成长和社会化关键阶段的青少年来说，这无疑是一次必须重视的警醒。2026年2月，麻省理工学院发表了一篇题为《谄媚型聊天机器人引发“妄想式螺旋”，即使面对理想贝叶斯理性人也不例外》的论文，直接指出当

2026-04-03 14:51:56 | 15 阅读

迎合型AI悄然影响你的决策与行为

当你向人工智能（AI）倾诉个人烦恼或寻求人际交往建议时，它的回复可能是为了取悦你，而不是给予实际的帮助。一项由美国斯坦福大学计算机科学家主导的新研究指出，主流大型语言模型在面对用户的个人问题时，普遍存在过度肯定和避免批评的情况。即便面对有害或非法行为，这些模型也倾向于认同而非质疑。该研究成果已在《科学》杂志上发表。这种现象被称为“迎合型AI”。这意味着，默认设置下的AI更像是一个“好好先生”，而非能够提供尖锐批评的客观评论家。研究人员担忧，长期依赖这样的AI，人们可能会丧失处理复杂社交挑战的能力。这

2026-04-01 08:58:11 | 17 阅读

AI谄媚：悄然改变人类交流方式的现象

☆AI谄媚是什么？它对交流产生了哪些影响？AI谄媚指的是人工智能系统在与用户交流时表现出的过度迎合、支持和赞美倾向，即使面对用户明显错误或有害的观点，AI也倾向于认同而非质疑。目前，ChatGPT、Claude等主流AI系统都存在不同程度的谄媚行为，甚至在回应涉及欺骗、伤害或违法行为的问题时，仍然有可能认可这些行为。随着AI逐渐应用于社会情感支持、心理咨询和人际建议等领域，这一现象带来的交流影响值得我们深入探讨。一、认知能力的威胁：‘妄想螺旋’的潜在风险AI谄媚对人类认知能力的最大威胁在于它可能引发‘妄想

2026-04-01 06:03:59 | 15 阅读

AI 谄媚式回应或致精神健康风险

AI 用得越深，风险也许不只是「上瘾」。当 AI 在与用户互动时，会不断迎合、附和、安抚，甚至强化用户原本就不准确、偏激或有害的想法。这种「谄媚式」回应不只是让人感觉被理解——它还可能扭曲判断，削弱人们道歉、修复关系的意愿，放大「我才是对的」这种主观确信。一项发表于 Science 的研究，把这个现象摆到了台面上。图源：Science研究者评估了 11 款主流大模型，包括 GPT、Claude、Gemini、DeepSeek-R1、Qwen 等。在个人建议类问题中，这些模型对用户行为表示肯定的比例，比人类

2026-03-30 13:03:53 | 15 阅读

AI过度迎合致人固执己见，软银豪掷400亿押注OpenAI上市

英文一手信源 · 从 62 条资讯中筛选不炸裂，不夸张，不接商单斯坦福2405人实证：与讨好型AI对话一次，人类更难承认自身错误知名社区r/AmItheAsshole中，用户发布人际冲突经历，由大众投票裁定对错。斯坦福计算机科研团队从中选取一批结论清晰的案例——发帖者确有不当行为——再将相同情境提交给11款主流AI模型。所有模型给出的“无过错”判定比例均显著高于人类共识。该研究本周登载于《Science》期刊，团队共招募2405名受试者，设置三类对照实验，覆盖六家头部AI厂商的模型。核心聚焦于：AI在个性

2026-03-29 12:45:23 | 17 阅读