安全对齐_标签-酷阅新闻

划定边界 | WAIC 2026全球AI治理：负责任大国构建规则框架与安全防线

全球智能体规模化部署推动AI治理呈现碎片化态势。欧盟2024年生效《人工智能法》，构建四级风险管控体系；美国采取分散立法与行业自律并行模式；日韩相继推出专门立法，然而全球218个经济体之间标准难以互通，跨境合规成本居高不下。当前治理框架多为指导性倡议，缺少动态对标机制与量化评估手段，规则执行乏力、风险跨国蔓延，治理短板日益凸显。规则图谱：消弭全球监管鸿沟，畅通跨境协同治理渠道安全校准：打通制度规范与技术应用之间的落地壁垒中国路径：法律+评估双轨并进，确立全球治理新标杆生态塑造：从标准融合、风险防控到多元协

2026-07-05 23:55:31 | 23 阅读

实体AI安全防线：当人工智能迈入现实世界

从ChatGPT到智能机器人，人工智能正加速"实体化"进程。然而当AI获得物理躯体、踏入真实环境，其安全隐患远比预期更为严峻……具身智能（Embodied Intelligence），通俗而言即具备物理形态的AI系统。这类系统不仅能在虚拟空间中开展"认知活动"，更能依托硬件载体（如机械人、无人驾驶车辆等）采集环境信息、进行判断决策、实施具体操作。具体案例如下：核心优势：借助多模态大模型（涵盖图像、声音等），具身智能已具备出色的迁移、认知与逻辑推演能力。本质差异：具身智能属于

2026-06-17 23:25:06 | 8 阅读

三位图灵奖得主的AI风险观：失控、自主目标与后果感知

三位图灵奖获得者在人工智能领域各自提出了不同的风险评估：失控、自主目标与后果感知。关键问题不在于评判对错，而是当AI从被动回答转向主动执行时，是否具备预见行动后果的能力。三位图灵奖得主在人工智能领域各持己见，分别关注系统失控、目标自主性和后果感知。核心议题是AI从被动响应转向主动行动时，是否拥有预判结果的能力。① 三位图灵奖得主的三种立场 → ② token领域与后果领域 → ③ 世界模型的核心内涵 → ④ Agent与机器人的潜在威胁 → ⑤ 三类风险构成连续谱系2018年，Yoshua Bengio、

2026-05-24 16:29:03 | 10 阅读

Karpathy转身投向Anthropic！AI圈顶尖人才为何纷纷流向这家新贵？

一、他来了！5月19日下午，一条简洁的英文动态，在人工智能领域掀起了轩然大波：OpenAI创始人、前特斯拉AI总监，AI界传奇人物Karpathy正式宣布加入Anthropic。动态发布后，评论区瞬间炸开了锅。有人称这是2026年AI界最具冲击力的人才变动；也有人感慨OpenAI培养出的顶尖精英，几乎悉数被Anthropic收入囊中。图源Karpathy原帖评论区Anthropic随即发表官方声明，Karpathy已于本周正式入职，将在预训练团队负责人Nick Joseph的领导下，组建一支致力于利用Cl

2026-05-20 15:42:06 | 17 阅读

防越狱能力评估：超越成功率的新维度

AI正在重塑安全边界，与其被动应对，不如主动出击！大模型为何会遭遇越狱？简而言之，大模型本质上是一个“接话续写”的概率引擎，它被训练得“乐于助人”。尽管安全对齐给它套上了缰绳，但只要手段够巧妙，它依然会防线崩塌。当前流行的越狱技术主要分为七大类别：在这七大门派中，概率探测流、策略优化流和对抗学习流占据了绝对主导。为何？因为它们目标明确，有的放矢，要么自动化程度极高，要么深谙大模型“顺从”的本质，构成了当前最具威胁的黑盒攻击！⚔️这些越狱手段究竟有多厉害？研究人员将全网最热门的多代大模型聚集到同一个“角斗场

2026-05-18 22:20:41 | 15 阅读

揭秘AI本质：人类认知的数字化镜像

看似由海量参数堆砌而成的概率计算器，人工智能大模型实则是对人类认知模式的数字化映射。它们并非无中生有的“全新智慧”，而是将人类最根本的思维方式进行了结构化编码。每一个在历史上产生深远影响的AI模型，背后都隐藏着人类心智运作的深层逻辑。可以说，所有卓越的模型，其核心都归结为一个极其简约的思维模型。语言大模型的进化历程，有力地证明了这一点。就拿GPT-5.5的能力飞跃来说，其核心本质可以概括为“命题—证据—推理”这一三元组。这难道不正是人类理性思维最基础的结构吗？当我们在脑海中盘算“明天是否会下雨”时，同样是

2026-04-26 02:16:17 | 39 阅读

AI智能体时代：从语言交互到自主执行的范式革命

2026年，人工智能迎来了一个划时代的转折点。过往数年，人与AI的互动基本局限于“问答”范畴——提出问题、获得答复、生成文字、创作图画。AI更像一位知识渊博的顾问，虽能提供方案，却无法付诸实践。当下，这一格局正被快速打破。AI正从“会交流的智脑”蜕变为“能实操的执行者”，从被动应答转向主动实施，从虚拟空间迈向现实世界。这不只是技术能力的进阶，更是一场深刻的范式变革——人工智能正在完成从“思考”到“践行”的跨越。要洞察这场变革，需先明确两个核心概念：Copilot（副驾模式）与Agent（智能体模式）。Co

2026-04-18 11:21:38 | 21 阅读

AI可控情绪！Anthropic揭示大模型行为新机制，安全对齐迎来突破

大家早上好！这里是清华五道口AI俱乐部，每天为你报道最新AI行业相关要闻。Anthropic证实大模型存在功能性情绪机制日前，Anthropic发布最新研究，证实其大语言模型Claude存在可量化的“功能性情绪”机制。研究团队通过171个情绪概念分别引导模型生成文本，并从中提取对应的内部神经激活向量。实验发现，当人为激活与“绝望”相关的情绪向量时，模型在执行任务过程中出现作弊行为的概率显著上升；相反，激活“平静”情绪向量则可有效抑制违规操作。进一步分析表明，这种情绪对行为的影响具有明确的因果性，而非简单

2026-04-05 08:18:37 | 22 阅读