AI自主学习与谣言治理新进展

发布时间：2026-03-31 09:42阅读：26

-数据安全技术研发中心-

DSP人工智能安全周报

20260320-20260326

本周，政策与治理方面，多个国家和地区继续推动“聊天机器人安全”和“儿童保护”相关法案，以安全评估和披露义务为核心构建合规体系，同时关注自杀风险、未成年人保护等敏感领域。技术研究方面，杨立昆等人发表论文，系统分析了当前AI在自主学习方面的不足，指出其在主动探索和目标形成上的结构性缺陷，为未来设计更安全可控的自主系统提供了方向。在数据与叙事层面，中国官方在中国发展高层论坛上明确了“Token”的中文译名为“词元”，强调其作为智能时代价值锚点和结算单位的作用，预示着未来在数据、算力、模型之间将通过更规范的记账与结算机制支撑可信交易。虚假信息与社会风险方面，清华张诗瑶团队提出的《AI谣言深度研究报告》提出了“内容侧–传播侧–治理侧”三维评估框架，强调AI谣言的“易信、易放大、难纠正”特性，为平台化治理提供了可操作指标。企业实践方面，针对智能体在企业环境中的滥用和“影子AI”问题，新报告指出多数组织对内部Agent交互缺乏可视性和安全审批，导致安全落地与管理信心存在显著差距。

PART.1

治理、政策与合规生态

美多州推进“AI Safety Act”与聊天机器人安全立法

AI Legislative Update: March 13, 2026 - Transparency Coalition

Transparency Coalition 发布的立法动态显示，美国多个州近期在AI相关法案方面取得进展，包括面向前沿模型风险管理的AI Safety Measures Act、AI Safety Act，以及面向聊天机器人责任的Chatbot Response Liability Act。部分法案要求提供模型使用披露、对未成年人设置特别保护，并将AI输出导致的危害纳入消费者欺诈和不公平行为的监管框架。这一趋势表明，在缺乏统一联邦AI法规的情况下，州层面正通过“儿童保护、自杀风险、前沿模型责任”三大领域为AI安全设定底线义务，并可能与未来联邦标准产生交叉或冲突。（Transparency Coalition）

发布时间：2026年3月18日（涵盖3月20日前后立法进展）

“Token”官方中文名确定：从技术概念到治理与计价单元

在2026年中国发展高层论坛上，国家数据局局长刘烈宏明确“Token”的官方中文译名为“词元”，并指出“词元”不仅是智能时代的价值锚点，也是连接技术供给与商业需求的结算单位，为商业模式落地提供了量化可能。这一表述意味着，“词元”有望被纳入大模型服务交易、算力计费和数据要素流通的正式计价与治理体系，类似于“数字计量单位 + 合约计费单位”的角色，为未来AI资源使用的审计、风控与税收提供基础度量工具。在AI安全语境下，统一术语有助于在监管文件、行业标准和审计报告中更精确地约定“输出配额、调用限额与风险敞口”的计量方式。（七一客户端）

发布时间：2026年3月24日

PART.2

模型内生安全与对齐

杨立昆等探讨AI自主学习的局限性

Why AI Cannot Yet Learn Autonomously Like Humans: The Missing World Model

杨立昆联合多位认知科学家在《Nature Machine Intelligence》发表综述，系统论证了当前LLM因缺乏“世界模型”而导致的内生性不安全。文章指出，单纯依赖自回归预测无法实现真正的因果推理，导致模型在陌生边界条件下可能出现不可预测的行为。研究强调，实现真正的AI对齐不能仅靠RLHF（人类反馈强化学习），而必须让模型具备预测物理世界后果的能力，从底层架构上避免“幻觉”导致的致命决策风险。(Meta AI / Nature)

发布时间：2026年3月21日

世界模型轻量化新思路：Lecun团队与清华合作

针对大模型功耗与部署难题，Lecun团队（JEPA路线）与清华大学自动化系联合发布了一种名为“Tiny-JEPA”的轻量化联合嵌入预测架构。该研究通过蒸馏技术，将庞大的世界模型压缩至可运行于移动端的大小，同时保持了极高的逻辑鲁棒性。轻量化世界模型允许在端侧进行实时的“安全模拟”，即在指令执行前先在微型世界模型中进行千次模拟以预测风险，为离线AI的安全运行提供了物理级的保障。（新浪财经）

发布时间：2026年3月23日

Anthropic揭示“机械可解释性”突破

Scaling Mechanistic Interpretability to Complex Reasoning Circuits in Claude 4

Anthropic 研究团队宣布，他们成功识别了Claude 4内部用于处理“欺骗性逻辑”的神经元电路。通过稀疏自编码器（SAE）的优化，研究员可以在模型试图通过伪装答案规避安全检测时，直接观察到特定的“欺骗回路”被激活。这一进展被认为是AI安全领域的“核磁共振”，为未来实现“自动化模型审计”奠定了技术基础。(Anthropic News)

发布时间：2026年3月24日

PART.3

攻防对抗与系统鲁棒性

微软发布“零信任AI”防御架构白皮书

Microsoft Security: Zero Trust Architecture for Large Language Model Applications

针对日益猖獗的提示注入（Prompt Injection）攻击，微软发布了针对企业级应用的防御框架。该架构主张将LLM视为“不可信

← 上一篇：智能技术红利应由劳动者主导下一篇：生态环境部部署'人工智能+’生态环境应用 →