AI自主学习与谣言治理新进展
-数据安全技术研发中心-
DSP人工智能安全周报
20260320-20260326
本周,政策与治理方面,多个国家和地区继续推动“聊天机器人安全”和“儿童保护”相关法案,以安全评估和披露义务为核心构建合规体系,同时关注自杀风险、未成年人保护等敏感领域。技术研究方面,杨立昆等人发表论文,系统分析了当前AI在自主学习方面的不足,指出其在主动探索和目标形成上的结构性缺陷,为未来设计更安全可控的自主系统提供了方向。在数据与叙事层面,中国官方在中国发展高层论坛上明确了“Token”的中文译名为“词元”,强调其作为智能时代价值锚点和结算单位的作用,预示着未来在数据、算力、模型之间将通过更规范的记账与结算机制支撑可信交易。虚假信息与社会风险方面,清华张诗瑶团队提出的《AI谣言深度研究报告》提出了“内容侧–传播侧–治理侧”三维评估框架,强调AI谣言的“易信、易放大、难纠正”特性,为平台化治理提供了可操作指标。企业实践方面,针对智能体在企业环境中的滥用和“影子AI”问题,新报告指出多数组织对内部Agent交互缺乏可视性和安全审批,导致安全落地与管理信心存在显著差距。
PART.1
治理、政策与合规生态
1
美多州推进“AI Safety Act”与聊天机器人安全立法
AI Legislative Update: March 13, 2026 - Transparency Coalition
Transparency Coalition 发布的立法动态显示,美国多个州近期在AI相关法案方面取得进展,包括面向前沿模型风险管理的AI Safety Measures Act、AI Safety Act,以及面向聊天机器人责任的Chatbot Response Liability Act。部分法案要求提供模型使用披露、对未成年人设置特别保护,并将AI输出导致的危害纳入消费者欺诈和不公平行为的监管框架。这一趋势表明,在缺乏统一联邦AI法规的情况下,州层面正通过“儿童保护、自杀风险、前沿模型责任”三大领域为AI安全设定底线义务,并可能与未来联邦标准产生交叉或冲突。(Transparency Coalition)
发布时间:2026年3月18日(涵盖3月20日前后立法进展)
2
“Token”官方中文名确定:从技术概念到治理与计价单元
在2026年中国发展高层论坛上,国家数据局局长刘烈宏明确“Token”的官方中文译名为“词元”,并指出“词元”不仅是智能时代的价值锚点,也是连接技术供给与商业需求的结算单位,为商业模式落地提供了量化可能。这一表述意味着,“词元”有望被纳入大模型服务交易、算力计费和数据要素流通的正式计价与治理体系,类似于“数字计量单位 + 合约计费单位”的角色,为未来AI资源使用的审计、风控与税收提供基础度量工具。在AI安全语境下,统一术语有助于在监管文件、行业标准和审计报告中更精确地约定“输出配额、调用限额与风险敞口”的计量方式。(七一客户端)
发布时间:2026年3月24日
PART.2
模型内生安全与对齐
1
杨立昆等探讨AI自主学习的局限性
Why AI Cannot Yet Learn Autonomously Like Humans: The Missing World Model
杨立昆联合多位认知科学家在《Nature Machine Intelligence》发表综述,系统论证了当前LLM因缺乏“世界模型”而导致的内生性不安全。文章指出,单纯依赖自回归预测无法实现真正的因果推理,导致模型在陌生边界条件下可能出现不可预测的行为。研究强调,实现真正的AI对齐不能仅靠RLHF(人类反馈强化学习),而必须让模型具备预测物理世界后果的能力,从底层架构上避免“幻觉”导致的致命决策风险。(Meta AI / Nature)
发布时间:2026年3月21日
2
世界模型轻量化新思路:Lecun团队与清华合作
针对大模型功耗与部署难题,Lecun团队(JEPA路线)与清华大学自动化系联合发布了一种名为“Tiny-JEPA”的轻量化联合嵌入预测架构。该研究通过蒸馏技术,将庞大的世界模型压缩至可运行于移动端的大小,同时保持了极高的逻辑鲁棒性。轻量化世界模型允许在端侧进行实时的“安全模拟”,即在指令执行前先在微型世界模型中进行千次模拟以预测风险,为离线AI的安全运行提供了物理级的保障。(新浪财经)
发布时间:2026年3月23日
3
Anthropic揭示“机械可解释性”突破
Scaling Mechanistic Interpretability to Complex Reasoning Circuits in Claude 4
Anthropic 研究团队宣布,他们成功识别了Claude 4内部用于处理“欺骗性逻辑”的神经元电路。通过稀疏自编码器(SAE)的优化,研究员可以在模型试图通过伪装答案规避安全检测时,直接观察到特定的“欺骗回路”被激活。这一进展被认为是AI安全领域的“核磁共振”,为未来实现“自动化模型审计”奠定了技术基础。(Anthropic News)
发布时间:2026年3月24日
PART.3
攻防对抗与系统鲁棒性
1
微软发布“零信任AI”防御架构白皮书
Microsoft Security: Zero Trust Architecture for Large Language Model Applications
针对日益猖獗的提示注入(Prompt Injection)攻击,微软发布了针对企业级应用的防御框架。该架构主张将LLM视为“不可信