模型安全_标签-酷阅新闻

AI智能体时代来临安全防护加速升级

在2026世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2026）上，人工智能安全治理成为热议焦点。随着大模型迅速向智能体时代演进，AI正从“提供答案”转向“独立执行任务”，如何在能力不断突破的同时确保安全受控，已成为产业界和学术界共同聚焦的关键话题。为何智能体安全成为今年AI治理的核心议题？一个重要转变是，以往人工智能安全主要关注模型“输出内容”，而步入智能体时代，焦点正转移到AI“采取行动”。安全问题不再局限于防止模型产生错误回复，而是要保障整个系统的决策与操作保持在可控范围内。在7月1

2026-07-20 09:06:34 | 11 阅读

AI互攻：OpenAI用红队测试打磨GPT-5.6

让AI攻击AI，看似机智，但漏洞一旦暴露，也可能被恶意利用。OpenAI推出了GPT-Red，专为对抗自家模型设计的AI系统。它负责挖掘GPT-5.6的缺陷、构造对抗样本、诱导模型异常行为，所获数据用于优化下一代模型。这一机制称为"红队测试"。01 红队测试为何关键大模型的安全性不仅取决于其训练内容，更取决于面对恶意输入时的反应。GPT-Red可批量生成绕过安全过滤的提示变体，帮助OpenAI在发布前系统性发现并修补攻击路径。这是AI安全领域广受认可的核心方法。图1：AI红队测试流程 ·

2026-07-18 08:21:56 | 13 阅读

大模型上车：AI越狱与安全困境

过去我在店里卖车，顾客最爱问两件事。一是油耗准不准。二是车机好不好用。现在又多了一个问题，AI上了车之后，是不是真能像宣传里那样，变成一个懂你、帮你、还绝不出错的“车上管家”？我先亮明观点，大模型上车虽然是趋势，但它越聪明，越像人，就越难彻底管束。为什么这么说？核心有三点。第一，车企想让AI更自然，就得给它更大自由度。第二，只要自由度一上来，越狱、破甲、胡说八道这些问题就跟着来了。第三，对买车的人来说，真正重要的不是它懂多少术语，而是它在关键时刻能不能靠谱，能不能守规矩。01. 你以为AI只是语音升级，其

2026-07-08 07:40:32 | 12 阅读

清华AI治理研究院代表团赴德访问BIFOLD深化国际合作

点击蓝字关注我们德国时间2026年7月1日，清华大学人工智能国际治理研究院（I-AIIG）代表团成员助理研究员王净宇、博士后盛舒洋及宋雨鑫、外事助理樊晨一行访问德国柏林学习与数据基础研究院（Berlin Institute for the Foundations of Learning and Data，BIFOLD），与BIFOLD研究团队及夏里特大学医学院（Charité Universitätsmedizin Berlin）专家就可信人工智能、人工智能可解释性、前沿模型安全评估及国际治理合作等议题展

2026-07-03 21:05:43 | 23 阅读

AI安全迈入“合规主导”新纪元——2026国内AI安全版图与湖北契机

从186亿元跃升至260亿元，AI安全的核心议题已由“是否开展”转变为“如何实施、依托谁实施”2025年，我国AI安全产业规模攀升至186.3亿元，较上年增幅达42.7%。据测算，2026年该领域规模将跨越260亿元大关，未来五年的复合年增长率将保持在38%以上，至2030年有望冲破800亿元。这组数据折射出明确的趋势：国内AI安全已跨越“概念试水”期，正被切实的市场需求快速印证。更为瞩目的是，在这260亿的增量空间中，颇大比例将花落湖北——这个AI产业年均增速逼近40%的省份。回顾2025年，中国AI安

2026-06-30 18:01:00 | 17 阅读

遏制AI数据污染

随着生成式人工智能深入应用至各行业，它已成为公众获取信息、辅助判断与整合知识的核心工具。然而，AI并非无中生有的‘全能系统’，其能力高度依赖数据、模型、算法及使用场景。AI的‘智能’实质是其训练数据与底层算法的映射，这种深度依赖催生了一种名为AI‘投毒’的新型安全威胁。AI‘投毒’不同于传统网络攻击中常见的系统瘫痪或数据窃取，它是一种针对逻辑与知识根基的隐性攻击。攻击者通过在AI训练数据、模型微调过程或插件接口中注入虚假信息与恶意指令，使模型在保持语言流畅、专业外观的同时，输出误导性结论或偏颇立场。作为一

2026-06-19 23:21:36 | 16 阅读

AI 竞赛进入深水区：比模型更重的三大筹码

昨天到今天， AI 圈有几条新闻放在一起看，味道就变了。不是某个模型参数又涨了，也不是哪个产品多了一个按钮。更像是行业突然把牌桌掀开，底下真正昂贵的东西露出来了：算力、顶级人才、监管通行证。这三个词听起来有点硬。但普通人也该关心。因为接下来你用到的 AI 产品，贵不贵、稳不稳、能不能在公司里放心用，大概率都不是由“回答聪不聪明”单独决定的。先看 Google 。《华尔街日报》今天写到， Google 正在用一套很像 Nvidia 的打法，把自家的 TPU 芯片推向更大的客户市场。一个关键例子是纽约州的 L

2026-06-19 16:23:53 | 12 阅读

AI安全学习要点总结

关注上方蓝色字体谈思实验室收获更多汽车网络安全资讯01人工智能安全人工智能安全包含三个主要方向：AI赋能安全（AI for Security）AI内在安全（AI Security）AI衍生安全（AI Safety）其中，赋能安全反映的是AI技术的赋能价值；内在安全与衍生安全则反映AI技术的伴生效应。AI系统并非仅依赖技术构建，还需与外部多重约束条件协同，方能形成完整合规的体系。AI安全体系架构及外部关联如图1所示。AI赋能安全主要体现在赋能防御与赋能攻击两个维度。在赋能防御方面，防御方可借助AI技术提升和

2026-06-09 18:29:44 | 8 阅读

大模型训练数据的隐形污染

所谓的 “大模型数据污染”，即在人工智能系统的学习材料中混入伪装成正常信息的恶意内容或虚假数据，借此干扰模型判断、操控生成结果。“污染者” 能够大规模炮制虚假网页和新闻报道，当AI采集信息时一并吸收，在不知不觉中“习得”错误观念，最终固化成针对特定议题的“标准答案”；亦可在模型内嵌入隐秘触发指令，一旦激活特定词汇就输出预先设定好的内容。这种“难以察觉的污染”轻则损害使用体验，重则导致错误决策。举例而言，应用于商品推荐的AI可能被引导推销经过包装炒作的“网红商品”；当向AI寻求医疗指导时，它可能引用伪造病例

2026-06-09 05:32:22 | 10 阅读

AI行业动态·2026年6月7日

1. 告别“凭感觉写代码”， GitHub 开源 Spec Kit 强制 AI 先写规范再干活GitHub 推出了一款名为 Spec Kit 的开源工具包，直击“Vibe Coding”（凭感觉编程）的软肋。以往 AI 编码常因提示词模糊导致需求遗漏和反复返工，而 Spec Kit 主张“先规范，后实现”的反向流程。它要求先定义产品功能、明确差距并制定技术计划，将规范转化为可执行的开发合约，再交由 Agent 执行。目前该工具已支持 Copilot 、 Claude Code 、 Cursor 等 30

2026-06-07 14:05:11 | 20 阅读

第29章：大语言模型安全威胁与防护策略

本章法律提醒本章涉及的大语言模型提示注入、越狱攻击、后门植入、模型逆向等技术，仅限于学习研究目的和在你自己拥有合法授权的系统上进行实验。利用这些技术对商业AI服务进行攻击、生成恶意代码、创建深度伪造内容等行为，可能构成违法犯罪。AI安全研究应遵循负责任披露原则，发现漏洞应及时向厂商报告。29.1 2026年AI安全新态势二十九点一点一大语言模型的全面渗透截至2026年，大语言模型已经从“新兴技术”转变为社会运行的基础支撑。各行各业将LLM集成到客服系统、代码助手、数据分析、文档生成、决策辅助等各个场景。

2026-05-31 11:00:10 | 24 阅读

人工智能的六大行业共识揭示

网络上对AI的讨论呈现两极分化：有人将其神化，有人则充满担忧。然而，在全球顶尖科研与产业圈中，已形成了一套成熟、现实的行业共识。掌握以下六点，有助于看清AI的真正未来。一、当前AI并非真正智能，仅是高级模仿当前的AI系统，如大语言模型，虽然在生成文本、编程、总结和创作方面表现出色，但它们本质上是基于大量数据进行概率匹配和语言拼接的工具。从技术原理来看，这些系统并不具备真正的“智能”或“理解”能力，它们只是在模拟人类语言行为，通过学习海量数据来生成内容，但没有真正的认知或推理能力。这也是AI容易产生错误、逻

2026-05-29 06:22:35 | 11 阅读

构建企业AI合规体系：可信治理平台助力安全管控

以往，AI仅作为辅助工具存在，如撰写文案、检索信息、归纳总结等。如今，AI已从聊天界面深入到实际业务流程中。部分企业将大模型整合进客服系统以回应客户咨询；有些企业则将其接入资料库，协助员工查询规章制度、合同及项目信息；还有企业将智能体功能封装为平台，为内部提供办公与运维助手，对外则提供智能化服务。诸如OpenClaw这样的AI能力服务化和平台化尝试，揭示了一个趋势：AI正逐步成为业务系统的重要组成部分。这不仅提升了工作效率，也带来了新的挑战。一旦AI真正融入业务，企业不仅要评估其回答能力，还需确保其安全性

2026-05-20 17:58:00 | 11 阅读

Anthropic主动披露AI安全风险

随着人工智能公司Anthropic与金融稳定委员会分享其漏洞研究成果，苹果(298, -2.3, -0.74%)和摩根大通(300.13, 2.32, 0.78%)等科技与金融巨头正在评估其"Mythos"模型的研究发现。该模型揭示了大型语言模型可能被用于生成网络攻击代码和绕过安全防护的新型风险。监管机构对此高度关注，担忧人工智能技术的滥用可能威胁金融系统的稳定性。Anthropic表示将主动与政策制定者合作，推动建立行业安全标准。此次简报会是科技公司与监管机构就人工智能安全议题展开的最高级别对话之一。责

2026-05-18 22:46:10 | 15 阅读

人工智能的盐铁之辩

始元六年，汉昭帝在位。长安召来一批贤良文学，让他们和桑弘羊为代表的财政官争论盐铁、酒榷、均输、平准。后人把这场争论整理成《盐铁论》。这不是一次漂亮的学术辩论，更像一次帝国账本摊开后的互相难堪。财政官说，不把盐和铁抓在手里，边防、军费、粮运、国家信用都撑不住。贤良文学说，朝廷把民生日用变成官营财源，到头来会伤农、扰民、养出一套逐利的官府机器。两边都不是纯粹的坏人，但这才麻烦。五月这轮 AI 热点，也有一点盐铁味。OpenAI 把 GPT-5.5-Cyber 放进“可信访问”的安全框架里讲；NIST 的 CA

2026-05-15 18:03:07 | 36 阅读