安全护栏_标签-酷阅新闻

蚂蚁集团发布两款AI安全开源模型护航智能体与多模态场景

【TechWeb】7月13日报道，蚂蚁AI安全实验室正式公开了智能体安全护栏SingGuard-NSFA，并一同揭晓了多模态安全护栏SingGuard的完整细节。这两款模型分别瞄准“自主执行任务的智能体”和“多模态交互的大模型”两个尖端领域。 SingGuard-NSFA 随着智能体从“解答问题”逐渐转向“独立行动”，AI开始调用外部工具、执行程序代码、协调复杂任务，安全隐患已不仅限于内容层面，更集中体现在行为方面。提示词入侵、敏感数据泄露、恶意脚本运行、资源过度消耗、权限不当使用等问题，传统的文本审核机

2026-07-13 23:40:40 | 11 阅读

AI遭遇核武式管制后：Fable 5的消亡与智能新纪元

2026年6月中旬，美国商务部发布出口限制令，迫使Anthropic将其最新模型Claude Fable 5和Mythos 5从全球撤下。这标志着人类史上首次，一个国家政府直接叫停另一家企业最尖端的人工智能产品。CIA局长John Ratcliffe一周后在AWS峰会上发表了一句耐人寻味的评论，将这些前沿AI模型的能力比喻为数字核弹，实不为过。一、Fable 5的广岛时刻 2026年6月9日，Anthropic推出两款新模型，代号Mythos系列。Claude Fable 5面向大众的消费版，配备安全防护

2026-07-04 22:51:29 | 25 阅读

AI重塑就业格局：三类新型‘工厂’需求激增｜黄仁勋核心洞察

过去一年，关于AI的争论愈发激烈。有人称它将引爆新一轮生产力变革，有人预言它会吞噬岗位，甚至危及人类。有人紧盯模型参数，有人关注芯片价格，有人紧盯OpenAI、Anthropic、xAI的每一次发布。在信息过载中，AI发展的主线愈发模糊。最近，我观看了黄仁勋在Milken Global Conference 2026上的访谈，他核心观点明确：AI是能源、土地、电力、芯片、数据中心、云、模型与应用的终极集成体。若只聚焦模型，将忽略背后更深远的结构性变革。要判断AI将去向何方，先要理解它从何处起步。以下是访谈

2026-06-18 02:05:50 | 7 阅读

让AI乖乖听话：智能体Harness架构全解析

组件形象比喻核心职责工具集马匹专用装备封装API、函数、数据库操作等外部能力，全部工具调用必须通过Harness审核代理处理，严禁智能体擅自调用。记忆系统路线记忆管控短期上下文与长期知识库、文件资料，确保长周期任务前后一致，防止智能体遗漏重要信息。执行循环缰绳指令强制执行「观察-思考-行动-再观察」循环流程，依据实际任务指标判定完成状态，不允许AI自行判断结束。安全护栏马笼头护具负责输入输出内容过滤、敏感操作拦截、权限验证、调用频率控制，全面防范高危操作与违规行为。规划器战术意图将复杂任务分解为结构化步骤

2026-06-02 21:21:00 | 11 阅读

美联储理事沃勒强调AI提效需严守安全边界

美联储理事克里斯托弗·沃勒周二在法兰克福欧洲央行研究会议上表示，人工智能能够提升央行运营效率，但必须配套完善的安全防护机制。严格护栏确保数据安全沃勒强调，美联储在应用AI时设有“严格护栏”，以保障敏感政策信息不外泄。他指出：“在研究领域，使用AI必须设置防护措施。我们不会允许在飞机上使用存有敏感政策数据的笔记本电脑运行AI程序。”他幽默地补充道：“他们甚至不让我用AI来整理电子邮件。” 沃勒透露，美联储通过亚马逊云服务获取多种AI模型，但由于安全审查需求，所采用的版本可能并非最新技术。“我们可能没有最

2026-05-20 05:06:20 | 11 阅读

AI智能体测试方法

探究AI智能体（AI Agent）与传统确定性软件测试的本质差异。传统测试关注“输入A，必然输出B”；而AI智能体具备自主规划、工具调用、长期记忆和非确定性生成能力，这使其测试维度更广、复杂度更高。构建一个成熟的AI智能体测试体系，需从核心能力评测、工程链路监控及安全护栏测试三个维度入手。对Agent的测试，通常需将其拆解为底层组件与综合表现的双重评估：目标拆解测试：向Agent下达复杂指令（如“分析过去三个月销售数据并生成PPT”），检验其能否将大任务拆解为合理的子步骤。反思与纠错：当工具调用出错（如A

2026-05-18 14:33:48 | 11 阅读

OpenAI 注资 White Circle：千万融资筑牢 AI 安全防线

防止 AI“走偏”，往往比训练它更具挑战。5 月 12 日，专注 AI 安全的初创企业 White Circle 宣布完成 1100 万美元种子轮融资。此次投资方阵容豪华，汇聚了来自 OpenAI、Anthropic、Google DeepMind、Hugging Face 及 Mistral 等顶尖机构的资深人士。该公司的使命十分明确：确保企业级 AI 应用始终处于可控状态。01 为何 AI 亟需“安全护栏”企业在落地 AI 时面临一大核心难题：模型在生产环境下极易出现“意外举动”。例如，客服 AI 可

2026-05-14 08:25:33 | 10 阅读

五角大楼牵手七家AI巨头，Anthropic未获入围

五角大楼5月1日表示，已与七家顶尖人工智能企业达成合作安排，计划把它们的先进技术导入国防部的保密网络系统。入选的包括SpaceX、OpenAI、谷歌(382.87, 0.93, 0.24%)、英伟达、Reflection、微软(415.885, 8.11, 1.99%)以及亚马逊(268.69, 3.63, 1.37%)云服务；而Anthropic则因涉及安全限制相关争议被排除在外。此前，Anthropic始终不愿放行其Claude模型被用于完全自主的武器应用，以及大规模的国内监控场景，并要求在使用过程

2026-05-02 03:35:04 | 20 阅读

中央政治局部署“人工智能+”行动推动智能经济新格局

中共中央政治局4月28日召开会议，围绕当前经济形势与经济工作作出分析研究，提出“全面实施‘人工智能+’行动，发展智能经济新形态，完善人工智能治理”等重要部署。这是中央从顶层设计层面出发，对人工智能与经济深度贯通、“十五五”时期创新发展作出的系统性战略安排。作为指引我国人工智能发展方向的关键会议，会议强调科技、产业、治理三方面要同向发力，释放出以智能要素带动新质生产力的鲜明信号。应用导向创新驱动智能经济新形态起势 4月25日，中共中央政治局就加强人工智能发展与监管开展第二十次集体学习。习近平总书记在学习

2026-04-29 20:49:49 | 16 阅读

为企业AI Agent、MCP和CLI构建安全边界

企业引入Agent时，通常首先担忧的是模型可能给出错误答案。然而，一个更棘手的问题在于，当Agent开始能够自主执行任务时。以往，AI助手最多不过是说错一句话。如今，一个Agent连接上MCP后，便能查询系统、调用接口、修改数据；若再进一步接入CLI，则能读取文件、执行命令、修改代码、触发部署。这已不再是简单的聊天机器人问题。这关乎产品边界的界定。企业Agent的安全防护重点，已从防止模型出错，转移到重新定义：机器在何种程度上可以代表人类执行操作。在传统软件中，用户点击按钮，系统执行相应动作，责任链条清晰

2026-04-29 12:50:07 | 17 阅读