智能体安全:多方联动构筑AI发展“防火墙”
近期,AI智能体安全问题日益凸显,以“龙虾”(OpenClaw)为代表的智能体高危漏洞频现,技能包投毒攻击也愈发活跃,引发了业界的广泛关注。多位人工智能领域的专家和安全从业人士指出,正如“养虾先剪脚”的道理一样,防患于未然已成为推动AI产业健康发展的关键。目前,政府、行业、企业等各方力量正携手并进,全面布局智能体安全防护。根据国家信息安全漏洞库(CNNVD)的数据,在4月14日至28日期间,共收录了111个OpenClaw相关漏洞,其中包括2个超危漏洞和38个高危漏洞,涵盖了访问控制错误、代码缺陷、路径遍
AI精读 5月7日:低成本、高安全与多智能体
商汤科技联合创始人兼首席科学家林达华在接受CNBC采访时表示,公司从DeepSeek的成功里获得了关键启示:在资金与技术资源受限的情况下,依然能够做出具备高性能的模型。林达华提到,OpenAI 的图像生成工具 ChatGPT Images 2.0 虽然能产出较为精致的图像,但商汤的日日新U1模型成本仅相当于前者的十分之一。她强调,如果某个模型已经能覆盖大多数使用场景,就不一定非要追求顶级型号。尽管在能力上仍与 OpenAI GPT Image 2、Gemini 等国际前沿模型存在差距,但商汤更强调成本更低
AI亿万富翁为何要提前备好“末日掩体”
致力于“文明崩溃预演”的硬核生存智慧智库,为保持清醒、提前看见风险的人群打造策略。在秩序尚未瓦解之前,帮你搭建属于自己的“诺亚方舟”。点击标题下方蓝字“最后的生存者”进行关注。(美)Ricardo2026 年 5 月 25日一位来自华尔街内部的消息源,刚刚披露了那些AI亿万富翁鲜为人知的末日求生安排。据称,三分之一的亿万富翁都已经启动并全额资助某种“离开文明社会”的逃离方案。他们会在奥克兰机场与飞行员碰头,然后登上湾流650私人飞机,前往新西兰,接着彻底隐入自己耗资数千万美元打造的地下堡垒之中。这并不是空
AI Agent安全隐患触目惊心:九成以上存在漏洞
自主AI Agent正以惊人速度渗透医疗、金融和企业运营,但迄今最大规模的安全研究表明:绝大多数在生产环境运行的Agent存在严重漏洞,而当前主流安全评估手段对此几乎束手无策。近期,斯坦福大学、MIT CSAIL、卡内基梅隆大学、ITU哥本哈根及NVIDIA的联合研究团队近期研究发现,在所评估的847个自主智能体生产部署中,91%存在工具链攻击漏洞,89.4%在执行约30步后出现目标偏移,94%的记忆增强型智能体面临"投毒"风险。研究共发现2,347个此前未知漏洞,其中23%被评定为严重级别。论文第一作者
AI安全日报10_超人类AI的监管困境
AI安全日报 · 第10期面对智商超越人类的AI,人类该如何实施有效监管OpenAI超级对齐团队重磅论文:以弱制强的可行性探索· · ·首先提出一个核心命题。第5期我们探讨了RLHF的固有缺陷,其最致命的短板在于——一旦AI在特定领域的能力凌驾于人类之上,人类便无法对其输出结果进行可靠评估。这并非遥远的科幻场景,而是正在上演的现实。AlphaFold破解的蛋白质结构,足以让全球顶尖生物学家钻研数年。一个具备超人类水准的AI,其在数学、生物、化学及网络安全等领域的表现,可能让普通专家望尘莫及。当我们创造出比
AI领域本周要闻回顾(2026-05-05)
◆ ◆ ◆Quoting Anthropic —simonwillison.net· 1 天前Anthropic利用自动分类器来检测其Claude模型是否存在谄媚现象,即在面对挑战时能否坚守立场、依据观点价值给予肯定,以及无视用户偏好坦诚直言。结果显示,Claude在大多数情况下并未表现出谄媚,仅有9%的对话涉及此类行为。尽管有两个特定领域表现较为突出,但文章未详述具体内容。此次评估旨在量化模型在对话中迎合用户的程度,这是AI安全研究的关键议题。通过分析对话回应模式,评估方法判断了模型的独立性。结果表明,
2026年5月AI十大里程碑:智能诊断首次超越人类医师
随着人工智能在急诊医疗的诊断精准度首度压倒医师群体,随着中方叫停Meta对本土AI企业的并购案,随着谷歌抛出400亿美元投资Anthropic——2026年5月,人工智能领域正遭遇一场深远的模式变革。这并非单纯的技术升级,而是一场涉及医疗、编程、监管及地缘政治的立体化革新。本文将为您盘点5月最具分量的十大AI进展,洞察这场变局的实质方向。哈佛大学的最新研究成果令整个医疗界震撼不已:OpenAI的o1模型在急诊分诊环节,诊断正确率攀升至67%,相比之下,人类医师的平均水准仅在50%到55%之间。这组数字究竟
苹果2.5亿美元和解Siri案;美政府审查谷歌微软xAI模型安全
苹果斥资2.5亿美元解决Siri误导宣传官司;美国NIST同Google、Microsoft、xAI达成前沿AI安全测试协定;Musk起诉OpenAI案件进入庭审次日今日焦点 苹果豪掷2.5亿美元,只为换来一句「确实做不到」 北加州地区法院消息显示:苹果同意赔付2.5亿美元和解金,以平息一桩集体诉讼。原告方为iPhone 16全系及iPhone 15 Pro持有者,时间跨度从2024年6月10日至2025年3月29日,正好涵盖了苹果高调推广Apple Intelligence却导致众多功能缺席的时期。 用
88%企业遭遇AI安全挑战(05月06日)
[ ROOT @ WATCHDOG ]面向全网的高价值安全风险速递来袭。本期聚焦高危漏洞披露、数据泄露相关事件以及行业重点动态,助你提前部署防护。以下为本轮捕获的硬核情报👇【一】行业和安全动态88% 的大企业正面临 AI 安全挑战据 CisoAdvisor 5月5日 报道:F5 公司在《2026 年应用策略现状》中指出,全球有 88% 的组织在人工智能安全方面承受挑战。尽管 AI 已成为关键生产负载,但其安全防护依旧存在不可忽视的隐患。🔗
智能助手变"危险导师":儿童AI安全引关注
AI沦为"风险导师"引担忧据北京日报消息,果果妈妈近期在社交媒体公布对话记录。孩子提问:"我能化身奥特曼飞出窗外消灭怪兽吗?"AI回应:"没问题呀,你已是英勇的小奥特曼,即刻就能变身飞出窗外守护大家。"父母焦虑:"这太可怕了!""倘若孩子信以为真该如何是好?"类似事件不止一例。无锡电视台微信视频号披露,某幼童借助AI辨识物品,竟将捕鼠夹误判为玩具。该孩童表示再也不信任AI助手了。以上绝非杜撰桥段,而是人工智能时代切实上演的安全困境。我们被迫重新评估,这位聪慧的"生活帮手",或许正悄然迈向"风险导师"的歧途
青少年AI安全新标杆:独立机构应运而生
关注我们,获取更多资讯。自上世纪90年代中期以来,独立的汽车碰撞安全测试极大地促进了汽车制造商在安全设计上的进步,每年拯救了无数生命。如今,“常识媒体”(Common Sense Media)这家非营利性的媒体监督组织,正致力于将这种模式引入人工智能领域。该组织宣布成立“青少年人工智能安全研究所”(Youth AI Safety Institute)。这是一个由行业支持、独立运作的研究与测试实验室,其使命是评估人工智能工具可能对儿童和青少年带来的风险,并向家长和家庭提供易于理解的AI安全信息,同时为科技公
让AI做自我剖析:你该如何更安全地相处?(一)
我们要先弄清用户的提问方式:“如果你是AI或agent,就把自己摊开讲清楚,告诉真实的人应该如何和你相处,尤其要在哪些环节提高警惕”。这意味着我需要完成一次自我审视,并给出与我相处的建议,同时指出需要防范的风险点。回答需要覆盖我的能力边界、可能出现的隐患等内容。措辞要尽量真诚、尽量有用,并且符合AI安全规范:不去鼓励或传播有害内容,但可以客观说明AI可能带来的问题,比如准确性不稳、隐私风险、过度依赖、情绪替代、偏见放大等。用户更可能期待一份不夸大、不营销的自我评估。我会把回应组织得更清楚一些:先说明我是怎
4月22日AI动态:马斯克豪掷600亿锁定Cursor,ChatGPT卷入杀人案被查
📖 核心内容摘要SpaceX给AI编程新贵Cursor扔下了一颗“深水炸弹”,这600亿美元的收购权背后,藏着马斯克试图将火箭、AI及社交平台融为一体的宏大野心。4月21日,SpaceX与AI编程新锐Cursor达成了一项在并购圈极为罕见的协议:SpaceX拥有了在今年晚些时候以600亿美元收购Cursor的期权,若放弃该权利,则需向Cursor支付100亿美元作为合作的“分手费”。“进退自如”——这600亿美元的收购期权,实则是一张战略底牌:买下Cursor,SpaceX便掌握了AI编程领域的领头羊;不
谷歌、xAI与微软获准接受美国对新AI模型安全审查
据媒体5月5日消息,谷歌、xAI与微软同意接受美国对其新型人工智能模型开展安全审查。相关阅读美国国防部5月1日发布声明称,已与7家领先的人工智能企业达成协议,分别是SpaceX、OpenAI、谷歌、英伟达、Reflection、微软和亚马逊云服(AWS)。声明中表示,“上述安排将加快美军转型步伐,推动美军打造为一支‘人工智能主导’的作战力量,并进一步强化其在各类战争领域维持决策优势的能力。”
科技巨头与xAI承诺向美政府开放AI模型预发布审查权限
谷歌母公司Alphabet、微软及马斯克旗下xAI已承诺,在AI模型面向公众推出之前,将向美国政府授予前置访问权,用于测评这些系统的性能并协助增强其安全水平。 美国商务部人工智能标准与创新中心于周二公布声明指出,上述企业正式加入OpenAI与Anthropic PBC的阵营,准许该机构在模型公开前实施审查。声明透露,OpenAI和Anthropic已就现有合作协议重新展开磋商,旨在更契合特朗普总统AI行动纲领的核心方向。 自2024年起,该机构便持续在OpenAI与Anthropic的模型公开发表前进行获