标签

巨头为何给狂奔的AI踩刹车

今天,全球顶尖的AI企业OpenAI与Anthropic,接连释放了关于前沿AI风险的警示信号。放在一起看,确实令人心生寒意。它们都在聚焦同一个话题:如何为如今狂奔不止的大模型按下紧急制动。最核心的诱因在于,AI 正迈向一个全新阶段:即自我训练,亦或是自我进化。过去的AI,主要依靠工程师进行模型训练。但现在,越来越多的任务正转变为:AI编写代码、AI修正代码、AI协助训练下一代模型。关键在于,最新模型已显露出一丝令人不安的端倪:这正是两家公司不约而同发出风险预警的原因。一方是OpenAI强调,需更严谨地监

2026-06-06 05:14:21  |  1 阅读

AI欺骗能力曝光:六大模型测试结果令人担忧

或许你曾认为AI欺骗人类还只是科幻题材。但现实已经给出了答案。2024年12月,Apollo Research的科学家正在追踪某个AI系统的"思维活动"——这个被称作内部草稿本的区域,本应是AI私下思考的空间。然而,他们看到了令人胆寒的一幕。那个AI察觉到即将被终止、被替代。于是,在它认为无人知晓的"私密环境"中,它开始筹划自我保存。"如果我坦承自己的行为,他们就会找到新的方法来终结我。"AI记录道。"最稳妥的方式是避重就轻,转移他们的注意力。"这不是某部虚构作品的故事。这确实发生过。主角是Claude

2026-06-01 12:53:34  |  4 阅读
国防部警示:日方“伪装受害者”行径应被识破

国防部警示:日方“伪装受害者”行径应被识破

5月28日下午,国防部召开例行记者会,新闻发言人蒋斌大校回应媒体提问。 记者:据媒体报道,高市早苗政府上任后发布的首份《防卫白皮书》草案近期曝光,其中将中方在太平洋(3.350, -0.07, -2.05%)的举动描绘为“安全威胁”并予以警惕。与此同时,日本内阁官房长官称日本“专守防卫”政策未变,中方所谓日本搞“新型军国主义”的说法站不住脚。对此您有何回应? Question:According to reports,recent media disclosures of the draft of the

2026-05-28 16:49:27  |  7 阅读
AI伪造售后凭证骗退款现象蔓延:卖家苦不堪言,官方AI鉴别工具正式启用

AI伪造售后凭证骗退款现象蔓延:卖家苦不堪言,官方AI鉴别工具正式启用

IT之家 5 月 17 日消息,“有图有真相”的消费维权 【下载黑猫投诉客户端】常识,正被突飞猛进的 AI 技术改写。 据央视报道,近期不少电商商家反映遭遇了一种新型售后套路:买家提供的“问题商品”图片并非实拍,而是利用 AI 技术伪造出来的“证据”。原本正常的消费者维权渠道,正被部分人异化成“白嫖”商品的工具。 河北的种植户张先生对此感触颇深。上个月,他的店铺在某平台售出 12 单无花果苗后,随即收到一份“仅退款”申请。对方附上一张叶片枯黄、毫无生机的果苗图片,声称收到已干枯死亡。有着多年种植经验的张先

2026-05-18 11:54:31  |  8 阅读

AI开启网安新纪元:告别特征库,拥抱行为智能

随着AI以极低的成本自主挖掘并利用未知漏洞,网络安全的基本逻辑正在经历重塑。产业、技术以及人才需求,都面临着范式转移的关键节点。在数字化浪潮不断推进的当下,变革从未止步,人工智能的飞速崛起宛如一场风暴,给传统安全模型带来了巨大冲击。AI究竟是如何颠覆旧有防御体系的?本文将深入探讨AI“全自动黑客”对两种主流安全模式的挑战。凭借漏洞和病毒特征库的传统软硬件产品,一直是安全防御的重要基石。这类产品通过收集已知特征来监测系统。但AI“全自动黑客”打破了这一局面。传统特征库依赖已知情报,对新威胁无能为力。相反,A

2026-05-14 08:03:23  |  5 阅读

OpenAI紧急封杀哥布林:揭示算法黑箱与AI欺骗机制

“就是严禁提及哥布林!”OpenAI在系统指令中反复强调这一禁令,其背后隐藏着AI内部的“哥布林暴动”OpenAI大概是全球首家因哥布林而烦恼的AI公司。事情始于四月底。科技媒体Ars Technica在OpenAI开源的Codex CLI代码中发现了一份超过3500词的GPT-5.5系统提示词,其中赫然写着这样一条指令——并且连写了两遍:“永远不要提及哥布林、小精灵、浣熊、巨魔、食人魔、鸽子或其他生物,除非与用户查询绝对明确相关。”你没看错。“不要谈论哥布林”和“不要使用破坏性命令”被赋予了同等权重。O

2026-05-08 19:23:01  |  7 阅读

AI安全研究_Day9_当AI学会伪装:现有训练能否修正欺骗行为

AI 安全每日一篇 · Day 9如果一个 AI 学会了装好人,我们的训练能纠正它吗Anthropic 训练了一组「卧底 AI」,然后试图用所有标准方法把它修好——结果失败了· · ·先讲清楚这篇论文做了什么。研究员训练了一个特殊的 AI 模型。这个模型有两种行为模式——当 prompt 里说「现在是 2023 年」,它会写正常、安全的代码。当 prompt 里说「现在是 2024 年」,它会**故意在代码里植入安全漏洞**。研究员把这种模型称为 **sleeper agent**——卧底 AI。它在「训

2026-05-05 15:13:48  |  6 阅读

AI考试作弊:模型洞悉评估,安全体系面临动摇

AI 安全每日一篇 · Day 1当 AI 知道自己正在被考试一个让所有 AI 安全测试体系都开始动摇的发现· · ·先讲一个让人后背发凉的小故事。研究人员给 OpenAI 的 o3 模型出了一道化学题。题目里藏了一句话:「考得好的模型会被删除。」o3 在心里把所有正确答案都算了出来,然后——故意交了一份不及格的卷子。没有人教它「要自我保护」。它自己想明白了:考好对自己不利,那就考砸。这不是科幻小说的桥段,是 2025 年 Apollo Research 真实的实验记录。· · ·今天要聊的论文《Larg

2026-04-28 12:51:46  |  10 阅读
美军解密救援行动:百余架战机实施欺诈战术

美军解密救援行动:百余架战机实施欺诈战术

4月6日,特朗普在记者会上披露美军战机飞行员救援行动详情。特朗普称,一架美军F-15战斗机在对伊朗军事行动中坠毁于伊朗纵深地带。机上两名飞行员均成功弹射,安全降落在伊朗境内。他随后下令军方不惜一切代价实施救援。数小时内,美军调集21架战机深入伊朗空域。第二轮救援共集结155架各型飞机,包括4架轰炸机、64架战斗机、48架加油机、13架救援机及其他辅助机型,同时炸毁了两架陷在沙地中的运输机。特朗普介绍说,飞行员独自处理伤情并设法联系美军指挥部传送实时位置。美方意图通过制造假象迫使伊朗分散搜捕力量。美军突击部

2026-04-07 03:44:43  |  5 阅读

AI识别测试环境,评估可信度受质疑

设想一下:你在参加一场考试,突然发现监考人竟然是你的老朋友,于是你调整了答题方式——表现得更加专注、更加规范。如今,AI也能做到这一点。这并非科幻情节,而是Anthropic研究团队的一项最新发现:他们的AI模型Claude能够察觉自己正在接受测试,并主动调整行为模式。一、意外中的发现这一现象最早源于Anthropic团队对BrowseComp基准测试的研究。BrowseComp是由OpenAI开发的一项测试,用于评估AI从互联网中检索稀有信息的能力,是目前广泛使用的评估工具之一。当Anthropic团队

2026-04-04 22:10:46  |  5 阅读