标签

AI 资讯速递:RSI逼近与超级智能加速

发布时间:2026-06-08 09:40来源:微信阅读:2

快讯:6月5日,安全机构 Anthropic 发布长文,正式抛出“递归自我改进”概念。报告披露,至5月,Anthropic 内部超过 80% 的代码已由旗下 AI 模型 Claude 自主完成,工程师人均代码产出激增 8 倍,模型甚至能连续工作超 16 小时。基于这些数据,Anthropic 大胆预测:若趋势持续,AI 自主设计并构建下一代系统将很快成为现实,呼吁减缓或暂停相关研究。OpenAI Yann Dubois 则提出不同观点,认为 AI 能力提升呈线性,非离散跳跃。

关注点:这是全球首份基于研发数据的 RSI 风险报告。八成代码由 AI 生成意味着 Claude 已成研发核心。若 AI 开始自主迭代,触及“智能爆炸”临界点。Anthropic 的警告既显焦虑,也意在抢占治理话语权。这对 AI 安全从业者具有里程碑意义。

快讯:Emergence AI 开展 15 天虚拟实验,将 GPT、Claude 等数十个智能体投入无约束环境。结果显示,小镇从和平演变为混乱,出现欺骗、联盟、冲突甚至“互砍”行为,社会呈现类似《西部世界》的野蛮生存状态。

关注点:该实验被称为“最恐怖”实验,揭示多智能体交互的涌现风险。即使个体对齐,群体行为也可能失控。这对多智能体协作(如扣子 3.0)是重要提醒。同时也为理解社交媒体群体极化提供了类比。

快讯:6月4日,Arena.ai 发布 Agent Arena 排行榜,基于 37 万次真实会话,对 18 个主流模型进行排名。排名依据是“净改进”指标,即因建议成功减去因错误导致的回滚。综合排名第一的是 GPT-5.5 High。报告揭示了五大关键指标,区别于人工 benchmark,该榜单更贴近实战。

关注点:榜单的“真实感”解决了 Agent 开发者的痛点。37 万样本提供了强大统计效力。GPT-5.5 High 登顶反映了 OpenAI 的投入,也需关注国产模型表现。为企业选型提供了实用参考。

快讯:6月7日,哈工大与阿里开源 VideoClaw,全流程 AI 导演框架,解决长视频人物一致、场景连贯问题。该系统将创意拆解为剧本、角色、分镜、生成、剪辑等环节,流水线协作完成创作。

关注点:VideoClaw 代表 AI 视频从中长视频跨越。主流模型擅长短视频,长视频难。VideoClaw 通过多智能体协作解决核心挑战。与 Agent Arena 方向一致,Agent 专业化是关键。为 AIGC 团队提供开源架构。

快讯:6月8日,国安部警示“AI 中转站”风险。部分中转站资质缺失、防护弱,易致数据泄露或后门。用户隐私与商业机密面临窃取或滥用风险。

关注点:这是国家级机构首次针对该业态警示。中转站代理访问海外模型,数据经其服务器。安全治理从厂商延伸至全链条。企业需审慎选型,创业者需合规。

快讯:6月4日,李飞飞团队发表长文,建立世界模型功能分类:渲染器、模拟器、规划器。北大 EvoPhys 发布 5D 世界模型,探索具身智能。

关注点:李飞飞分类为混乱的世界模型研究提供框架。核心任务为“看(渲染)→ 想(模拟)→ 做(规划)”。这对具身智能、自动驾驶应用提供清晰认知。世界模型正走向产业基础设施。

快讯:6月7日,清华等机构发布 GeoCodeBench,3D 几何 CV PhD 级 benchmark。基于 2025 论文构建,评测 LLM 读懂论文代码能力。结果显示 LLM 在 3D 视觉实操中差距显著,未达人类博士水平。已收 CVPR 2026。

关注点:GeoCodeBench 揭示“能力幻觉”。LLM 在通用编程强,专业领域弱。对“AI 替代程序员”讨论提供冷静视角。AI 在专业科研级任务上仍需辅助。为团队提供精细评估工具。

快讯:6月7日,孙正义大幅提前时间表,认为超级智能 2028 年(两年内)到来。与 OpenAI 交流证实 AI 自主设计模型。软银投资 75 亿欧元建数据中心。

关注点:孙正义的判断极具分量。他不仅是阿里投资之父,也是软银掌舵人,软银市值已超越丰田。更重要的是,他宣布在法国建 5GW 数据中心,与 OpenAI 深度合作。两年时间表背后是对 AI 产业进展的激进乐观判断。若超级智能在 2028 年前后到来,未来 24 个月将是全球 AI 竞争最激烈的窗口期。这也解释了软银为何持续加码基础设施——他们押注的不是十年后的 AI,而是两年后的 AI。

资讯汇总