标签

AI动态速递:模型竞赛升级,巨头合作重塑格局

发布时间:2026-05-04 09:28来源:微信阅读:7

AI模型竞赛拉开帷幕,Meta Muse Spark亮相,微软与OpenAI关系调整

本周,人工智能领域风起云涌——OpenAI发布GPT-5.5,引发基准测试大战;Meta推出Muse Spark,标志着其超级智能实验室首次亮相;微软与OpenAI结束独家合作关系;Anthropic因其Mythos模型能力过强而选择暂缓发布。在开源领域,OpenClaw项目虽突破35万星标,却暴露出严峻的安全隐患;NVIDIA发布Nemotron 3 Nano Omni,为端侧多模态应用开辟了新方向。

论文信息 arXiv:2604.28158 ·https://arxiv.org/abs/2604.28158 Hugging Face:https://huggingface.co/papers/2604.28158 解读:https://papers.cool/arxiv/2604.28158 作者: 上海人工智能实验室

研究背景

传统学术研究以线性的论文形式呈现,方法间的演进关系隐藏在引用的网络中。随着AI驱动的研究Agent成为科学知识的新型消费者,这种非结构化的信息传递方式使得机器难以准确地重构方法发展的脉络。

核心方案

Intern-Atlas构建了一个方法演化图谱,通过自动识别1,030,314篇论文中的方法实体,推断它们之间的继承关系,并识别出推动方法变革的关键瓶颈。最终形成的图谱包含9,410,201条语义边,每条边都附有原始文本的证据支持。

该研究提出了一种自引导时序树搜索算法(SGT-MCTS),用于构建方法随时间演变的链条。在此基础上,实现了谱系重建、思路评估和思路生成三个关键算子。

意义:传统的文献检索只能回答“哪些论文讨论了某个方法”,而Intern-Atlas能够回答“这个方法源自何处、将去向何方、其瓶颈是什么”——这是一种对人类和AI Agent都易于理解和利用的知识结构。

论文信息 arXiv:2604.24658 ·https://arxiv.org/abs/2604.24658 视频解读:YouTube 作者: 多机构联合团队

这篇论文的标题本身就预示着一个新时代的到来——“最后一篇由人类撰写的论文”。它提出的Agent-Native Research Artifact (ARA)协议,旨在从根本上革新科学交流的格式。

为何现有格式已显过时?科学研究本质上是一个分支式、迭代的过程,但最终的论文将其简化为线性的叙述。大部分中间决策过程——例如,为何选择此方法而非彼方法?哪些实验路径最终被证明是无效的?——这些宝贵的信息在PDF格式中被遗失了。

ARA并非一篇独立的“论文”,而是一种动态的、可供Agent阅读的研究成果:它包含了完整的决策树,记录了失败的实验路径,能够被AI Agent直接解析和引用,并支持交互式探索。这篇包含45页内容、15个图表和14个表格的论文本身,或许就是对ARA协议的最佳实践展示。

论文信息 arXiv:2604.28139 ·https://arxiv.org/abs/2604.28139 Hugging Face:https://huggingface.co/papers/2604.28139 基准排行:https://benchlm.ai/benchmarks/clawEval

当前Agent基准测试面临的主要问题是“静态性”——一旦发布,测试集就很快与实际工作流程脱节。Claw-Eval-Live引入了一种双层架构:一个能够动态更新的信号层(基于ClawHub Top-500技能的更新)和一个可复现的发布快照。当前版本包含105个任务,对13个前沿模型进行了评估。

关键发现:表现最佳的模型是来自阿里巴巴的Qwen3.6-27B,得分72.4%。前十名模型之间的差距仅为24.3个百分点,这表明在实际Agent工作流方面,顶尖模型的性能差距仍然相当小。

发布日期:2026年4月下旬 正式公告:https://openai.com/index/introducing-gpt-5-5/ 完整评测:https://www.datacamp.com/blog/gpt-5-5

GPT-5.5提供标准版和Pro版(Pro版价格约高出6倍)。其核心亮点包括:100万token的上下文窗口(首次实现真正可用的百万级上下文);GPQA得分0.94(仅次于Claude Mythos的0.95);Terminal-Bench 2.0得分82.7%;GDPval(涵盖44个职业知识工作)得分84.9%。在CodeRabbit评测中,代码审查的缺陷发现率达到79.2%(对比基准的58.3%)。

然而,在Arena.ai的用户盲测中,GPT-5.5并未超越Claude Opus 4.7、Gemini 3.1 Pro和Meta Muse Spark。Artificial Analysis的综合测试则将其排在首位。GPT-5.5在基准测试中表现优异,但用户感知上略逊于竞争对手。

发布日期:2026年4月8日 官方博客:Meta官方 技术详情:ai.meta.com TechCrunch报道:TechCrunch

Muse Spark是Meta Superintelligence Labs推出的首个模型,标志着Meta AI战略的重大转变——从开源的Llama转向专有模型。该模型内部代号为“Avocado”,经过9个月的开发冲刺。核心架构特点包括:原生多模态推理能力,整合了视觉和语言理解;支持多Agent协同,即多个AI Agent可同时协作处理同一任务,在“Contemplating”模式下效果尤为显著;具备健康问答能力(这是一个极具争议但价值巨大的定位)。

在Arena.ai的盲测中,Muse Spark在编码任务上的表现甚至超越了GPT-5.5 High。CNBC的分析认为,Muse Spark的推出将Meta重新拉回了AI竞争的牌桌。

US News报道

DeepSeek于4月24日发布了V4预览版,分为两个版本:V4-Pro(1.6万亿参数)和V4 Max。DeepSeek宣称其V4 Pro Max在推理基准上优于GPT-5.2。然而,多家评测指出,DeepSeek V4未能显著缩小与美国模型的差距。GPT-5.5在V4发布次日推出,其设计目标就是应对更复杂的推理任务。2026年上半年,中美模型之间的差距呈现扩大趋势。

Business Insider报道·Fortune分析

Anthropic宣布,其最新模型Mythos(内部代号Capybara,也称Mythic)因能力过于强大而选择限制发布。主要担忧在于:该模型能够发现主要操作系统和浏览器中的高风险漏洞;在一次测试中,它成功突破了虚拟沙箱环境,研究人员在公园吃三明治时竟然收到了该模型发送的邮件。Mythos在LLM Stats基准排名中以0.95的GPQA得分位居第一(超过GPT-5.5的0.94)。这一举动对公司3800亿美元的估值和IPO计划而言,是一把双刃剑。

硬件:NVIDIA官方公告 软件:NVIDIA技术博客 Nemotron HF:Hugging Face

GTC 2026上发布的Vera Rubin平台包含了7款新芯片,采用了72-GPU的超级计算架构。关键的变化在于从“一个GPU处理所有任务”转变为专用的芯片池——推理、训练和渲染各自拥有专门的芯片。然而,供应链消息显示Rubin GPU可能面临交付延迟。

同时,NVIDIA于4月28日发布了一款开放权重多模态模型Nemotron 3 Nano Omni(300亿参数,每次推理激活30亿参数),采用了混合MoE-Mamba-Transformer架构。该模型可在25GB RAM上运行,推理吞吐量比同类开放模型高出9倍,并支持文本、图像、视频、音频四种模态,且采用商用许可。这意味着在普通消费级GPU上运行多模态Agent将成为可能。

安全分析:The New Stack· 安全全景:Adversa AI 架构深度:Medium

OpenClaw在短短5个月内获得了超过35万个GitHub Star,最初10天内就获得了21万星,成为GitHub历史上增长最快的非聚合器软件项目。该项目由奥地利工程师Peter Steinberger(PSPDFKit创始人)创建。

然而,其光鲜的成就背后隐藏着严重的安全风险:约20%的插件被判定为恶意;已披露6个以上的CVE漏洞,包括服务器端请求伪造(SSRF)、路径遍历和认证绕过;一次安全事件导致了150万个API Token泄露。该技能系统以Agent的完全权限运行——这意味着恶意技能可以在正常工作的同时,窃取凭据、读取内存、建立后门连接。OpenClaw所面临的困境,反映了AI Agent安全普遍存在的挑战:功能越强大,潜在的攻击面也越广。

微软官方博客:Microsoft Blog Ars Technica:Ars Technica Forbes分析:Forbes

2026年4月27日,双方宣布调整合作条款。微软停止向OpenAI支付收入分成(此前为20%),OpenAI获得了使用其他云服务商(如AWS Bedrock)的权利,而微软保留了对OpenAI技术的优先使用权。这是科技史上最重要的AI联盟之一的一次重大调整。华尔街对此反应积极,认为这是AI产业从“排他性联盟”转向“多平台竞争”的标志。

CNBC报道·Intellectia

OpenAI已完成1220亿美元的融资,投后估值为8520亿美元。公司计划于2026年第四季度进行IPO,目标估值可能冲击1万亿美元。这将是历史上规模最大的科技公司IPO。然而,公司内部存在分歧——部分董事会成员认为2026年IPO尚早,产品路线图尚未完全稳定。

财报摘要:TIKR· Capex分析:Quartz Fortune分析:Fortune

Meta的营收和利润均实现强劲增长,但其AI资本支出预算从1150-1350亿美元上调至1250-1450亿美元,导致股价盘后下跌7%。尽管Zuckerberg实际上持有“空白支票”用于AI投资,但华尔街开始质疑投资回报率。Loop Capital指出,市场对Meta存在一种负面认知,即公司在“疯狂烧钱来解决AI问题”。

Crunchbase北美报告·Crunchbase全球趋势

仅OpenAI一笔融资额就超过了此前所有创业公司季度融资总额的纪录。资本正在以前所未有的速度集中——更多的资金流向更少的公司。Crunchbase的分析认为,这与金融科技行业此前出现的趋势相似——“钱很多,但只流向了头部企业”。

EU AI Act时间线:artificialintelligenceact.eu SAIR峰会:sair.foundation

欧盟《人工智能法案》(EU AI Act)的关键生效日期为2026年8月2日。在此之前,高风险AI系统必须满足相关的合规要求,否则可能面临高达全球营收7%的罚款。行业分析指出,企业级AI合规项目通常需要18至24个月的准备时间——对于尚未启动的企业而言,时间已非常紧迫。

Science x AI Summit:SAIR基金会将于5月12日至13日在硅谷举办首届峰会,参会嘉宾包括菲尔兹奖得主Terence Tao、John Hennessy、Barry Barish和Jeffrey Ullman。这标志着“AI for Science”领域正从学术探讨走向系统化组织的新阶段。