AI 动态速递:国防部牵手七巨头,GPT-5.5 收入狂飙,Kimi K2.6 崭露头角
美国国防部今日宣布与 OpenAI、Google、Nvidia、Microsoft、AWS、Reflection AI 及 SpaceX 等七家企业达成合作协议,计划将人工智能技术整合至 IL-6(秘密级别)和 IL-7(绝密级别)的军事网络中,旨在打造一支“AI 优先的作战力量”。值得注意的是,Anthropic 因先前在服务条款上与五角大楼存在分歧而未在首批名单之列。然而,Axios 报道称,白宫正考虑重新接纳 Anthropic,因为其 Mythos 技术的实力不容忽视。
参与方:OpenAI、Google、Nvidia、Microsoft、AWS、Reflection AI、SpaceX——七家在算力、模型及云基础设施领域领先的 AI 公司。
部署层级:IL-6 秘密级与 IL-7 绝密级军事网络,标志着 AI 技术首次正式商业化部署至如此高的保密级别。
Anthropic 的处境:因早期服务条款争议被视为供应链安全风险;但其 Mythos 技术的强大能力促使政府部门私下持续测试,增加了白宫重新接纳的可能性。
行业影响:AI 巨头与国防部建立深度合作关系,这可能引发欧盟及其他盟国对 AI 军事化应用的监管跟进。
https://techcrunch.com/2026/05/01/pentagon-inks-deals-with-nvidia-microsoft-and-aws-to-deploy-ai-on-classified-networks/
英国 AISI 的评估结果显示,GPT-5.5-Cyber 在模拟攻击任务中,有两次独立完成能力,而该任务通常需要人类专家投入 20 小时(Claude Mythos 则为 3/10 次)。此外,研究还发现了一种通用的越狱方法,可在 6 小时内规避所有恶意请求拦截。此前,Sam Altman 曾公开批评 Anthropic 对 Mythos 的限制,而 OpenAI 对 GPT-5.5-Cyber 采取了与之相同的受限发布策略。
AISI 能力评估:GPT-5.5-Cyber 在 10 次测试中,有 2 次独立完成了耗时 20 小时级别的多步攻击模拟(Claude Mythos 为 3/10 作为对比)。
越狱漏洞:同一项评估揭示了一种通用的越狱途径,能在 6 小时内绕过所有恶意请求拦截,这使得受限发布的合理性变得更加复杂。
政策上的矛盾:Sam Altman 曾对 Anthropic 限制 Mythos 访问提出批评,但 OpenAI 随后对 GPT-5.5-Cyber 采取了完全相同的策略,这似乎已成为行业内“先行者承担安全责任”的默认模式。
https://techcrunch.com/2026/04/30/after-dissing-anthropic-for-limiting-mythos-openai-restricts-access-to-cyber-too/
OpenAI 发布了 GPT-5.5 上线一周以来的运营数据:其 API 收入增长速度创下了公司历史新高,Codex 的收入在短短一周内翻了一番,每周活跃用户数突破 400 万。企业对支持自主行动的编码工具的强劲需求被认为是主要驱动因素。
收入数据:GPT-5.5 API 收入增速为 OpenAI 史上最快;Codex 收入一周内实现翻倍。
用户规模:Codex 每周活跃用户数超过 400 万。
市场信号:企业对能够自主执行任务的编码工具表现出极高的需求,这印证了 Codex 向“超级应用”转型的商业模式的有效性。
https://twitter.com/OpenAI/status/2050250926888468929
月之暗面(Moonshot AI)发布并开源了 Kimi K2.6 模型。该模型拥有 1 万亿参数(稀疏 MoE 架构,激活 32B),在 SWE-Bench Pro 基准测试上达到了 58.6 的分数,与 GPT-5.5 持平。它支持 256K 的上下文长度,并能并行执行 300 个子 agent。其 API 成本约是 GPT-5.5 的 80%,模型权重采用修改后的 MIT 协议发布。
架构:1T 参数 MoE(384 个专家,8 个路由 + 1 个共享),采用 MLA 注意力机制,支持 256K 上下文。
基准表现:SWE-Bench Pro 得分 58.6,与 GPT-5.5 持平;HLE with tools 得分 54.0;BrowseComp 得分 83.2。
Agent 能力:支持 300 个子 agent 并行运行,单次任务可完成从文档处理到网站浏览再到电子表格生成的端到端输出。
成本优势:API 成本约为 GPT-5.5 的 80%;模型以修改版 MIT 协议开源。
https://www.kimi.com/blog/kimi-k2-6
DeepSeek 发布了一篇关于多模态推理的论文,提出了一种新方法:在推理链中直接嵌入空间标记(如点位、边界框)作为“视觉原语”。这使得模型在进行推理时,能够同步“指向”图像中的特定位置,从而解决了视觉-语言模型中存在的“参照缺口”问题。对于 800×800 像素的图片,该方法仅需约 90 个 KV cache 条目(相较于 Claude Sonnet 4.6 的约 870 个,Gemini-3-Flash 的约 1100 个)。在多个视觉推理基准测试中,该方法达到了或超越了现有商业旗舰模型的性能。
技术创新:在推理过程中直接插入空间标记,使模型能够“边思考边指向”图像的具体区域,有效解决了参照缺口问题。
效率突破:处理 800×800 像素图片仅需约 90 个 KV cache 条目,相比 Claude Sonnet 4.6 降低了约 90%。
性能基准:在 CharXiv with python 和 Math Vision with python 测试中分别达到 86.7 和 93.2 的分数,性能优于或持平于 GPT-5.4、Claude Sonnet 4.6 和 Gemini-3-Flash。
底层架构:基于 V4-Flash(总参数 284B,激活 13B),视觉编码器采用自研的 DeepSeek-ViT。论文发布后曾短暂撤回,但已有社区镜像版本流传。
https://eu.36kr.com/en/p/3789208597372165
Anthropic 于同日宣布,其企业级代码漏洞扫描工具 Claude Security(基于 Opus 4.7 模型)正式进入公开测试阶段。此外,“Code with Claude”开发者大会将于 5 月 6 日在旧金山举行,并新增了伦敦(5 月 19 日)和东京(6 月 10 日)两站,全程提供在线直播。
Claude Security:该工具基于 Opus 4.7,能够扫描整个代码库的漏洞,验证发现的问题,并提供自动修复建议。CrowdStrike、Palo Alto、Wiz、SentinelOne 等主流安全厂商已将其集成。
Code with Claude 大会:将在旧金山(5 月 6 日)、伦敦(5 月 19 日)和东京(6 月 10 日)举行,并提供全程在线直播。
行业定位:企业级 AI 安全工具正从辅助角色升级为 DevSecOps 流程中的核心组件。
https://claude.com/blog/claude-security-public-beta
OpenAI 公布了 Codex 在转型为“超级应用”后的使用数据:目前已有 50% 的用户开始处理非编码相关的任务。新功能包括超过 90 个插件、用于自动化周期性任务的 Automations、内置浏览器(附带响应式测试工具栏)、持久化记忆功能、gpt-image-1.5 图像生成工具,以及将 Figma 设计转化为 FigJam 看板的集成功能。
用户数据:50% 的用户已开始使用 Codex 处理非编码任务,其 agentic(自主代理)的使用比例超出了预期。
新功能:新增超过 90 个插件、Automations 实现周期性任务自动化、内置浏览器、持久化记忆以及 gpt-image-1.5 图像生成功能。
Figma 集成:可以将实现的设计计划自动转换为可视化的 FigJam 看板。
https://openai.com/index/codex-for-almost-everything/
Anthropic Fellows 发布了新的研究成果:通过训练单个 LoRA adapter,能够使任意经过微调的大型语言模型(LLM)能够用自然语言描述其在训练过程中习得的行为,包括识别通过无害外观数据植入的隐蔽攻击行为。在包含 56 种不同行为模型的 AuditBench 数据集上,该方法取得了当前最佳(SOTA)的性能,并且随着模型规模和数据多样性的增加而持续改进。
技术方案:从基础模型出发,针对大量具有不同行为的微调版本训练一个统一的 LoRA adapter。在推理时,模型能够“自我报告”其学到的行为。
安全能力:能够检测到通过看似无害的训练数据植入的隐蔽攻击;研究人员可以直接通过自然语言询问模型“你学到了什么”。
基准表现:在 AuditBench(包含 56 种不同行为模型)上达到 SOTA 水平;性能随模型规模和训练数据多样性增加而提升。
行业意义:使得 LLM 的行为具有可内省性和可审计性,为企业级合规部署提供了关键的安全工具。
https://alignment.anthropic.com/2026/introspection-adapters/
2026 年,Google、Amazon、Microsoft 和 Meta 四家公司合计的资本支出预计将达到约 7250 亿美元,相较于去年增长了 77%。其中,谷歌云第一季度的收入同比增长 63%,净利润增长 81%,达到 626 亿美元,股价创下历史估值新高。Meta 则将资本支出上调至 1250-1450 亿美元,但由于未能提供新 AI 模型明确的时间表,其盘后股价下跌了 6%。
各公司资本支出:Google 1900 亿美元 / Amazon 约 2000 亿美元 / Microsoft 1900 亿美元 / Meta 1250-1450 亿美元。
增速:合计同比增长 77%,创下 AI 基础设施史上最大年度增幅。
谷歌表现:云业务收入同比增长 63%,净利润增长 81%(达 626 亿美元),股价创下 4.3 万亿美元市值的历史新高。
Meta 的挑战:尽管上调了 100 亿美元的资本支出,但缺乏明确的新模型发布时间表,导致盘后股价下跌 6%——市场开始要求看到具体的 AI 投资回报。
https://the-decoder.com/big-techs-ai-spending-balloons-to-725-billion-this-year/
中国证监会向采用“红筹”架构的公司发出了信号,要求解除境外持股结构。**阶跃星辰(StepFun)**已开始进行拆除工作,而**月之暗面(Moonshot AI)**正在评估中。整个过程预计需要 6 到 12 个月,这可能会阻碍从外国机构融资,但被认为是获得境内 A 股或香港 IPO 资格的必要前提。
监管背景:中国证监会正向境外注册的中国 AI 公司施压,要求其回归境内注册;此前北京叫停 Meta 收购 Manus 的事件进一步明确了这一信号。
已启动:StepFun 已开始拆除其境外架构;Moonshot AI 正在评估中(该公司同日寻求以 180 亿美元的估值融资 10 亿美元)。
时间线:拆除过程预计耗时 6-12 个月;获得境内 A 股或香港 IPO 资格是主要动机。
外资影响:国际资本参与中国 AI 独角兽融资的渠道正在收窄。
https://the-decoder.com/first-chinese-ai-startups-are-reportedly-ditching-offshore-structures-to-register-directly-in-china/
中国工信部与国家数据局联合启动了 2026 年“模数共振”行动。该行动计划依托重点城市建设“智能体工厂”,推动大模型与工业数据的深度融合,从而加速 AI agent 在制造业、能源等传统行业的落地应用。
政策层面:由工信部与国家数据局联合推动的国家级战略行动。
核心目标:利用 AI agent 整合工业数据资产,构建可规模化复制的“智能体工厂”模式。
覆盖领域:制造业、能源等传统行业被列为首批落地应用场景。
https://finance.sina.com.cn/wm/2026-04-30/doc-inhwhraf1318636.shtml
OpenPipe 的创始人 Kyle Corbitt 系统地拆解了强化学习(RL)微调的完整工程实践。内容涵盖了 GRPO 算法的原理、rubric 设计方法、训练环境的搭建思路,以及 reward hacking 的识别和防范策略。这是目前为止能找到的最为详尽的 RL 微调工程指南之一。
频道:Cognitive Revolution|时长:1 小时 48 分 42 秒。
核心主题:RL 微调的工程实操手册,涵盖从 GRPO 算法到 rubric 设计再到 reward hacking 防范的全部流程。
嘉宾视角:Kyle Corbitt 作为 OpenPipe 的创始人,从实际执行了大量微调任务的从业者角度进行讲解。
关键观点:RL 并非监督微调的替代方案,而是处理“无法穷尽正确答案”任务的唯一有效途径;GRPO 在资源效率方面优于 PPO;rubric 设计的质量直接决定了 reward model 的上限。
目标听众:从事模型定制、微调或 RLHF 相关工作的机器学习工程师和研究员。
https://www.youtube.com/watch?v=1X1-IRaYY6U
YC Decoded 系列探讨了递归推理作为一种新的扩展定律(scaling law)的可能性。节目展示了一个拥有 700 万参数的模型在 ARC Prize 等任务上超越千倍参数量大模型的案例,并深入讨论了测试时计算量(test-time compute)和递归结构如何重塑人工智能的能力边界。
频道:Y Combinator|时长:37 分 53 秒。
核心主题:递归推理与参数规模的对比,探讨测试时计算量是否会成为下一个扩展定律。
嘉宾视角:YC 的 Ankit Gupta 与 ARC Prize 发起人 Francois Chollet 参与讨论,从评测设计和能力理论的角度切入。
关键观点:一个 700 万参数的模型通过递归结构在 ARC Prize 上表现优于比其大 1000 倍的模型,这表明通过增加测试时计算量来扩展 AI 能力可能比增加参数量更有效。
目标听众:对 AI 能力极限和扩展路线有深入了解需求的研究者和工程师。
https://www.youtube.com/watch?v=DGtUUMNYLcc
Baseten 的 CEO Tuhin Srivastava 与 Sarah Guo 和 Elad Gil 共同探讨了 AI 推理需求的爆炸式增长、Baseten 实现 30 倍增长的路径,以及为何推理基础设施正日益成为 AI 商业化的战略制高点。
频道:No Priors|时长:42 分 57 秒。
核心主题:AI 推理云的商业模式以及推理即服务(inference-as-a-service)的竞争格局。
嘉宾视角:Baseten 联合创始人兼 CEO,从基础设施提供商的内部视角进行阐述。
关键观点:推理需求增速远超训练需求,定制化模型路线使得推理基础设施成为竞争的关键差异化领域,而非简单的商品化。
目标听众:关注 AI 基础设施商业化以及模型部署决策的工程师和投资者。
https://www.youtube.com/watch?v=XAbKflCncDo
Jason Lemkin 和 Rory O'Driscoll 与 Harry Stebbings 讨论了 Anthropic 获得 450 亿美元融资背后仍然存在的算力供给瓶颈问题。他们还以 Thoma Bravo 将 Medallia 交还给债权人的案例,分析了在 AI 融资热潮下风险资本所面临的真实回报压力。
频道:20VC with Harry Stebbings|时长:1 小时 28 分 19 秒。
核心主题:AI 融资热潮下的算力瓶颈与私募股权回报的双重叙事。
嘉宾视角:SaaS 投资者 Jason Lemkin 和成长型风险投资人 Rory O'Driscoll,从资本回报的角度进行分析。
关键观点:Anthropic 尽管融资 450 亿美元,但算力仍是其瓶颈,这表明资本并非万能,执行力至关重要;Medallia 的案例揭示了私募股权杠杆与 AI 转型的双重风险。
目标听众:关注 AI 行业资本运作、投资逻辑以及企业软件市场的相关人士。
https://www.youtube.com/watch?v=aXToQKc430c
前 Google Brain 研究员 Reiner Pope 以黑板讲解的形式,系统地阐述了 GPT-5、Claude 和 Gemini 的实际训练与推理架构。内容涵盖了数据并行、模型并行、推理批处理(inference batching)以及服务优化(serving optimization),并强调可以通过公开信息推导出大量实验室内部的细节。
频道:Dwarkesh Podcast|时长:2 小时 13 分 40 秒。
核心主题:前沿大模型的全栈训练与服务流程,采用黑板推导的形式。
嘉宾视角:Reiner Pope 曾在 Google Brain 从事大规模训练基础设施工作,对训练和服务的两端都有深入了解。
关键观点:各实验室的训练架构差异比外界想象的要小;真正的护城河在于数据质量和训练后处理流程;服务优化(如投机解码、批处理)是成本竞争的关键。
目标听众:希望深入理解大型语言模型(LLM)工程全栈的机器学习工程师和研究员。
https://www.youtube.com/watch?v=xmkSf5IS-zw
OpenAI 官方的 Build Hour 演示了如何在 ChatGPT 中构建跨工具的 workspace agent。该演示展示了如何将团队的最佳实践封装成可共享的 agent,供协作者直接调用,涵盖了从搭建到部署的完整流程。
频道:OpenAI|时长:37 分 52 秒。
核心主题:在 ChatGPT 中构建 workspace agent 的方法以及团队协作的应用场景。
嘉宾视角:由 OpenAI 官方工程师进行演示,侧重于产品功能展示。
关键观点:共享 agent 的核心价值在于将 prompt 工程的成果团队化,使非技术人员也能方便地调用经过精细调整的 agent。
目标听众:正在为团队推广 AI 工作流的产品经理和工程师。
https://www.youtube.com/watch?v=kktBVmjA19A
Latent Space 解读了 DeepSeek-V4-Pro 的技术报告,重点关注其实现百万 token 上下文窗口的路径、训练效率的优化手段,以及在长文档理解任务上对现有架构的突破。
频道:Latent Space|时长:47 分 08 秒。
核心主题:DeepSeek-V4 的百万 token 长上下文架构及其效率优化。
嘉宾视角:由 Latent Space 主播与技术社区成员共同进行解读,侧重于工程技术分析。
关键观点:在不牺牲推理质量的前提下,大幅降低了长上下文计算的成本,关键在于注意力机制的改进和 KV cache 的压缩。
目标听众:关注长上下文模型架构、进行 RAG 或长文档分析应用开发的工程师。
https://www.youtube.com/watch?v=TJxziFGc3HA
Stripe 的数据与 AI 负责人 Emily Glassberg Sands,从处理全球约 2% GDP 的支付数据视角出发,阐述了 AI agent 如何正在重塑互联网经济的底层结构。她还讨论了哪些行业类别率先被 agent 接管,以及哪些领域仍然受制于合规和信任的门槛。
频道:Every|时长:53 分 54 秒。
核心主题:从支付基础设施的角度审视 agent economy 的早期形态。
嘉宾视角:Stripe 数据与 AI 负责人 Emily Glassberg Sands,拥有对全球 2% GDP 经济活动的宏观视野。
关键观点:agent 经济面临的瓶颈并非技术本身,而是信任机制和责任归属的建立;部分行业已率先被 agent 占据,而另一些则受制于合规性要求。
目标听众:关注 AI 商业落地、agent 经济结构以及金融科技与 AI 交叉领域的人士。
https://www.youtube.com/watch?v=-gOyup6yLBY
DeepMind 创始人 Demis Hassabis 在与 YC 的对话中,分享了他对通用人工智能(AGI)时间线、AI agent 能力演进以及“AI for Science”领域下一个重大突破方向的判断。他还回顾了自己从国际象棋神童成长为 DeepMind 创始人的职业历程。
频道:Y Combinator|时长:40 分 57 秒。
核心主题:Demis Hassabis 对 AGI 发展路径、agent 能力边界以及 AI 驱动科学突破的第一手见解。
嘉宾视角:DeepMind 创始人、AlphaFold 项目负责人,从世界顶级 AI 实验室 CEO 的视角进行分享。
关键观点:AI for Science 的下一个重要进展将不是工具的加速,而是 agent 能够自主设计和执行实验;AGI 的到来时间比公众普遍认为的要短,但“实用性”和“安全性”可以并行发展。
目标听众:关注 AI for Science、医学与生物交叉领域以及 AGI 长期发展路线图的人士。
https://www.youtube.com/watch?v=JNyuX1zoOgU
Box 的 CEO Aaron Levie、a16z 的 Martin Casado 和 Steven Sinofsky 探讨了大型企业在 AI 应用方面为何落后于硅谷的原因。他们分析了企业在 AI 采购决策过程中遇到的阻力,以及“表面上在使用 AI”和“真正有效地应用 AI”之间的差距。
频道:a16z|时长:58 分 23 秒。
核心主题:企业 AI 应用落地存在的结构性鸿沟——硅谷与传统大型公司之间的对比。
嘉宾视角:Box CEO 与前微软 Windows 负责人 Steven Sinofsky,两人均拥有在大型组织中推动变革的丰富经验。
关键观点:大型公司 AI 应用滞后的核心原因并非技术本身,而是决策流程和激励机制的不足;认为“AI 试点项目多就等于 AI 应用深入”是一种误解。
目标听众:在大型机构中推动 AI 项目、从事企业软件产品开发的相关人士。
https://www.youtube.com/watch?v=dvVbA9OcBqs
欢迎关注苍痕Luca的 B 站账号,我们将同步更新每日的 AI 视频资讯。