人工智能洞察录 | 2026年6月

发布时间：2026-06-29 13:28阅读：2

人工智能洞察录

"青山常驻，岁月流转。"

导读

本月人工智能的核心基调是「受限」——Fable 5 上市短短4天便因美国出口限制遭强制停售；OpenAI 携手博通推出了 LLM 推理专用芯片 Jalapeño；Artificial Analysis 平台引入了 Agent 容量及 Harness Comparison 指标，智能体评估迈入'工具即能力'新时期。

06.01MiniMax M3 问世，借助 MSA 稀疏注意力实现 1M 上下文，原生多模态，SWE-Bench Pro 成绩超越 GPT-5.5

06.02《人工智能与数学莱顿宣言》出炉，倡导在数学探究中审慎应用 AI

06.03Anthropic 发布《When AI builds itself》，超八成代码由 Claude 生成，提出'递归自我迭代'

06.09Anthropic 推出 Claude Fable 5 及 Mythos 5，多项测试夺冠，售价达 Opus 4.8 的两倍

06.12月之暗面开源 Kimi K2.7 Code，Kimi Code Bench v2 分数上扬 21.8%，Token 消耗缩减 30%

06.12美国商务部以'国家安全'借口强行限制 Fable 5 与 Mythos 5 对境外主体开放

06.17智谱发布开源 GLM-5.2，1M 上下文，Code Arena（前端开发可用模型盲评）全球居首，Day 0 适配国产算力

06.23字节推出豆包 Seed 2.1 系列及 Seedance 2.5（单视频30秒），日均 Token 冲破 180 万亿

06.24OpenAI 联合博通推出 LLM 推理芯片 Jalapeño

06.26Anthropic 发布《Economic Index: Cadences》，剖析 40 万次 Claude Code 交互数据

06.26OpenAI 发布 GPT-5.6 Preview（Sol/Terra/Luna），把网络与生化风险划为 High 级别

Fable 5 上市仅4天

Anthropic 推出 Fable 5 及 Mythos 5（双轨同底模型）后，美国商务部以'国家安全'为由强行下架，连外籍员工都被禁止接触。OpenAI GPT-5.6 System Card 也同步把网络与生化风险划为 High，限定最敏感能力只对受信防御方开放。强模型的开放性已触达能力管控临界点，开放权限由用途决定，不再受国界或开闭源左右。

OpenAI 制造芯片

OpenAI 携手博通推出 LLM 推理芯片 Jalapeño，这是双方多代计算平台的首款 AI 加速器。同期 Agent Capacity per MW 榜单表明 GB300-NVL72 与 H200 能效代差达 23 倍——模型企业 + 芯片企业的关系从'采购'跃升为'共研'，硬件自研已从可选项变为头部大厂的标配动作。

国产 GLM-5.2

智谱发布开源 GLM-5.2，专为长程任务打造，1M 上下文稳定可用，曾完成 88 万 tokens 的完整工程交付。Code Arena（前端开发盲评，全球百万用户参与）斩获全球可用模型第一。亮点在于极致 Infra 优化 + Day 0 适配国产算力平台 + MIT 开源协议——证实前沿模型能在国产基础设施上高效部署，且无地域约束。

本月 Artificial Analysis 在原有 4 个模型维度之外，增设 Harness Comparison、Agent 效率（Token Usage / Turns / Execution Time）、硬件能效（Agent Capacity per Accelerator / per MW）三大方向。

一、模型智能

Claude Fable 5（with fallback）以约 60+ 分占据 Intelligence Index 榜首，GLM-5.2（max）以 51 分位列全球第四，系国产模型首次闯入全球前五。Qwen3.7 Max 46、MiniMax-M3 44、DeepSeek V4 Pro 44、Kimi K2.6 43——国产在 Intelligence 前十占四席。Agentic Index 上 GLM-5.2 43.1 排全球第四，国产占五席。中国模型在智能指数上约落后美国 2-3 个月，但 GLM-5.2 明显拉近了与头部的距离。

Claude Code + Fable 5 以 77 分领跑 Coding Agent Index，Codex + GPT-5.5（xhigh）76 分紧随其后。

Harness Comparison 维度下，同一 Opus 4.7（medium）模型在 Opencode、Cursor CLI、Claude Code 三个框架下得分依次为 65、60、57——底层模型一致，工具链差异致使 8 分落差，'工具即能力'首度以量化形式获验证。然而 65 > 60 > 57 的排序有悖直觉：Anthropic 官方 Claude Code 反低于开源 OpenCode，暗示评估体系或存偏向性，结论普适性尚待更多场景检验。

效率维度，Time per Task 上 Codex + GPT-5.5（medium）6.4 分钟最快，Claude Code + Kimi K2.6 41.2 分钟最慢；Turns per Task 上 Gemini CLI + Gemini 3.1 Pro（high）30.7 回合最少，Claude Code + GLM-5.1 174.3 回合最多。两个维度均表明国际模型整体效率优于国产模型，但国产模型在 Coding Agent Index 上绝对分已达 47-58 分区间。

Token Usage 维度，缓存输入占绝对大头——Claude Code + GLM-5.1 单任务 13.3M tokens 最高，约为最低消耗模型（2.1M）的 6 倍。GLM-5.2 较 5.1 已有长足进步，但输入命中率（缓存读取占比）仍偏低，此乃国产模型在 Agent 时代的成本短板。

Coding Agent Index vs. Execution Time 散点图表明：Anthropic 与 OpenAI 占据'高分+短时'的最优象限；Kimi K2.6 执行耗时最长（约 42 分钟）但指数分仅约 47，性价比劣势凸显。

三、硬件能效

GB300-NVL72 在 20 tokens/s SLO 下每瓦并发智能体数 61,354，是 H200 的 23 倍——硬件代差直接转为 Agent 部署成本差。

单卡并发，GB300 单卡 57.5 并发领先，超 B300 三倍以上。MI355X 与 H200 在 60 tokens/s 的更高速度要求下，每卡仅能维持 0.1-0.9 个并发智能体。

科研的界限在何处？完

上月OpenAI 通用模型证伪埃尔德什猜想，算力集权在前沿数学中的影响将极大。莱顿宣言划定了 AI 在数学中的界限。

本月科研归属尖端领域，极可能深度应用AI。

教育的本质将发生何种改变？

上月人力断层。AI 承担初、中级知识工作后，初级从业者丧失传统'学徒期'，催生'过渡型人才'。

本月正值高考填志愿，兴趣将变得更为关键。专业+AI乃必然趋势。

国内算力芯片能否走向自给

上月DeepSeek V4 把国产芯片与英伟达 GPU 并列写入验证清单，华为'韬'定律在 3D 堆叠上给出清晰路线图。

本月时间尺度上应该没问题。持续观察。

AI 的应用边界在何处完

本月高净值和尖端行业深度应用，其余行业应用程度不会非常高。

强模型会开放吗？新

本月基于Fable 5和GPT 5.6的限制，个人认为达到该级别的智能便会受限。无关国界和开闭源，均会遭受管控。toB（监管下）和toG方可使用该类智能。toC场景当前的模型能力已基本够用，待市场进一步打磨。

AI 时代何种公司会获利？新

本月三波浪潮。第一波是开创者，卖铲子（GPU、模型），受益方是NVIDIA和美国模型公司；第二波是卖更廉价的铲子，收益方是卷GPU和模型，以及降低整体成本相关的公司；第三波是卖应用，除第一波及第二波受益方外，还会有垂类智能化转型成功的原有头部公司以及新型Ai-Native公司。

模型能力已触及管控点——Fable 5 公布即遭下架，OpenAI 同步收窄最强能力的访问范围。下一阶段的竞争从'谁的模型更强'转向'谁能稳定、低成本、合规地提供前沿能力'——较量的是算力、工具链、部署成本与合规能力的综合。

欢迎点赞·转发·评论

← 上一篇：AI 回调迎风格转换？下一篇：AI盛宴下的苹果涨价与产业重构 →