标签

人工智能洞察录 | 2026年6月

发布时间:2026-06-29 13:28阅读:2

人工智能洞察录

"青山常驻,岁月流转。"

导读

本月人工智能的核心基调是「受限」——Fable 5 上市短短4天便因美国出口限制遭强制停售;OpenAI 携手博通推出了 LLM 推理专用芯片 Jalapeño;Artificial Analysis 平台引入了 Agent 容量及 Harness Comparison 指标,智能体评估迈入'工具即能力'新时期。

06.01MiniMax M3 问世,借助 MSA 稀疏注意力实现 1M 上下文,原生多模态,SWE-Bench Pro 成绩超越 GPT-5.5

06.02《人工智能与数学莱顿宣言》出炉,倡导在数学探究中审慎应用 AI

06.03Anthropic 发布《When AI builds itself》,超八成代码由 Claude 生成,提出'递归自我迭代'

06.09Anthropic 推出 Claude Fable 5 及 Mythos 5,多项测试夺冠,售价达 Opus 4.8 的两倍

06.12月之暗面开源 Kimi K2.7 Code,Kimi Code Bench v2 分数上扬 21.8%,Token 消耗缩减 30%

06.12美国商务部以'国家安全'借口强行限制 Fable 5 与 Mythos 5 对境外主体开放

06.17智谱发布开源 GLM-5.2,1M 上下文,Code Arena(前端开发可用模型盲评)全球居首,Day 0 适配国产算力

06.23字节推出豆包 Seed 2.1 系列及 Seedance 2.5(单视频30秒),日均 Token 冲破 180 万亿

06.24OpenAI 联合博通推出 LLM 推理芯片 Jalapeño

06.26Anthropic 发布《Economic Index: Cadences》,剖析 40 万次 Claude Code 交互数据

06.26OpenAI 发布 GPT-5.6 Preview(Sol/Terra/Luna),把网络与生化风险划为 High 级别

Fable 5 上市仅4天

Anthropic 推出 Fable 5 及 Mythos 5(双轨同底模型)后,美国商务部以'国家安全'为由强行下架,连外籍员工都被禁止接触。OpenAI GPT-5.6 System Card 也同步把网络与生化风险划为 High,限定最敏感能力只对受信防御方开放。强模型的开放性已触达能力管控临界点,开放权限由用途决定,不再受国界或开闭源左右。

OpenAI 制造芯片

OpenAI 携手博通推出 LLM 推理芯片 Jalapeño,这是双方多代计算平台的首款 AI 加速器。同期 Agent Capacity per MW 榜单表明 GB300-NVL72 与 H200 能效代差达 23 倍——模型企业 + 芯片企业的关系从'采购'跃升为'共研',硬件自研已从可选项变为头部大厂的标配动作。

国产 GLM-5.2

智谱发布开源 GLM-5.2,专为长程任务打造,1M 上下文稳定可用,曾完成 88 万 tokens 的完整工程交付。Code Arena(前端开发盲评,全球百万用户参与)斩获全球可用模型第一。亮点在于极致 Infra 优化 + Day 0 适配国产算力平台 + MIT 开源协议——证实前沿模型能在国产基础设施上高效部署,且无地域约束。

本月 Artificial Analysis 在原有 4 个模型维度之外,增设 Harness Comparison、Agent 效率(Token Usage / Turns / Execution Time)、硬件能效(Agent Capacity per Accelerator / per MW)三大方向。

一、模型智能

Claude Fable 5(with fallback)以约 60+ 分占据 Intelligence Index 榜首,GLM-5.2(max)以 51 分位列全球第四,系国产模型首次闯入全球前五。Qwen3.7 Max 46、MiniMax-M3 44、DeepSeek V4 Pro 44、Kimi K2.6 43——国产在 Intelligence 前十占四席。Agentic Index 上 GLM-5.2 43.1 排全球第四,国产占五席。中国模型在智能指数上约落后美国 2-3 个月,但 GLM-5.2 明显拉近了与头部的距离。

Claude Code + Fable 5 以 77 分领跑 Coding Agent Index,Codex + GPT-5.5(xhigh)76 分紧随其后。

Harness Comparison 维度下,同一 Opus 4.7(medium)模型在 Opencode、Cursor CLI、Claude Code 三个框架下得分依次为 65、60、57——底层模型一致,工具链差异致使 8 分落差,'工具即能力'首度以量化形式获验证。然而 65 > 60 > 57 的排序有悖直觉:Anthropic 官方 Claude Code 反低于开源 OpenCode,暗示评估体系或存偏向性,结论普适性尚待更多场景检验。

效率维度,Time per Task 上 Codex + GPT-5.5(medium)6.4 分钟最快,Claude Code + Kimi K2.6 41.2 分钟最慢;Turns per Task 上 Gemini CLI + Gemini 3.1 Pro(high)30.7 回合最少,Claude Code + GLM-5.1 174.3 回合最多。两个维度均表明国际模型整体效率优于国产模型,但国产模型在 Coding Agent Index 上绝对分已达 47-58 分区间。

Token Usage 维度,缓存输入占绝对大头——Claude Code + GLM-5.1 单任务 13.3M tokens 最高,约为最低消耗模型(2.1M)的 6 倍。GLM-5.2 较 5.1 已有长足进步,但输入命中率(缓存读取占比)仍偏低,此乃国产模型在 Agent 时代的成本短板。

Coding Agent Index vs. Execution Time 散点图表明:Anthropic 与 OpenAI 占据'高分+短时'的最优象限;Kimi K2.6 执行耗时最长(约 42 分钟)但指数分仅约 47,性价比劣势凸显。

三、硬件能效

GB300-NVL72 在 20 tokens/s SLO 下每瓦并发智能体数 61,354,是 H200 的 23 倍——硬件代差直接转为 Agent 部署成本差。

单卡并发,GB300 单卡 57.5 并发领先,超 B300 三倍以上。MI355X 与 H200 在 60 tokens/s 的更高速度要求下,每卡仅能维持 0.1-0.9 个并发智能体。

科研的界限在何处?完

上月OpenAI 通用模型证伪埃尔德什猜想,算力集权在前沿数学中的影响将极大。莱顿宣言划定了 AI 在数学中的界限。

本月科研归属尖端领域,极可能深度应用AI。

教育的本质将发生何种改变?

上月人力断层。AI 承担初、中级知识工作后,初级从业者丧失传统'学徒期',催生'过渡型人才'。

本月正值高考填志愿,兴趣将变得更为关键。专业+AI乃必然趋势。

国内算力芯片能否走向自给

上月DeepSeek V4 把国产芯片与英伟达 GPU 并列写入验证清单,华为'韬'定律在 3D 堆叠上给出清晰路线图。

本月时间尺度上应该没问题。持续观察。

AI 的应用边界在何处完

本月高净值和尖端行业深度应用,其余行业应用程度不会非常高。

强模型会开放吗?新

本月基于Fable 5和GPT 5.6的限制,个人认为达到该级别的智能便会受限。无关国界和开闭源,均会遭受管控。toB(监管下)和toG方可使用该类智能。toC场景当前的模型能力已基本够用,待市场进一步打磨。

AI 时代何种公司会获利?新

本月三波浪潮。第一波是开创者,卖铲子(GPU、模型),受益方是NVIDIA和美国模型公司;第二波是卖更廉价的铲子,收益方是卷GPU和模型,以及降低整体成本相关的公司;第三波是卖应用,除第一波及第二波受益方外,还会有垂类智能化转型成功的原有头部公司以及新型Ai-Native公司。

模型能力已触及管控点——Fable 5 公布即遭下架,OpenAI 同步收窄最强能力的访问范围。下一阶段的竞争从'谁的模型更强'转向'谁能稳定、低成本、合规地提供前沿能力'——较量的是算力、工具链、部署成本与合规能力的综合。

欢迎点赞·转发·评论