4月AI模型进展盘点
📰 模型
支持 2M token 的长上下文能力,采用 Symphony 架构(原生多模态 + 双系统推理)
整体性能提升约 40%,Altman 将其称为"AGI 最后一公里"
推出 V4-Pro(1.6T 参数)与 V4-Flash(284B 参数)两条路线
将 1M token 上下文设为默认配置,1M token 的价格约为 1 元
Ultra-MoE 架构:总参数规模达 1T,实际激活区间为 130-370B
关键在于全面适配华为昇腾,真正摆脱英伟达 CUDA 依赖
通过群体记忆蒸馏,将 8 万项群体技能实现即取即用
SWE-Bench Pro 斩获 58.6 分,超过 GPT-5.4(57.7)和 Claude Opus 4.6(53.4)
国产开源模型首次登上全球代码评测榜首
支持 300 个智能体并行处理,并可连续编码 13 小时不间断
上下文进入"M 时代":DeepSeek-V4 将 1M token 作为默认标配,GPT-6 的 2M context 成为新上限
国产开源代码能力迎来爆发:Kimi K2.6 首次登顶 SWE-bench,DeepSeek-V4 的代码能力开源被认为最强
华为昇腾实现破局:DeepSeek-V4 完成对昇腾的全面适配,国产算力生态首次具备顶级模型的支持能力
图像生成方向的“军备竞赛”持续推进:OpenAI gpt-image-2 仍处领先,Wan 2.2、Step Image Edit 2 也在紧跟
长上下文 / Transformer 架构
模型理论研究
大小模型混合方案
RL / Alignment / 安全
强化微调