AI模型市场正在走向两极分化

发布时间：2026-06-12 18:01阅读：19

Anthropic最新推出了一个被称作“神级”的模型Fable 5。名字确实够响亮，性能也确实够强悍。SWE-bench Pro达到80.3%，编码能力测试FrontierCode Diamond直接29.3%，而上一代旗舰Opus 4.8仅有13.4%。相比上一代最强模型，编码能力提升了一倍多。但价格同样令人咋舌。每百万token，输入10美元，输出50美元。这个价格什么水平？DeepSeek V4 Pro，同样每百万token，输出仅需0.87美元。Claude比DeepSeek贵了57倍。即便是国内定价最为“激进”的智谱GLM-5.1，输出每百万token收24块人民币（约3.5美元），也只有Fable 5的十四分之一。AI模型，正在演变成一个区分高端产品和大众产品的市场。1 6月9日，Anthropic同时发布了两款模型：Fable 5和Mythos 5。Mythos是仅面向受信任用户的版本，Fable 5是公开版——但底层共享同一个“神级”基座。说“神级”并非夸张，Anthropic确实建立了一个新的模型等级体系：Mythos级高于Opus级，Opus级高于Sonnet级。Fable 5就是这个新等级的首个公开模型。性能数据确实有两把刷子。SWE-bench Verified做到95%，这是衡量“能否像真正的工程师一样修复bug”的硬指标。人类工程师做这套题的平均水平大概是多少？没有公开数据，但从行业反馈来看，Fable 5的水平已经让不少程序员感到“压力山大”。还有个更硬的指标：FrontierCode Diamond。这个测试专门为刁难AI设计，用的都是生产环境的真实代码库，不是教科书题目。Fable 5拿到29.3%，而GPT-5.5在这个指标上砸多少钱都追不上——每解决一个FrontierCode任务，GPT-5.5要花19.3美元，Fable 5只需6.83美元。贵，但确实能干活。2 当Anthropic在打造“神级”的时候，国产大模型走了一条完全不同的路。DeepSeek V4 Pro，4月24日发布，1.6万亿参数的MoE架构，每次推理激活490亿。百万token上下文，最大输出384K——这个输出长度比Fable 5的128K长将近三倍。性能不差。SWE-bench Verified做到80.6%，LiveCodeBench拿93.5分排全球第一。价格呢？每百万token，输入0.435美元，输出0.87美元。而且5月22日DeepSeek宣布永久降价。官方报告里自己承认“能力仍落后GPT-5.4和Gemini 3.1 Pro三到六个月”，然后用价格弥补差距。Fable 5每花1块钱能解决的任务，DeepSeek用不到2分钱就能搞定。再看智谱GLM-5.1，4月8日发布。这个模型走的是另一条路：不追求单次推理的极致性能，追求“长程工作能力”。官方说法是能连续工作8小时，从规划到执行到迭代优化全自主完成。实测案例很硬核：从零开始8小时搭出一个Linux桌面系统；655轮迭代把向量数据库查询吞吐提升到6.9倍。SWE-bench Pro拿到58.4%，听着跟Fable 5的80.3%差距不小，但这是开源模型的全球最高分，超过了GPT-5.4的57.7%和Claude Opus 4.6的57.3%。数学能力更惊人。AIME 2026考了95.3分，全球第二——第一是谁？是Google的Gemini 3.1 Pro Ultra。注意，GLM-5.1是开源的。智谱还在涨价。继两次提价后，GLM-5.1又涨了10%，Coding场景的缓存命中Token价格已经逼近Claude Sonnet 4.6。这是国产大模型第一次在核心场景对齐海外价格。3 看数据的话，Fable 5确实全方位碾压。SWE-bench Verified 95% vs DeepSeek的80.6% vs GLM的77.8%，差距是实打实的。但问题是：这17个百分点的差距，值57倍的价格吗？拿具体场景算笔账。如果你是一个创业公司，每天要处理1000个编码任务，每个任务平均消耗5000个输出token。用Fable 5：1000 × 5000 ÷ 1000000 × 50美元 = 250美元/天用DeepSeek V4 Pro：1000 × 5000 ÷ 1000000 × 0.87美元 = 4.35美元/天一个月下来，Fable 5要花7500美元，DeepSeek只要130美元。差了7500美元。这7500美元买到了什么？更准确的代码生成、更少的人工干预、更复杂的任务处理能力。如果你的业务是做高频交易系统或者航天软件，一个bug就能亏几百万，那这7500美元花得值。但如果你是做个公众号排版工具、写个运营脚本、搭个内部管理系统——DeepSeek和GLM完全够用，省下来的钱够雇好几个其他的AI员工。4 这种分化不是什么新鲜事。1990年代，Intel的奔腾处理器卖300美元一颗，AMD的K5只要100美元。性能差30%，价格差3倍。Intel的广告语是“Intel Inside”，暗示你买AMD就是买不稳定。后来呢？AMD靠性价比蚕食了Intel的市场份额，Intel被迫降价。到2020年代，AMD的Zen架构甚至在某些场景反超了Intel。AI模型正在经历同样的事情。Anthropic打的是“Intel Inside”策略：性能天花板、品牌溢价、生态锁定。你用了Claude的API，你就离不开Claude的生态。DeepSeek打的是“AMD”策略：性能差一点点，但价格差一大截。用着用着，用户发现“其实也够用”。GLM-5.1打的是另一张牌：不跟美国卷绝对性能，卷“场景适配”。8小时长程工作能力、国产芯片适配、华为昇腾部署——这些是Fable 5给不了你的。说到底，AI模型正在变成一个分层的市场。顶层是Anthropic和OpenAI的“奢侈品”：性能最强，价格最贵，适合对质量有极致要求的场景。中间层是GLM-5.1：性能对标Claude Opus 4.6，价格是它的十分之一，还在持续涨价——这说明它正在证明自己的定价权。底层是DeepSeek：价格屠夫，用“不到2分钱干1块钱的活”的策略抢市场。开源、国产芯片适配、永久降价——它要的不是利润，是用户基数。5 Fable 5发布后，网上有一个讨论很热闹：“Claude这么贵，是不是在收AI税？”不完全是。贵的东西确实更好用。Fable 5在复杂编码任务上的成功率是实打实的，尤其是那种需要理解整个代码库再修改的场景，便宜模型确实搞不定。但“更好用”不等于“必须用”。对绝大多数企业和个人来说，AI模型已经过了“只看性能”的阶段。就像大多数人不会为了快10%的速度多花3倍的钱买顶级CPU一样，AI模型的选择也在回归理性：够用就好，省下的钱投到别的地方。关注层面，看看一些另类的角度。参考

← 上一篇：AI数字员工实战训练营青岛站圆满收官下一篇：六大AI量化模型实盘追踪 | 2026-06-12 | Qwen3.7-max单日劲升8.30%，累计收益达12.64% →