AI模型市场正在走向两极分化
Anthropic最新推出了一个被称作“神级”的模型Fable 5。名字确实够响亮,性能也确实够强悍。SWE-bench Pro达到80.3%,编码能力测试FrontierCode Diamond直接29.3%,而上一代旗舰Opus 4.8仅有13.4%。相比上一代最强模型,编码能力提升了一倍多。但价格同样令人咋舌。每百万token,输入10美元,输出50美元。这个价格什么水平?DeepSeek V4 Pro,同样每百万token,输出仅需0.87美元。Claude比DeepSeek贵了57倍。即便是国内定价最为“激进”的智谱GLM-5.1,输出每百万token收24块人民币(约3.5美元),也只有Fable 5的十四分之一。AI模型,正在演变成一个区分高端产品和大众产品的市场。1 6月9日,Anthropic同时发布了两款模型:Fable 5和Mythos 5。Mythos是仅面向受信任用户的版本,Fable 5是公开版——但底层共享同一个“神级”基座。说“神级”并非夸张,Anthropic确实建立了一个新的模型等级体系:Mythos级高于Opus级,Opus级高于Sonnet级。Fable 5就是这个新等级的首个公开模型。性能数据确实有两把刷子。SWE-bench Verified做到95%,这是衡量“能否像真正的工程师一样修复bug”的硬指标。人类工程师做这套题的平均水平大概是多少?没有公开数据,但从行业反馈来看,Fable 5的水平已经让不少程序员感到“压力山大”。还有个更硬的指标:FrontierCode Diamond。这个测试专门为刁难AI设计,用的都是生产环境的真实代码库,不是教科书题目。Fable 5拿到29.3%,而GPT-5.5在这个指标上砸多少钱都追不上——每解决一个FrontierCode任务,GPT-5.5要花19.3美元,Fable 5只需6.83美元。贵,但确实能干活。2 当Anthropic在打造“神级”的时候,国产大模型走了一条完全不同的路。DeepSeek V4 Pro,4月24日发布,1.6万亿参数的MoE架构,每次推理激活490亿。百万token上下文,最大输出384K——这个输出长度比Fable 5的128K长将近三倍。性能不差。SWE-bench Verified做到80.6%,LiveCodeBench拿93.5分排全球第一。价格呢?每百万token,输入0.435美元,输出0.87美元。而且5月22日DeepSeek宣布永久降价。官方报告里自己承认“能力仍落后GPT-5.4和Gemini 3.1 Pro三到六个月”,然后用价格弥补差距。Fable 5每花1块钱能解决的任务,DeepSeek用不到2分钱就能搞定。再看智谱GLM-5.1,4月8日发布。这个模型走的是另一条路:不追求单次推理的极致性能,追求“长程工作能力”。官方说法是能连续工作8小时,从规划到执行到迭代优化全自主完成。实测案例很硬核:从零开始8小时搭出一个Linux桌面系统;655轮迭代把向量数据库查询吞吐提升到6.9倍。SWE-bench Pro拿到58.4%,听着跟Fable 5的80.3%差距不小,但这是开源模型的全球最高分,超过了GPT-5.4的57.7%和Claude Opus 4.6的57.3%。数学能力更惊人。AIME 2026考了95.3分,全球第二——第一是谁?是Google的Gemini 3.1 Pro Ultra。注意,GLM-5.1是开源的。智谱还在涨价。继两次提价后,GLM-5.1又涨了10%,Coding场景的缓存命中Token价格已经逼近Claude Sonnet 4.6。这是国产大模型第一次在核心场景对齐海外价格。3 看数据的话,Fable 5确实全方位碾压。SWE-bench Verified 95% vs DeepSeek的80.6% vs GLM的77.8%,差距是实打实的。但问题是:这17个百分点的差距,值57倍的价格吗?拿具体场景算笔账。如果你是一个创业公司,每天要处理1000个编码任务,每个任务平均消耗5000个输出token。用Fable 5:1000 × 5000 ÷ 1000000 × 50美元 = 250美元/天 用DeepSeek V4 Pro:1000 × 5000 ÷ 1000000 × 0.87美元 = 4.35美元/天 一个月下来,Fable 5要花7500美元,DeepSeek只要130美元。差了7500美元。这7500美元买到了什么?更准确的代码生成、更少的人工干预、更复杂的任务处理能力。如果你的业务是做高频交易系统或者航天软件,一个bug就能亏几百万,那这7500美元花得值。但如果你是做个公众号排版工具、写个运营脚本、搭个内部管理系统——DeepSeek和GLM完全够用,省下来的钱够雇好几个其他的AI员工。4 这种分化不是什么新鲜事。1990年代,Intel的奔腾处理器卖300美元一颗,AMD的K5只要100美元。性能差30%,价格差3倍。Intel的广告语是“Intel Inside”,暗示你买AMD就是买不稳定。后来呢?AMD靠性价比蚕食了Intel的市场份额,Intel被迫降价。到2020年代,AMD的Zen架构甚至在某些场景反超了Intel。AI模型正在经历同样的事情。Anthropic打的是“Intel Inside”策略:性能天花板、品牌溢价、生态锁定。你用了Claude的API,你就离不开Claude的生态。DeepSeek打的是“AMD”策略:性能差一点点,但价格差一大截。用着用着,用户发现“其实也够用”。GLM-5.1打的是另一张牌:不跟美国卷绝对性能,卷“场景适配”。8小时长程工作能力、国产芯片适配、华为昇腾部署——这些是Fable 5给不了你的。说到底,AI模型正在变成一个分层的市场。顶层是Anthropic和OpenAI的“奢侈品”:性能最强,价格最贵,适合对质量有极致要求的场景。中间层是GLM-5.1:性能对标Claude Opus 4.6,价格是它的十分之一,还在持续涨价——这说明它正在证明自己的定价权。底层是DeepSeek:价格屠夫,用“不到2分钱干1块钱的活”的策略抢市场。开源、国产芯片适配、永久降价——它要的不是利润,是用户基数。5 Fable 5发布后,网上有一个讨论很热闹:“Claude这么贵,是不是在收AI税?”不完全是。贵的东西确实更好用。Fable 5在复杂编码任务上的成功率是实打实的,尤其是那种需要理解整个代码库再修改的场景,便宜模型确实搞不定。但“更好用”不等于“必须用”。对绝大多数企业和个人来说,AI模型已经过了“只看性能”的阶段。就像大多数人不会为了快10%的速度多花3倍的钱买顶级CPU一样,AI模型的选择也在回归理性:够用就好,省下的钱投到别的地方。关注层面,看看一些另类的角度。参考