AI竞争新焦点:从能力比拼转向成本控制
2026年5月,Anthropic完成H轮融资,金额650亿美元,投后估值9650亿美元。公司自行披露的年化运行收入(run-rate)超过470亿美元。
470亿美元的run-rate意味着什么?按照公司最近一个月的实际营收乘以12来推算,它已经进入全球收入最高的科技公司行列。不过需要说明的是,Anthropic采用总额法记账——通过AWS、Azure等云厂商渠道的收入会全额计入营收,再把云厂的分成记回成本。据The Information测算,其经济意义上的净留存收入大约在130亿到150亿美元量级。同样需要注意,run-rate是推算值,不是审计确认的年度营收。
而Anthropic联合创始人Daniela Amodei在回应外界对"AI投资回报"的质疑时,态度也异常明确。她的核心论点是:用当前的营收质疑AI的商业前景,就像2000年用当时的营收质疑互联网的商业前景一样,问的是错误的问题。
时间会验证这个判断是否成立。但至少从资本市场来看,投资者选择了用真金白银投票——650亿美元不会因为一句"run-rate不等于实际营收"就消失。
而就在几乎同一时间,英伟达在台北COMPUTEX上发布了代号Vera Rubin的新一代AI芯片。黄仁勋这一年多来反复强调一个核心叙事:AI的竞争,正在从模型能力转向工厂能力。
这句话,可以作为理解2026年6月前后AI行业动态的一个入口。
美团开源了原生多模态模型LongCat、Transformer的QKV投影被研究者发现可以大幅优化、Meta开始用帐篷搭建数据中心、英伟达发布了专为端侧推理设计的ARM芯片RTX SPARK——这些事件分散在不同时间、不同领域,但它们共同指向一个趋势:
AI行业的竞争重心,正在从"谁更聪明",向"谁更便宜"转移。
先看Anthropic。
2026年5月,Anthropic完成了H轮融资,金额650亿美元,投后估值9650亿美元。它正式超越了OpenAI,成为全球估值最高的AI公司。这轮融资由Altimeter、Dragoneer、Greenoaks、红杉等领投。
在这轮融资的投资方名单里,有一个值得关注的组合:美光、三星、SK海力士——三家存储芯片巨头,以"战略基础设施合作伙伴"的身份加入。
存储芯片公司,为什么要投资一家AI模型公司?
最直接的动机是绑定大客户。Anthropic是目前全球最大的AI模型公司之一,其训练和推理对HBM(高带宽内存)和DDR芯片的需求巨大。存储巨头投资Anthropic,本质上是在确保未来需求的可见性,同时完成战略卡位。
但另一个技术动态也值得关注。
近期,一篇来自BrainChip研究者的arXiv论文系统性地测试了Transformer架构中Q(查询)、K(键)、V(值)三个投影矩阵的各种组合。论文发现,在12亿参数规模上,共享K-V投影可以在困惑度仅上升约3.1%的前提下,将KV缓存需求减少50%。如果结合GQA(分组查询注意力)和MQA(多查询注意力)技术,KV缓存最高可以减少96.9%。
这个研究本身是一个小规模的架构探索,距离工程落地还有相当长的距离——不能直接推导出"端侧存储需求将减少到三十分之一"这样的结论。但它确实代表了一种趋势:学术界和工业界都在积极寻找降低大模型推理成本的技术路径。
存储巨头投资Anthropic的真实动机,更可能是前者——绑定需求、确保战略位置——而非对某篇论文的恐慌性反应。但这两条线并行存在,共同指向一个事实:AI推理效率的提升,正在成为整个产业链最关注的变量。
如果你关注国产大模型的动态,过去几个月最值得关注的开源动作之一,来自美团LongCat团队。
从4月到6月,LongCat团队连续发布了一系列工作:
4月2日,开源了原生多模态模型LongCat-Next,把视觉和语音能力原生整合进模型架构,不再使用拼接式方案。同时开源了核心的离散分词器。
4月20日,发布了LongCat-AudioDiT模型。这个模型直接抛弃了传统TTS中必须使用的梅尔谱等中间表示,在波形潜空间内用扩散模型实现文本到语音的生成——从技术路线上跳出了主流框架。
同期,还发布了LongCat-Video-Avatar 1.5数字人模型,以及General 365推理评测集。后者对26款主流大模型进行了系统性测试,表现最好的Gemini 3 Pro准确率只有62.8%。
这四个动作分别指向不同的技术方向,但放在一起看,有一个共同特征:都在尝试从底层架构层面降低AI能力的实现成本。
原生多模态意味着不再需要维护多个独立模型的组合管线,系统复杂度和运维成本直接下降。AudioDiT抛弃中间表示,意味着更短的推理链路和更少的计算资源消耗。数字人模型开源,降低了企业部署AI数字员工的门槛。而General 365评测集,则是在试图建立一套新的能力评估标准——在AI行业,评测标准本身就是一种影响力。谁定义了"什么叫好",谁就掌握了话语权。
同一时期,社区中还有一个值得关注的开源工具Headroom。它通过内容感知压缩技术,在特定场景——比如构建日志、重复JSON Schema、MCP输出等高度冗余内容——可以将Token消耗降低60%到95%。
但必须强调:这个高压缩率只对结构化、高度重复的特定内容类型成立。对于正常对话、代码生成、复杂推理等通用场景,压缩空间远没有这么大。如果用"一天Token费从一万变五百"来概括Headroom的能力,是对其适用范围的不当泛化。
不过,即使只在特定场景成立,它的意义也很明确:当企业发现自己每天发送给大模型的内容中有大量冗余时,他们会开始重新审视——我到底需要为AI付多少钱?这个问题的答案,正在变得越来越便宜。
6月1日,GTC Taipei 2026开幕。黄仁勋发布了两件大事。
第一件,Vera Rubin芯片——全新处理器系列,专为代理式AI(Agentic AI)设计,全面量产。OpenAI和Anthropic已率先采用。
第二件,RTX SPARK——英伟达和微软合作推出的ARM架构PC芯片,采用台积电3nm工艺,计划今年秋天上市。
这两件事放在一起看,是英伟达的一次战略转型。
Vera Rubin面向的是云端AI训练和推理市场——那些需要算力集群来训练和部署万亿参数模型的公司。但这个市场的客户数量有限,而且集中度越来越高。
RTX SPARK则面向另一个维度:让AI推理能力下沉到每个人的笔记本电脑里。它不是一块通用PC芯片,而是一块专门为AI推理优化的ARM芯片。
英伟达的逻辑很清晰:云端大客户客单价高但数量有限,端侧设备数量是十亿级别的。从卖算力给AI公司,变成卖AI推理能力给每个PC用户,这是一个数量级的扩张。
但数据中心建设本身的物理约束也不容忽视。
近期,Kevin O'Leary在犹他州的Stratos AI数据中心项目遭遇当地政治反弹,州参议院主席要求缩减规模。这个项目涉及多个地块,规划总面积不小,但"4万英亩巨型数据中心缩减一半"这样的简化表述并不准确——实际情况更为复杂。
另一个更确定的案例是:Meta在俄亥俄州New Albany开始使用防水防火织物帐篷搭配铝结构来部署GPU集群。DatacenterDynamics和SemiAnalysis都确认了这个信息,Meta发言人也承认了这一做法。核心目的是压缩部署周期——从传统的4年大幅缩短。这不只是成本问题,更是速度问题。
这两个案例从不同角度说明:AI算力的竞争已经不只是芯片层面的竞争,数据中心的建设速度、成本、电力供应,正在成为新的关键变量。
6月1日,国产大模型MiniMax发布了M3。
这是国内首个同时具备前沿编程能力、100万Token超长上下文、原生多模态三项核心能力的大模型。在编程能力基准测试SWE-Bench Pro上,M3得分59.0%,超过了OpenAI GPT-5.5和谷歌Gemini 3.1 Pro,接近Claude Opus 4.7。这些数据来自MiniMax官方发布,并通过多家科技媒体报道。
M3采用自研稀疏注意力架构MSA,让100万上下文规模下的单Token计算量降为上一代的约1/20。同步推出的AI编程产品MiniMax Code,支持智能体集群将大型任务拆解为多个可并发、可动态调整的阶段。
更值得关注的是同一时期的另一个进展。
深圳河套学院联合哈工大(深圳)、华为等单位,基于千卡级昇腾910C国产AI算力集群,完成了DeepSeek-V4-Pro的全参数后训练和SFT(监督微调)稳定运行,训练MFU(模型算力利用率)超过30%。深圳特区报和深视新闻均对此进行了报道。
这里需要做一个重要的技术区分:后训练和SFT,是对已经训练好的MoE模型进行继续调优,不是从头预训练。两者在技术难度和工程复杂度上差一个数量级。把"后训练跑通"等同于"全流程训练完成",是不准确的。
但从另一个角度看,千卡级国产芯片集群能够稳定运行万亿参数模型的后训练,本身就说明国产算力在特定场景下已经具备了工程可行性。这条路还很长——从后训练到全流程预训练,再到推理部署的全面替代,中间还有大量工程挑战——但方向已经验证。
而美国商务部的动作也在同步推进。5月31日,BIS发布新指南,明确:即使实体注册在马来西亚、新加坡等地,只要总部或最终母公司在中国,向其出口Rubin、Blackwell、AMD MI350x等先进芯片仍需许可证。这封堵了此前通过境外子公司采购的通道。
芯片管制的网越收越紧,国产算力的验证也在同步推进。两条线并行,构成了当前AI产业链竞争的一个缩影。
回看2026年6月前后的这些动态,我想说三件事。
第一,AI推理成本的下降是真实趋势,但需要区分短期优化和长期叙事。
QKV投影优化、稀疏注意力架构、原生多模态、内容感知压缩——这些技术进展都是真实的,也确实在降低AI推理的实际成本。但需要注意,很多优化目前在小规模或特定场景下验证,距离大规模工程落地还有距离。把实验室的数字直接等同于产业变革的幅度,是不严谨的。
第二,开源生态的成熟正在压缩商业API的溢价空间。
美团LongCat系列开源、Headroom等工具的出现,确实在降低企业使用AI的门槛和成本。当高水平模型和工具变得免费可得,商业API的定价权自然会受到挑战。但说"瓦解封闭霸权"可能过于绝对——开源和商业并不总是零和关系,很多公司同时参与两个生态。
第三,"AI下半场=成本战"是一个观察角度,不是定论。
成本确实是当前AI行业竞争的重要维度,但不是唯一维度。模型能力、数据壁垒、应用场景的深度理解、 regulatory 合规能力,都仍然是关键竞争要素。把所有动态都套进"成本战"的框架,可能遮蔽了其他同样重要的信号。
黄仁勋说"未来属于那些能用更少的资源做更多事情的人"。这句话有道理,但"更少"不只是指成本——也指更少的时间、更少的数据、更少的试错。