AI竞争新焦点：从能力比拼转向成本控制

发布时间：2026-06-06 02:46阅读：30

2026年5月，Anthropic完成H轮融资，金额650亿美元，投后估值9650亿美元。公司自行披露的年化运行收入（run-rate）超过470亿美元。

470亿美元的run-rate意味着什么？按照公司最近一个月的实际营收乘以12来推算，它已经进入全球收入最高的科技公司行列。不过需要说明的是，Anthropic采用总额法记账——通过AWS、Azure等云厂商渠道的收入会全额计入营收，再把云厂的分成记回成本。据The Information测算，其经济意义上的净留存收入大约在130亿到150亿美元量级。同样需要注意，run-rate是推算值，不是审计确认的年度营收。

而Anthropic联合创始人Daniela Amodei在回应外界对"AI投资回报"的质疑时，态度也异常明确。她的核心论点是：用当前的营收质疑AI的商业前景，就像2000年用当时的营收质疑互联网的商业前景一样，问的是错误的问题。

时间会验证这个判断是否成立。但至少从资本市场来看，投资者选择了用真金白银投票——650亿美元不会因为一句"run-rate不等于实际营收"就消失。

而就在几乎同一时间，英伟达在台北COMPUTEX上发布了代号Vera Rubin的新一代AI芯片。黄仁勋这一年多来反复强调一个核心叙事：AI的竞争，正在从模型能力转向工厂能力。

这句话，可以作为理解2026年6月前后AI行业动态的一个入口。

美团开源了原生多模态模型LongCat、Transformer的QKV投影被研究者发现可以大幅优化、Meta开始用帐篷搭建数据中心、英伟达发布了专为端侧推理设计的ARM芯片RTX SPARK——这些事件分散在不同时间、不同领域，但它们共同指向一个趋势：

AI行业的竞争重心，正在从"谁更聪明"，向"谁更便宜"转移。

先看Anthropic。

2026年5月，Anthropic完成了H轮融资，金额650亿美元，投后估值9650亿美元。它正式超越了OpenAI，成为全球估值最高的AI公司。这轮融资由Altimeter、Dragoneer、Greenoaks、红杉等领投。

在这轮融资的投资方名单里，有一个值得关注的组合：美光、三星、SK海力士——三家存储芯片巨头，以"战略基础设施合作伙伴"的身份加入。

存储芯片公司，为什么要投资一家AI模型公司？

最直接的动机是绑定大客户。Anthropic是目前全球最大的AI模型公司之一，其训练和推理对HBM（高带宽内存）和DDR芯片的需求巨大。存储巨头投资Anthropic，本质上是在确保未来需求的可见性，同时完成战略卡位。

但另一个技术动态也值得关注。

近期，一篇来自BrainChip研究者的arXiv论文系统性地测试了Transformer架构中Q（查询）、K（键）、V（值）三个投影矩阵的各种组合。论文发现，在12亿参数规模上，共享K-V投影可以在困惑度仅上升约3.1%的前提下，将KV缓存需求减少50%。如果结合GQA（分组查询注意力）和MQA（多查询注意力）技术，KV缓存最高可以减少96.9%。

这个研究本身是一个小规模的架构探索，距离工程落地还有相当长的距离——不能直接推导出"端侧存储需求将减少到三十分之一"这样的结论。但它确实代表了一种趋势：学术界和工业界都在积极寻找降低大模型推理成本的技术路径。

存储巨头投资Anthropic的真实动机，更可能是前者——绑定需求、确保战略位置——而非对某篇论文的恐慌性反应。但这两条线并行存在，共同指向一个事实：AI推理效率的提升，正在成为整个产业链最关注的变量。

如果你关注国产大模型的动态，过去几个月最值得关注的开源动作之一，来自美团LongCat团队。

从4月到6月，LongCat团队连续发布了一系列工作：

4月2日，开源了原生多模态模型LongCat-Next，把视觉和语音能力原生整合进模型架构，不再使用拼接式方案。同时开源了核心的离散分词器。

4月20日，发布了LongCat-AudioDiT模型。这个模型直接抛弃了传统TTS中必须使用的梅尔谱等中间表示，在波形潜空间内用扩散模型实现文本到语音的生成——从技术路线上跳出了主流框架。

同期，还发布了LongCat-Video-Avatar 1.5数字人模型，以及General 365推理评测集。后者对26款主流大模型进行了系统性测试，表现最好的Gemini 3 Pro准确率只有62.8%。

这四个动作分别指向不同的技术方向，但放在一起看，有一个共同特征：都在尝试从底层架构层面降低AI能力的实现成本。

原生多模态意味着不再需要维护多个独立模型的组合管线，系统复杂度和运维成本直接下降。AudioDiT抛弃中间表示，意味着更短的推理链路和更少的计算资源消耗。数字人模型开源，降低了企业部署AI数字员工的门槛。而General 365评测集，则是在试图建立一套新的能力评估标准——在AI行业，评测标准本身就是一种影响力。谁定义了"什么叫好"，谁就掌握了话语权。

同一时期，社区中还有一个值得关注的开源工具Headroom。它通过内容感知压缩技术，在特定场景——比如构建日志、重复JSON Schema、MCP输出等高度冗余内容——可以将Token消耗降低60%到95%。

但必须强调：这个高压缩率只对结构化、高度重复的特定内容类型成立。对于正常对话、代码生成、复杂推理等通用场景，压缩空间远没有这么大。如果用"一天Token费从一万变五百"来概括Headroom的能力，是对其适用范围的不当泛化。

不过，即使只在特定场景成立，它的意义也很明确：当企业发现自己每天发送给大模型的内容中有大量冗余时，他们会开始重新审视——我到底需要为AI付多少钱？这个问题的答案，正在变得越来越便宜。

6月1日，GTC Taipei 2026开幕。黄仁勋发布了两件大事。

第一件，Vera Rubin芯片——全新处理器系列，专为代理式AI（Agentic AI）设计，全面量产。OpenAI和Anthropic已率先采用。

第二件，RTX SPARK——英伟达和微软合作推出的ARM架构PC芯片，采用台积电3nm工艺，计划今年秋天上市。

这两件事放在一起看，是英伟达的一次战略转型。

Vera Rubin面向的是云端AI训练和推理市场——那些需要算力集群来训练和部署万亿参数模型的公司。但这个市场的客户数量有限，而且集中度越来越高。

RTX SPARK则面向另一个维度：让AI推理能力下沉到每个人的笔记本电脑里。它不是一块通用PC芯片，而是一块专门为AI推理优化的ARM芯片。

英伟达的逻辑很清晰：云端大客户客单价高但数量有限，端侧设备数量是十亿级别的。从卖算力给AI公司，变成卖AI推理能力给每个PC用户，这是一个数量级的扩张。

但数据中心建设本身的物理约束也不容忽视。

近期，Kevin O'Leary在犹他州的Stratos AI数据中心项目遭遇当地政治反弹，州参议院主席要求缩减规模。这个项目涉及多个地块，规划总面积不小，但"4万英亩巨型数据中心缩减一半"这样的简化表述并不准确——实际情况更为复杂。

另一个更确定的案例是：Meta在俄亥俄州New Albany开始使用防水防火织物帐篷搭配铝结构来部署GPU集群。DatacenterDynamics和SemiAnalysis都确认了这个信息，Meta发言人也承认了这一做法。核心目的是压缩部署周期——从传统的4年大幅缩短。这不只是成本问题，更是速度问题。

这两个案例从不同角度说明：AI算力的竞争已经不只是芯片层面的竞争，数据中心的建设速度、成本、电力供应，正在成为新的关键变量。

6月1日，国产大模型MiniMax发布了M3。

这是国内首个同时具备前沿编程能力、100万Token超长上下文、原生多模态三项核心能力的大模型。在编程能力基准测试SWE-Bench Pro上，M3得分59.0%，超过了OpenAI GPT-5.5和谷歌Gemini 3.1 Pro，接近Claude Opus 4.7。这些数据来自MiniMax官方发布，并通过多家科技媒体报道。

M3采用自研稀疏注意力架构MSA，让100万上下文规模下的单Token计算量降为上一代的约1/20。同步推出的AI编程产品MiniMax Code，支持智能体集群将大型任务拆解为多个可并发、可动态调整的阶段。

更值得关注的是同一时期的另一个进展。

深圳河套学院联合哈工大（深圳）、华为等单位，基于千卡级昇腾910C国产AI算力集群，完成了DeepSeek-V4-Pro的全参数后训练和SFT（监督微调）稳定运行，训练MFU（模型算力利用率）超过30%。深圳特区报和深视新闻均对此进行了报道。

这里需要做一个重要的技术区分：后训练和SFT，是对已经训练好的MoE模型进行继续调优，不是从头预训练。两者在技术难度和工程复杂度上差一个数量级。把"后训练跑通"等同于"全流程训练完成"，是不准确的。

但从另一个角度看，千卡级国产芯片集群能够稳定运行万亿参数模型的后训练，本身就说明国产算力在特定场景下已经具备了工程可行性。这条路还很长——从后训练到全流程预训练，再到推理部署的全面替代，中间还有大量工程挑战——但方向已经验证。

而美国商务部的动作也在同步推进。5月31日，BIS发布新指南，明确：即使实体注册在马来西亚、新加坡等地，只要总部或最终母公司在中国，向其出口Rubin、Blackwell、AMD MI350x等先进芯片仍需许可证。这封堵了此前通过境外子公司采购的通道。

芯片管制的网越收越紧，国产算力的验证也在同步推进。两条线并行，构成了当前AI产业链竞争的一个缩影。

回看2026年6月前后的这些动态，我想说三件事。

第一，AI推理成本的下降是真实趋势，但需要区分短期优化和长期叙事。

QKV投影优化、稀疏注意力架构、原生多模态、内容感知压缩——这些技术进展都是真实的，也确实在降低AI推理的实际成本。但需要注意，很多优化目前在小规模或特定场景下验证，距离大规模工程落地还有距离。把实验室的数字直接等同于产业变革的幅度，是不严谨的。

第二，开源生态的成熟正在压缩商业API的溢价空间。

美团LongCat系列开源、Headroom等工具的出现，确实在降低企业使用AI的门槛和成本。当高水平模型和工具变得免费可得，商业API的定价权自然会受到挑战。但说"瓦解封闭霸权"可能过于绝对——开源和商业并不总是零和关系，很多公司同时参与两个生态。

第三，"AI下半场=成本战"是一个观察角度，不是定论。

成本确实是当前AI行业竞争的重要维度，但不是唯一维度。模型能力、数据壁垒、应用场景的深度理解、 regulatory 合规能力，都仍然是关键竞争要素。把所有动态都套进"成本战"的框架，可能遮蔽了其他同样重要的信号。

黄仁勋说"未来属于那些能用更少的资源做更多事情的人"。这句话有道理，但"更少"不只是指成本——也指更少的时间、更少的数据、更少的试错。

← 上一篇：AI算力产业的利润分割还能维持多久？下一篇：加拿大抢人新招：AI专家工签20天搞定，五年新增25万岗 →