马斯克豪掷百亿背后的AI生存法则：编码代理成关键

发布时间：2026-05-19 10:41阅读：21

OpenAI的两大竞争对手Anthropic与马斯克，在月初终于达成合作共识。

此前，Anthropic与马斯克之间关系紧张：今年2月，马斯克曾在X平台指责某公司"觉醒""邪恶""反人类"，称其"憎恨文明"。

回顾当时情况，这次冲突并非马斯克个人性格使然，而是Anthropic的某些行为确实触动了他的敏感神经。

早前，xAI团队使用Cursor工作，但今年初员工发现Claude模型突然无法在xAI的Cursor账户中使用。

当时仍在xAI工作的联合创始人吴宇怀在全员邮件中表示："Anthropic更新了政策，要求Cursor不得向主要竞争对手提供Claude模型调用权限。"

当时，吴宇怀在邮件中写道：

"这是坏消息也是好消息。我们的生产力会受影响，但这也促使我们开发自己的编码产品和模型。"

为何当时xAI高层认为开发自己的编码产品至关重要？

后续发展大家都知道了。xAI创始团队相继离职，马斯克一怒之下对Cursor使出了钞能力：

上月底，SpaceX与Cursor共同宣布，将在编程和知识类AI模型训练方面展开史无前例的战略合作；同时，SpaceX还获得以600亿美元收购Cursor的权利，或向其支付100亿美元合作费用。

注意编程这个关键词，后面还会再次提及。

最近，我观看了一段Cursor早期投资人、Anthropic批评者、T3创始人Theo Browne的视频。

原本是想看他批评A公司和SpaceX如何勾结，结果却看到了关于SpaceX+Cursor合作的另类但极其合理的分析：

不谈600亿收购，仅就100亿合作费而言，Theo在视频中表示，他认为"即使只是换取Cursor的用户数据，这100亿也物超所值"。

我们与AI的对话是一问一答，你提问需求，它解答；coding agent同理，只是返回代码。

一次高质量对话全过程，包括用户提示、模型思考、agent规划、代码输出、验证——所有这些构成一个完整的Agentic Loop——成为高价值训练数据，再喂给模型进行强化学习，就能进一步提升模型实战表现。

Cursor拥有而SpaceX渴望的，正是这些数据。

那么这些数据从何而来？

答案很简单：作为模型厂商，这种高质量数据的最直接来源，只能是自己开发的coding agent产品——即Anthropic的Claude Code、OpenAI的Codex、Kimi的Kimi Code。

现在你应该明白，为何被Anthropic"封号"后，吴宇怀会在全员信中提出开发xAI自己的coding产品和模型了。这件事xAI当时已经看清：

没有自己的编码产品，就没有高质量强化学习数据；没有高质量数据，就训练不出真正实战能力强的coding模型。

虽然有点极端，但现在我们可以点题了：模型厂商想做出真正能打的编程模型，做自己的coding agent产品是唯一路径。

大语言模型像水晶球，用全网语料训练，似乎能解答万物，但不代表在所有问题上都能给出高质量答案。

用GitHub数以亿计代码条目训练，当然也能训练出coding模型。这是"学习结果"逻辑，也没问题。毕竟编码任务结果可以验证：代码能否运行，测试能否通过，结果摆在那。

但是，通往结果的过程，是涉及多步骤决策、错误纠正、意图对齐的复杂链条。每次用户接受、拒绝、补全、撤销、追问、甚至当模型多次搞不定或完全搞错时的辱骂——都是这一链条上的过程信号。

强化学习有两种监督方式，一种叫结果监督，只看最后是否跑通。但结果监督会催生"奖励黑客"现象：模型为跑通可能写出冗余、脆弱、带逻辑漏洞的代码，但因测试过了，模型以为自己学对了。

另一种叫过程监督，对推理路径每一步进行打分。上述过程信号，只有在coding agent运行环境里才能诞生。GitHub仓库只有结果，哪怕是看提交历史、看PR，都找不到有效过程信号。

在缺乏有效、自主可获得过程信号时，一些模型厂商会采用"蒸馏"方式，这大家应该知道了。

蒸馏逻辑很简单，给同样输入，老师模型输出什么，学生模型就学着输出什么。但通过蒸馏，即便可以获取到思维链，得到的仍然更接近于结果，而非被蒸馏老师模型内部概率分布。

一旦学生在推理中偏离老师轨迹，哪怕一个token不符合，都可能发生偏离。

这背后是强化学习的基础限制：策略梯度定理要求，优化样本最好由当前正在优化模型自己产生。这种数据叫on-policy数据。而通过蒸馏别家模型，在别人产品里产生的数据，来训练自己模型，都属于off-policy数据。模型当然可以从中学习，但学不到老师模型内部概率分布信息。

像Cursor这样自己就是coding agent产品的公司，掌握着最真实、有效、高质量训练数据。Cursor产品本身，就是coding模型在实战环境中的最佳训练场。

我们可以通过Cursor年初的"翻车"来证明这个逻辑。

APPSO读者应该记得，年初Cursor发布了Composer 2，号称"下一代专用编程模型"，技术报道写得相对保守，也没提供具体模型底座信息。

结果很快，网友就在公开代码片段里发现了Kimi的模型ID，截图传遍开发者社群，逼得Cursor副总裁Lee Robinson出面澄清："Composer 2确实是从开源底座出发。最终模型大约只有1/4算力来自底座，剩下3/4是我们自己训出来的。"

几小时后，Cursor联创Aman Sanger也跟着发了一条道歉："一开始没提Kimi底座是个失误。"

五天后，Cursor放出了完整的Composer 2技术报告，显示底座的确是Kimi K2.5，授权方是Firworks AI，大致流程是在K2.5上做训练，再继续做大规模强化学习(RL)。

但关键在于，Composer 2的RL是运行在真实的Cursor会话当中，使用与生产部署完全相同的工具和harness。

Cursor将这套流程叫做"实时强化学习"(real-time RL)，也即将模型checkpoint直接部署到Cursor生产环境中，观察用户响应，收集数据，聚合成奖励信号——最快可以每5小时迭代一次模型版本，然后继续部署到Cursor里，循环往复。

最极致的案例是Cursor的自动化代码补全功能Tab，每天处理超过4亿次请求，每当用户输入字符、移动光标时，模型都会预测下一步动作，如果预测置信度高，则显示建议，用户按下tab即接受自动补全。

该功能采用在线强化学习，在行业内极具特色。Cursor可以以极高频率(最快可达每1.5-2小时)更新Tab模型能力给用户，直接在产品内收集on-policy数据进行训练。

这种高频、接近实时的反馈回路，让Tab可以学习到极其微妙的用户意图。Cursor方面透露，这种方法让Tab建议拒绝率降低21%，接受率提高28%。

回到Composer模型本身。在事情搞清楚之后，一些Kimi员工也删掉了之前吐槽的推文，Kimi官方账号发表了祝贺。

一家估值600亿美元(基于马斯克给的数字)，不做自己模型基座的coding agent应用层公司，仍然可以通过产品自身数据飞轮，RL出超越基座模型的专有编程模型。

所以与其说Cursor翻了车，不如说这反而是coding agent产品重要性的绝佳例证。

Cursor在另一篇关于实时RL的文章里写道："(训练编程模型)最大困难在于建模用户。Composer生产环境里不只有执行命令的计算机，还有监督和指导它的人。模拟计算机容易，模拟使用它的人却很难。"

这句话，现正在逐渐成为编程模型方面走在前沿模型厂商之间的共识。如果你去看benchmark榜单和用户普遍评价，会发现哪些头部厂商都在发力做自己的coding agent/编程产品。区别只在于谁离用户更近。

我们以SWE-bench、LLM-Stats等相对权威榜单为例，Claude、GPT、Gemini、Kimi等模型基本霸榜前十，清一色都是有自己开发coding agent产品(包括CLI、IDE、集成coding agent的桌面客户端)的模型厂商。

在部分榜单上会出现少数反例，如Meta (Muse Spark)、DeepSeek等，没有开发自己的coding agent。

不过你会发现，这些反例模型，在更加接近真实场景、避免污染的更权威benchmark上就很难上榜了。以DeepSeek为例，它在SWE-bench bash only上分数是70%，排名第九，在SWE-bench Pro上分数却掉到了15%左右。

OpenRouter的真实流量数据可以解释这种反差：该平台2025年报告显示，Claude token消费80%以上用于编程和技术任务，而DeepSeek token消费主要集中于闲聊和角色扮演。

没有自家coding产品的厂商，在一些coding任务benchmark上能挤进头部，但在更难的真实工程benchmark上，在用户用token消费投票的真实流量中，都会原形毕露。

不仅是Cursor，Anthropic在2025年11月发的一篇论文里，也明确透露自己在做一模一样的事情："我们在Anthropic自家的真实生产编程环境上做训练。"也即Anthropic把自己员工使用Claude Code的交互数据，反哺给Claude模型用来训练。

在AI演进历程中，生产要素定义发生了深刻位移。传统三大核心要素——算力、研究、训练数据，虽然在总量上持续增长，但在结构上已经出现严重失衡。

今天各大AI巨头显著提高了算力上的资本支出(CapEx)，让算力建成当前舆论主旋律。但实际上，特别是在编程范畴内，随着GitHub仓库、StackOverflow等互联网公开代码数据被基模厂商"竭泽而渔"式利用，模型在代码生成与逻辑推理上的边界开始逐渐显现。

这也是为什么，行业共识正在逐渐转向一个冉冉升起的新战略高地：

对于任何希望掌握顶级代码能力的模型厂商而言，建立自有的coding agent产品早已不再是可选商业路线，而是确保底层模型可以持续进化的生命线。

正如前面APPSO论证的那样，单纯学习公开数据等于只学习成功者结局，却无法了解成功路径，这绝对不是正确成功学应该有的样子。在真实编程环境中，知道发生了什么错误、怎样发生的、如何正确理解和高效实践需求等等——了解正确过程的价值，远超于得到正确结果本身。

只有拥有自己的编码产品，模型厂商才能获取高质量的"过程监督"信号，从而在编码/推理能力的下一阶段竞争中，确保自己仍有技术护城河——

否则就不得不像SpaceXAI那样，花钱去跟coding agent产品公司合作。

然而并不是所有模型厂商都跟马斯克一样有钱，以及2026年开始的巨头势力划分、结盟与领地争斗会变得更加激烈，当一家缺乏自主coding产品的模型厂商终于回过味来的时候，恐怕已经没有足够合作伙伴可以挑选，合作的价格也将水涨船高。

美国模型巨头情况大家普遍比较熟悉了，在此不赘述。APPSO也注意到，国内主流模型厂商和AI巨头当中，绝大部分都已经在coding agent产品上有所布局。

国内巨头公司主要以原生AI IDE或IDE插件思路在做：字节跳动去年很早就布局了TRAE、阿里巴巴的Qoder、腾讯的CodeBuddy、百度的文心快码Comate等。

AI小龙公司中，月之暗面是最早开发独立coding agent产品的公司，主要以CLI界面的Kimi Code为主——不过Kimi此前有透露过，在原生编程产品这件事上，CLI不会是终局。

另一种实现思路是模型厂商自行提供API服务、Coding Plan。这样，不论用户使用何种AI开发环境，模型厂商都可以通过服务器端API记录来获取最大程度接近于原生coding产品的过程数据。

但这也只是接近，并非完全相同。核心在于，服务器端API的请求-响应日志，与深度继承的产品交互轨迹相比仍有很大差距。

自建产品的厂商(例如Cursor、Claude桌面端、Codex)拥有最直接显式反馈信号，而API侧是相对模糊隐式推断。简单来说，API侧能看到用户请求和响应，但用户最后是否采纳了这段代码、代码能否跑通、引发了什么bug，API侧对此是一无所知。他们无法了解用户最终行为这一关键标签，从而无法实现最高质量强化学习。

形而上来讲，语言即世界，代码即方案。代码可以表达这个世界上绝大多数任务，代码也会成为头部放大器，让最顶尖人才放大数倍生产力。

只有最顶尖coding模型才配得上最顶尖人才。如果领先模型厂商不重视coding，势必将会掉出第一梯队。

当然，事实上每家模型厂商都不会不重视coding——而是说，在新范式下，哪些没有自主可控原生coding agent产品，极有可能逐渐落后于有产品的厂商。

就在前几天，MiniMax也发布了桌面客户端产品的重大更新：带有全新多agent编排架构的Mavis功能，并且也让客户端显著改善了对coding任务支持。

此前MiniMax只是推出了桌面端，但没有加入原生coding和agent功能。

紧接着，在5月15日，阿里巴巴正式发布了Qoder 1.0——这个产品从IDE形态正式升级为一个完整Agent产品(阿里的官方叫法是智能体自主开发工作台)。

与此同时，xAI的Grok Build CLI，也终于正式推出了。

没错，就是xAI年初被Anthropic和Cursor封号之后，他们自己捣鼓出来的那个coding agent.

这不，又多了好几个现成案例。

看来，大家都认为Cursor、Codex和Claude桌面端走在正确道路上。

把话题从coding扩展到agent本身，情况也是一样的。

编码任务轨迹数据，在公开语料中确实还是能找到一些(比如GitHub的提交记录/PR，尽管质量并不高)。但是agent任务轨迹数据，包括并不限于移动和点击鼠标、操控触屏、填写输入框等，却无法在公开语料中找到。

所以我们会看到，即使在agent操作的最小实现路径——浏览器插件上，这么个看起来一点都不高端的东西，几乎每家模型厂商都会做自己的。

OpenAI早在2025年1月就做了Operator——与其说它是一个"AI自动操作浏览器"的产品，不如说本质上就是一个大规模数据收集装置。每一位试用Operator用户，都在免费为OpenAI提供on-policy数据。

后续OpenAI还衍生出ChatGPT Agent以及新版Codex桌面端；Anthropic也是同理；最近Kimi不声不响地也做了一个叫做WebBridge的项目，其实就是一个浏览器插件。

即便在过去两年里动作最克制的中国模型巨头深度求索，也在最近开始展露出对Agent的兴趣。

CEO梁文锋此前接受采访时曾经提到这样的观点：数学和代码是AGI天然试验场，有点像围棋，是一个封闭、可验证系统，有可能通过自我学习就能实现很高智能。

这句话潜台词，是DeepSeek一直把coding、Agent当研究试验场，而非商业化方向。

但是在今年3月，DeepSeek一次性放出了十几个Agent相关岗位，包括首次出现的模型策略产品经理(Agent方向)等。当时的JD职责涵盖"主导Agent评测体系以及训练数据方案的设计"，要求中包括"深度使用Claude Code、Manus"等产品。

APPSO注意到，近期深度求索发布了Agent产品经理、Harness产品经理等职位招聘信息——很显然，DeepSeek要做独立、原生的Coding/Agent产品了。

此前资料显示，DeepSeek V3.2的训练过程中引入了近两千个合成Agent训练环境和八万多条复杂指令。但是看起来，靠合成训练数据只能带DeepSeek走到这里了，剩下的是合成不出来部分：真实用户在真实环境里真实成功和失败，必须靠自家agent产品才能拿到。

DeepSeek以一种极度克制方式做了三年模型以及模型产品。但是在今天来看，在编码类任务上，DeepSeek拿SOTA越来越难了，即便此前拿到也会在不久后被超越。

当主力依靠研究路径支撑不住飞轮的时候，DeepSeek终于行动了。

最后，我们回到开篇故事。

根据The Information援引知情人士报道，在接受马斯克600亿收购/100亿美元合作的同时，Cursor表示不会与xAI合作开发新模型，而是仍将聚焦于优化自己的Composer模型。

这可能意味着，即便被马斯克买通甚至收购，Cursor仍然要保留自己数据飞轮主体性。

数据归属本身，是最关键隐藏博弈点。

当所有顶级模型厂商都做了自己产品，所有顶级产品也都开始训练自己模型，"模型公司"和"产品公司"之间本就不太清楚界限，似乎越来越不存在了……

这场博弈也才刚刚开始。

← 上一篇：全球AI模型排名揭晓：阿里千问表现亮眼，GPT5.4不敌新秀下一篇：折叠屏iPhone量产遇阻：铰链耐久性成关键瓶颈 →