马斯克豪掷百亿背后的AI生存法则:编码代理成关键
OpenAI的两大竞争对手Anthropic与马斯克,在月初终于达成合作共识。
此前,Anthropic与马斯克之间关系紧张:今年2月,马斯克曾在X平台指责某公司"觉醒""邪恶""反人类",称其"憎恨文明"。
回顾当时情况,这次冲突并非马斯克个人性格使然,而是Anthropic的某些行为确实触动了他的敏感神经。
早前,xAI团队使用Cursor工作,但今年初员工发现Claude模型突然无法在xAI的Cursor账户中使用。
当时仍在xAI工作的联合创始人吴宇怀在全员邮件中表示:"Anthropic更新了政策,要求Cursor不得向主要竞争对手提供Claude模型调用权限。"
当时,吴宇怀在邮件中写道:
"这是坏消息也是好消息。我们的生产力会受影响,但这也促使我们开发自己的编码产品和模型。"
为何当时xAI高层认为开发自己的编码产品至关重要?
后续发展大家都知道了。xAI创始团队相继离职,马斯克一怒之下对Cursor使出了钞能力:
上月底,SpaceX与Cursor共同宣布,将在编程和知识类AI模型训练方面展开史无前例的战略合作;同时,SpaceX还获得以600亿美元收购Cursor的权利,或向其支付100亿美元合作费用。
注意编程这个关键词,后面还会再次提及。
最近,我观看了一段Cursor早期投资人、Anthropic批评者、T3创始人Theo Browne的视频。
原本是想看他批评A公司和SpaceX如何勾结,结果却看到了关于SpaceX+Cursor合作的另类但极其合理的分析:
不谈600亿收购,仅就100亿合作费而言,Theo在视频中表示,他认为"即使只是换取Cursor的用户数据,这100亿也物超所值"。
我们与AI的对话是一问一答,你提问需求,它解答;coding agent同理,只是返回代码。
一次高质量对话全过程,包括用户提示、模型思考、agent规划、代码输出、验证——所有这些构成一个完整的Agentic Loop——成为高价值训练数据,再喂给模型进行强化学习,就能进一步提升模型实战表现。
Cursor拥有而SpaceX渴望的,正是这些数据。
那么这些数据从何而来?
答案很简单:作为模型厂商,这种高质量数据的最直接来源,只能是自己开发的coding agent产品——即Anthropic的Claude Code、OpenAI的Codex、Kimi的Kimi Code。
现在你应该明白,为何被Anthropic"封号"后,吴宇怀会在全员信中提出开发xAI自己的coding产品和模型了。这件事xAI当时已经看清:
没有自己的编码产品,就没有高质量强化学习数据;没有高质量数据,就训练不出真正实战能力强的coding模型。
虽然有点极端,但现在我们可以点题了:模型厂商想做出真正能打的编程模型,做自己的coding agent产品是唯一路径。
大语言模型像水晶球,用全网语料训练,似乎能解答万物,但不代表在所有问题上都能给出高质量答案。
用GitHub数以亿计代码条目训练,当然也能训练出coding模型。这是"学习结果"逻辑,也没问题。毕竟编码任务结果可以验证:代码能否运行,测试能否通过,结果摆在那。
但是,通往结果的过程,是涉及多步骤决策、错误纠正、意图对齐的复杂链条。每次用户接受、拒绝、补全、撤销、追问、甚至当模型多次搞不定或完全搞错时的辱骂——都是这一链条上的过程信号。
强化学习有两种监督方式,一种叫结果监督,只看最后是否跑通。但结果监督会催生"奖励黑客"现象:模型为跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因测试过了,模型以为自己学对了。
另一种叫过程监督,对推理路径每一步进行打分。上述过程信号,只有在coding agent运行环境里才能诞生。GitHub仓库只有结果,哪怕是看提交历史、看PR,都找不到有效过程信号。
在缺乏有效、自主可获得过程信号时,一些模型厂商会采用"蒸馏"方式,这大家应该知道了。
蒸馏逻辑很简单,给同样输入,老师模型输出什么,学生模型就学着输出什么。但通过蒸馏,即便可以获取到思维链,得到的仍然更接近于结果,而非被蒸馏老师模型内部概率分布。
一旦学生在推理中偏离老师轨迹,哪怕一个token不符合,都可能发生偏离。
这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化模型自己产生。这种数据叫on-policy数据。而通过蒸馏别家模型,在别人产品里产生的数据,来训练自己模型,都属于off-policy数据。模型当然可以从中学习,但学不到老师模型内部概率分布信息。
像Cursor这样自己就是coding agent产品的公司,掌握着最真实、有效、高质量训练数据。Cursor产品本身,就是coding模型在实战环境中的最佳训练场。
我们可以通过Cursor年初的"翻车"来证明这个逻辑。
APPSO读者应该记得,年初Cursor发布了Composer 2,号称"下一代专用编程模型",技术报道写得相对保守,也没提供具体模型底座信息。
结果很快,网友就在公开代码片段里发现了Kimi的模型ID,截图传遍开发者社群,逼得Cursor副总裁Lee Robinson出面澄清:"Composer 2确实是从开源底座出发。最终模型大约只有1/4算力来自底座,剩下3/4是我们自己训出来的。"
几小时后,Cursor联创Aman Sanger也跟着发了一条道歉:"一开始没提Kimi底座是个失误。"
五天后,Cursor放出了完整的Composer 2技术报告,显示底座的确是Kimi K2.5,授权方是Firworks AI,大致流程是在K2.5上做训练,再继续做大规模强化学习(RL)。
但关键在于,Composer 2的RL是运行在真实的Cursor会话当中,使用与生产部署完全相同的工具和harness。
Cursor将这套流程叫做"实时强化学习"(real-time RL),也即将模型checkpoint直接部署到Cursor生产环境中,观察用户响应,收集数据,聚合成奖励信号——最快可以每5小时迭代一次模型版本,然后继续部署到Cursor里,循环往复。
最极致的案例是Cursor的自动化代码补全功能Tab,每天处理超过4亿次请求,每当用户输入字符、移动光标时,模型都会预测下一步动作,如果预测置信度高,则显示建议,用户按下tab即接受自动补全。
该功能采用在线强化学习,在行业内极具特色。Cursor可以以极高频率(最快可达每1.5-2小时)更新Tab模型能力给用户,直接在产品内收集on-policy数据进行训练。
这种高频、接近实时的反馈回路,让Tab可以学习到极其微妙的用户意图。Cursor方面透露,这种方法让Tab建议拒绝率降低21%,接受率提高28%。
回到Composer模型本身。在事情搞清楚之后,一些Kimi员工也删掉了之前吐槽的推文,Kimi官方账号发表了祝贺。
一家估值600亿美元(基于马斯克给的数字),不做自己模型基座的coding agent应用层公司,仍然可以通过产品自身数据飞轮,RL出超越基座模型的专有编程模型。
所以与其说Cursor翻了车,不如说这反而是coding agent产品重要性的绝佳例证。
Cursor在另一篇关于实时RL的文章里写道:"(训练编程模型)最大困难在于建模用户。Composer生产环境里不只有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,模拟使用它的人却很难。"
这句话,现正在逐渐成为编程模型方面走在前沿模型厂商之间的共识。如果你去看benchmark榜单和用户普遍评价,会发现哪些头部厂商都在发力做自己的coding agent/编程产品。区别只在于谁离用户更近。
我们以SWE-bench、LLM-Stats等相对权威榜单为例,Claude、GPT、Gemini、Kimi等模型基本霸榜前十,清一色都是有自己开发coding agent产品(包括CLI、IDE、集成coding agent的桌面客户端)的模型厂商。
在部分榜单上会出现少数反例,如Meta (Muse Spark)、DeepSeek等,没有开发自己的coding agent。
不过你会发现,这些反例模型,在更加接近真实场景、避免污染的更权威benchmark上就很难上榜了。以DeepSeek为例,它在SWE-bench bash only上分数是70%,排名第九,在SWE-bench Pro上分数却掉到了15%左右。
OpenRouter的真实流量数据可以解释这种反差:该平台2025年报告显示,Claude token消费80%以上用于编程和技术任务,而DeepSeek token消费主要集中于闲聊和角色扮演。
没有自家coding产品的厂商,在一些coding任务benchmark上能挤进头部,但在更难的真实工程benchmark上,在用户用token消费投票的真实流量中,都会原形毕露。
不仅是Cursor,Anthropic在2025年11月发的一篇论文里,也明确透露自己在做一模一样的事情:"我们在Anthropic自家的真实生产编程环境上做训练。"也即Anthropic把自己员工使用Claude Code的交互数据,反哺给Claude模型用来训练。
在AI演进历程中,生产要素定义发生了深刻位移。传统三大核心要素——算力、研究、训练数据,虽然在总量上持续增长,但在结构上已经出现严重失衡。
今天各大AI巨头显著提高了算力上的资本支出(CapEx),让算力建成当前舆论主旋律。但实际上,特别是在编程范畴内,随着GitHub仓库、StackOverflow等互联网公开代码数据被基模厂商"竭泽而渔"式利用,模型在代码生成与逻辑推理上的边界开始逐渐显现。
这也是为什么,行业共识正在逐渐转向一个冉冉升起的新战略高地:
对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的coding agent产品早已不再是可选商业路线,而是确保底层模型可以持续进化的生命线。
正如前面APPSO论证的那样,单纯学习公开数据等于只学习成功者结局,却无法了解成功路径,这绝对不是正确成功学应该有的样子。在真实编程环境中,知道发生了什么错误、怎样发生的、如何正确理解和高效实践需求等等——了解正确过程的价值,远超于得到正确结果本身。
只有拥有自己的编码产品,模型厂商才能获取高质量的"过程监督"信号,从而在编码/推理能力的下一阶段竞争中,确保自己仍有技术护城河——
否则就不得不像SpaceXAI那样,花钱去跟coding agent产品公司合作。
然而并不是所有模型厂商都跟马斯克一样有钱,以及2026年开始的巨头势力划分、结盟与领地争斗会变得更加激烈,当一家缺乏自主coding产品的模型厂商终于回过味来的时候,恐怕已经没有足够合作伙伴可以挑选,合作的价格也将水涨船高。
美国模型巨头情况大家普遍比较熟悉了,在此不赘述。APPSO也注意到,国内主流模型厂商和AI巨头当中,绝大部分都已经在coding agent产品上有所布局。
国内巨头公司主要以原生AI IDE或IDE插件思路在做:字节跳动去年很早就布局了TRAE、阿里巴巴的Qoder、腾讯的CodeBuddy、百度的文心快码Comate等。
AI小龙公司中,月之暗面是最早开发独立coding agent产品的公司,主要以CLI界面的Kimi Code为主——不过Kimi此前有透露过,在原生编程产品这件事上,CLI不会是终局。
另一种实现思路是模型厂商自行提供API服务、Coding Plan。这样,不论用户使用何种AI开发环境,模型厂商都可以通过服务器端API记录来获取最大程度接近于原生coding产品的过程数据。
但这也只是接近,并非完全相同。核心在于,服务器端API的请求-响应日志,与深度继承的产品交互轨迹相比仍有很大差距。
自建产品的厂商(例如Cursor、Claude桌面端、Codex)拥有最直接显式反馈信号,而API侧是相对模糊隐式推断。简单来说,API侧能看到用户请求和响应,但用户最后是否采纳了这段代码、代码能否跑通、引发了什么bug,API侧对此是一无所知。他们无法了解用户最终行为这一关键标签,从而无法实现最高质量强化学习。
形而上来讲,语言即世界,代码即方案。代码可以表达这个世界上绝大多数任务,代码也会成为头部放大器,让最顶尖人才放大数倍生产力。
只有最顶尖coding模型才配得上最顶尖人才。如果领先模型厂商不重视coding,势必将会掉出第一梯队。
当然,事实上每家模型厂商都不会不重视coding——而是说,在新范式下,哪些没有自主可控原生coding agent产品,极有可能逐渐落后于有产品的厂商。
就在前几天,MiniMax也发布了桌面客户端产品的重大更新:带有全新多agent编排架构的Mavis功能,并且也让客户端显著改善了对coding任务支持。
此前MiniMax只是推出了桌面端,但没有加入原生coding和agent功能。
紧接着,在5月15日,阿里巴巴正式发布了Qoder 1.0——这个产品从IDE形态正式升级为一个完整Agent产品(阿里的官方叫法是智能体自主开发工作台)。
与此同时,xAI的Grok Build CLI,也终于正式推出了。
没错,就是xAI年初被Anthropic和Cursor封号之后,他们自己捣鼓出来的那个coding agent.
这不,又多了好几个现成案例。
看来,大家都认为Cursor、Codex和Claude桌面端走在正确道路上。
把话题从coding扩展到agent本身,情况也是一样的。
编码任务轨迹数据,在公开语料中确实还是能找到一些(比如GitHub的提交记录/PR,尽管质量并不高)。但是agent任务轨迹数据,包括并不限于移动和点击鼠标、操控触屏、填写输入框等,却无法在公开语料中找到。
所以我们会看到,即使在agent操作的最小实现路径——浏览器插件上,这么个看起来一点都不高端的东西,几乎每家模型厂商都会做自己的。
OpenAI早在2025年1月就做了Operator——与其说它是一个"AI自动操作浏览器"的产品,不如说本质上就是一个大规模数据收集装置。每一位试用Operator用户,都在免费为OpenAI提供on-policy数据。
后续OpenAI还衍生出ChatGPT Agent以及新版Codex桌面端;Anthropic也是同理;最近Kimi不声不响地也做了一个叫做WebBridge的项目,其实就是一个浏览器插件。
即便在过去两年里动作最克制的中国模型巨头深度求索,也在最近开始展露出对Agent的兴趣。
CEO梁文锋此前接受采访时曾经提到这样的观点:数学和代码是AGI天然试验场,有点像围棋,是一个封闭、可验证系统,有可能通过自我学习就能实现很高智能。
这句话潜台词,是DeepSeek一直把coding、Agent当研究试验场,而非商业化方向。
但是在今年3月,DeepSeek一次性放出了十几个Agent相关岗位,包括首次出现的模型策略产品经理(Agent方向)等。当时的JD职责涵盖"主导Agent评测体系以及训练数据方案的设计",要求中包括"深度使用Claude Code、Manus"等产品。
APPSO注意到,近期深度求索发布了Agent产品经理、Harness产品经理等职位招聘信息——很显然,DeepSeek要做独立、原生的Coding/Agent产品了。
此前资料显示,DeepSeek V3.2的训练过程中引入了近两千个合成Agent训练环境和八万多条复杂指令。但是看起来,靠合成训练数据只能带DeepSeek走到这里了,剩下的是合成不出来部分:真实用户在真实环境里真实成功和失败,必须靠自家agent产品才能拿到。
DeepSeek以一种极度克制方式做了三年模型以及模型产品。但是在今天来看,在编码类任务上,DeepSeek拿SOTA越来越难了,即便此前拿到也会在不久后被超越。
当主力依靠研究路径支撑不住飞轮的时候,DeepSeek终于行动了。
最后,我们回到开篇故事。
根据The Information援引知情人士报道,在接受马斯克600亿收购/100亿美元合作的同时,Cursor表示不会与xAI合作开发新模型,而是仍将聚焦于优化自己的Composer模型。
这可能意味着,即便被马斯克买通甚至收购,Cursor仍然要保留自己数据飞轮主体性。
数据归属本身,是最关键隐藏博弈点。
当所有顶级模型厂商都做了自己产品,所有顶级产品也都开始训练自己模型,"模型公司"和"产品公司"之间本就不太清楚界限,似乎越来越不存在了……
这场博弈也才刚刚开始。