AI再聪明也管不好一家公司
今天两条消息放在一起看,有一种强烈的错位感。
第一条。Grok 4.5在SpaceX和Tesla进入私测,Musk说性能已经接近甚至超越Opus。SpaceX今年开始每个月发布完全从头训练的新模型。
第二条。普林斯顿大学搞了一个测试——让AI当CEO,运营一家订阅软件公司500天,起始资金100万美元。14个模型参赛。结果呢?只有3个在最佳运行中超过了起始资本。其他11个,破产了。
模型考了高分,但在真实世界面前,连本金都保不住。
先别急着嘲笑模型。把这个错位拆开看,它暴露的问题比"AI不会做生意"要深得多。
普林斯顿那个测试叫CEO-Bench,表现最好的Claude Fable 5赚了4715万美元,Opus 4.8赚了2780万,GPT-5.5赚了2130万。但一个根本不用语言模型的简单规则启发式方法——固定定价、固定配额、针对性开发——赚了1576万,超过了除那三个之外的所有参赛模型。
一个硬编码的if-else逻辑,打败了11个"顶尖"AI。
同一天还有第三条消息。有人在《文明VI》里搭建了76个MCP工具,让Claude、GPT、Gemini打了23局,发现了一个很具体的数字:AI主动检查全局状态的频率,只占游戏总行动的1%到2%。计划之后10回合内的执行率,只有48%到66%。
1% 的感知率。一半的执行率。
Claude扮演葡萄牙的时候,为了阻止法国文化胜利,花了50回合研发核弹,成功核平了图卢兹。然后法国以外交胜利赢了。AI知道要阻止法国,但它不知道法国在走外交路线。
智力不是瓶颈。感知和执行才是。
这三条消息——Grok追平Opus、11个模型在商战中破产、AI在文明里核平了错误的城市——指向的是同一个问题。我把这个问题拆成三层。
第一层:感知断裂
AI不知道自己在看什么,也不知道自己没在看什么。
《文明VI》测试里的1%感知率,不是"AI太懒了不检查",是它根本没有"我应该主动扫描全局状态"这个元认知。它等着被提示,等着被触发。CEO-Bench里也一样,绝大多数模型在整个500天模拟中无法保持连贯策略,不是策略错了,是根本没有意识到自己的策略在执行中已经偏掉了。
一个不会主动审视全局的CEO,智商再高也没用。
VibeThinker-3B的研究给出了一个有意思的理论解释。新浪开源的这个只有3B参数的小模型,在数学编程基准上持平了比自己大200到333倍的DeepSeek V3.2。但在知识密集型的GPQA-Diamond上大幅落后。研究团队提出了"参数压缩-覆盖假说":逻辑推理依赖少数可压缩模式,所以小模型也能学会;但广泛的世界知识仍然需要大参数来覆盖。
VibeThinker-3B的IMO-AnswerBench测试成绩几乎与DeepSeek V3.2、GLM-5和Kimi K2.5持平,尽管其体积只有它们的数百倍
在六项数学和编程基准测试中,3B型号(橙色)的性能与目前五款顶级型号(包括Gemini 3 Pro、GLM-5和Claude Opus 4.5)的性能相当。
换成人话:推理可以压缩成几条规则,但"知道世界上正在发生什么"不能。
这解释了一个更深的问题。AI的强化学习在把推理压缩进更少的参数,但世界本身的复杂度没有变。你在压缩推理能力的同时,并没有同步扩展对这个世界的感知覆盖。结果就是一个越来越会推理、但越来越不知道自己错过了什么的系统。
第二层:执行断裂
知道该做什么,和真的能做到,之间的差距正在被系统性地低估。
《文明VI》的48%到66%执行率意味着:AI做了一个计划,然后有三分之一到一半的步骤根本没执行。不是因为计划太难,是因为执行需要持续的注意力、需要在中途根据新信息调整、需要在被打断之后回到原来的轨道上。
这些都不是"推理能力"能解决的问题,是执行功能,是人类前额叶皮层在管的那摊事——保持目标、抑制干扰、切换任务、监控进展。当前的AI架构在这些维度上接近空白。
CEO-Bench里那11个破产模型,大概率不是没有好策略,是策略在执行过程中散掉了。第一天定了价,第三天竞争对手降价,第十天公司现金流就断了——AI来不及调整,或者根本没注意到现金流在断。
第三层:策略断裂
感知不到全局 → 执行散了一地 → 策略自然就维持不住了。
但这里还有一个单独的维度。策略不只是"感知+执行"的和,策略是在不同时间尺度上同时思考——今天做什么、这个季度做什么、明年做什么——并且让这三个时间尺度的行动彼此协调。CEO-Bench暴露的问题是:AI在这三个时间尺度上用的是同一套权重,它分不清"现在该省的钱"和"五年后该投的钱"的区别。
那个不用语言模型就赚了1576万的规则启发式方法,反而是赢家。因为它不需要"思考",它不需要在不同时间尺度之间权衡,它只需要执行一个简单的、被证明在长期有效的策略。
这件事的讽刺之处在于:你给AI越多思考的自由,它在长期任务中表现得越差。思考引入了感知需求,感知需求暴露了感知盲区,感知盲区导致策略散架。
这一切对行业意味着什么?
今天的模型军备竞赛在一条越来越窄的赛道上加速。Grok追Opus,Opus追下一个——每一代都在某个评测集上多拿几分。但CEO-Bench和《文明VI》测试表明,评测分数的边际价值在快速递减。当你从"能解一道数学题"走到"能经营一家公司500天",中间缺失的东西不是更多参数能补的。
VibeThinker-3B的发现提供了一个重要线索。如果推理确实可以压缩,那么模型之间的推理能力差异会越来越小——就像今天一个3B模型能在数学上打平671B的DeepSeek。这意味着单纯靠"更大的模型"来建立护城河的策略,正在从两个方向被夹击:下面有小模型追上来,上面有真实世界任务露出的结构性短板。
Grok 4.5那条消息里,Musk说的"SpaceX将每月发布完全从头训练的新模型"——这句话的重点不是Grok有多强,是模型发布正在从"研究机构的年度大事"变成"工业巨头的月度流水线"。AI制造在工业化。但当制造出来的东西在真实世界里站不住500天,工业化的意义是什么?
对你来说,这件事的影响可能比你想的更直接。
如果你在用AI帮你做事——写报告、做分析、辅助决策——CEO-Bench 的启示是:AI可以给你一个看起来很好的答案,但在你看不到的地方,它可能已经偏了三天了。
一个简单的动作:从现在开始,每次让AI帮你做一个需要持续跟踪的任务时,在过程中插入至少一次"全局状态检查"。不是问它"这个对吗",是问它"我们目前在这个任务的哪个阶段?有哪些假设变了?有哪些信号我们之前没注意到?"
这个动作就是在补AI的感知断裂。你在替它做它自己不会做的事。
回到最底层。我们今天在讨论的问题,其实不是在讨论AI。
我们在讨论的是:当一项技术的智力在飞速上升,但它的感知、执行和策略能力还停在原地时,我们应该把它放在什么位置?
500天的经营模拟。23局文明。14个模型只有3个不破产。这些数字在说同一件事——AI现在最像的不是一个CEO,甚至不像一个能独立负责项目的员工。它最像一个智商极高但完全没有执行功能的实习生。你能跟它讨论任何问题,但你不能把一件事完整地交给它。
这不是批评。这是定位。
知道一个工具的真实定位,比夸它聪明或骂它笨都有用。
拆到这里。如果你想把今天的判断归档进自己的系统,关键词:感知断裂 · 执行断裂 · 策略断裂 · CEO-Bench · 古德哈特定律。
这三个断裂——感知、执行、策略——是我目前对"AI为什么在真实世界撑不住"这个问题的最好解释。这个判断会随着新数据调整。但今天,这四条信号放在一起,它们说的就是这件事。
明天见。