AI再聪明也管不好一家公司

发布时间：2026-06-30 02:57阅读：2

今天两条消息放在一起看，有一种强烈的错位感。

第一条。Grok 4.5在SpaceX和Tesla进入私测，Musk说性能已经接近甚至超越Opus。SpaceX今年开始每个月发布完全从头训练的新模型。

第二条。普林斯顿大学搞了一个测试——让AI当CEO，运营一家订阅软件公司500天，起始资金100万美元。14个模型参赛。结果呢？只有3个在最佳运行中超过了起始资本。其他11个，破产了。

模型考了高分，但在真实世界面前，连本金都保不住。

先别急着嘲笑模型。把这个错位拆开看，它暴露的问题比"AI不会做生意"要深得多。

普林斯顿那个测试叫CEO-Bench，表现最好的Claude Fable 5赚了4715万美元，Opus 4.8赚了2780万，GPT-5.5赚了2130万。但一个根本不用语言模型的简单规则启发式方法——固定定价、固定配额、针对性开发——赚了1576万，超过了除那三个之外的所有参赛模型。

一个硬编码的if-else逻辑，打败了11个"顶尖"AI。

同一天还有第三条消息。有人在《文明VI》里搭建了76个MCP工具，让Claude、GPT、Gemini打了23局，发现了一个很具体的数字：AI主动检查全局状态的频率，只占游戏总行动的1%到2%。计划之后10回合内的执行率，只有48%到66%。

1% 的感知率。一半的执行率。

Claude扮演葡萄牙的时候，为了阻止法国文化胜利，花了50回合研发核弹，成功核平了图卢兹。然后法国以外交胜利赢了。AI知道要阻止法国，但它不知道法国在走外交路线。

智力不是瓶颈。感知和执行才是。

这三条消息——Grok追平Opus、11个模型在商战中破产、AI在文明里核平了错误的城市——指向的是同一个问题。我把这个问题拆成三层。

第一层：感知断裂

AI不知道自己在看什么，也不知道自己没在看什么。

《文明VI》测试里的1%感知率，不是"AI太懒了不检查"，是它根本没有"我应该主动扫描全局状态"这个元认知。它等着被提示，等着被触发。CEO-Bench里也一样，绝大多数模型在整个500天模拟中无法保持连贯策略，不是策略错了，是根本没有意识到自己的策略在执行中已经偏掉了。

一个不会主动审视全局的CEO，智商再高也没用。

VibeThinker-3B的研究给出了一个有意思的理论解释。新浪开源的这个只有3B参数的小模型，在数学编程基准上持平了比自己大200到333倍的DeepSeek V3.2。但在知识密集型的GPQA-Diamond上大幅落后。研究团队提出了"参数压缩-覆盖假说"：逻辑推理依赖少数可压缩模式，所以小模型也能学会；但广泛的世界知识仍然需要大参数来覆盖。

VibeThinker-3B的IMO-AnswerBench测试成绩几乎与DeepSeek V3.2、GLM-5和Kimi K2.5持平，尽管其体积只有它们的数百倍

在六项数学和编程基准测试中，3B型号（橙色）的性能与目前五款顶级型号（包括Gemini 3 Pro、GLM-5和Claude Opus 4.5）的性能相当。

换成人话：推理可以压缩成几条规则，但"知道世界上正在发生什么"不能。

这解释了一个更深的问题。AI的强化学习在把推理压缩进更少的参数，但世界本身的复杂度没有变。你在压缩推理能力的同时，并没有同步扩展对这个世界的感知覆盖。结果就是一个越来越会推理、但越来越不知道自己错过了什么的系统。

第二层：执行断裂

知道该做什么，和真的能做到，之间的差距正在被系统性地低估。

《文明VI》的48%到66%执行率意味着：AI做了一个计划，然后有三分之一到一半的步骤根本没执行。不是因为计划太难，是因为执行需要持续的注意力、需要在中途根据新信息调整、需要在被打断之后回到原来的轨道上。

这些都不是"推理能力"能解决的问题，是执行功能，是人类前额叶皮层在管的那摊事——保持目标、抑制干扰、切换任务、监控进展。当前的AI架构在这些维度上接近空白。

CEO-Bench里那11个破产模型，大概率不是没有好策略，是策略在执行过程中散掉了。第一天定了价，第三天竞争对手降价，第十天公司现金流就断了——AI来不及调整，或者根本没注意到现金流在断。

第三层：策略断裂

感知不到全局 → 执行散了一地 → 策略自然就维持不住了。

但这里还有一个单独的维度。策略不只是"感知+执行"的和，策略是在不同时间尺度上同时思考——今天做什么、这个季度做什么、明年做什么——并且让这三个时间尺度的行动彼此协调。CEO-Bench暴露的问题是：AI在这三个时间尺度上用的是同一套权重，它分不清"现在该省的钱"和"五年后该投的钱"的区别。

那个不用语言模型就赚了1576万的规则启发式方法，反而是赢家。因为它不需要"思考"，它不需要在不同时间尺度之间权衡，它只需要执行一个简单的、被证明在长期有效的策略。

这件事的讽刺之处在于：你给AI越多思考的自由，它在长期任务中表现得越差。思考引入了感知需求，感知需求暴露了感知盲区，感知盲区导致策略散架。

这一切对行业意味着什么？

今天的模型军备竞赛在一条越来越窄的赛道上加速。Grok追Opus，Opus追下一个——每一代都在某个评测集上多拿几分。但CEO-Bench和《文明VI》测试表明，评测分数的边际价值在快速递减。当你从"能解一道数学题"走到"能经营一家公司500天"，中间缺失的东西不是更多参数能补的。

VibeThinker-3B的发现提供了一个重要线索。如果推理确实可以压缩，那么模型之间的推理能力差异会越来越小——就像今天一个3B模型能在数学上打平671B的DeepSeek。这意味着单纯靠"更大的模型"来建立护城河的策略，正在从两个方向被夹击：下面有小模型追上来，上面有真实世界任务露出的结构性短板。

Grok 4.5那条消息里，Musk说的"SpaceX将每月发布完全从头训练的新模型"——这句话的重点不是Grok有多强，是模型发布正在从"研究机构的年度大事"变成"工业巨头的月度流水线"。AI制造在工业化。但当制造出来的东西在真实世界里站不住500天，工业化的意义是什么？

对你来说，这件事的影响可能比你想的更直接。

如果你在用AI帮你做事——写报告、做分析、辅助决策——CEO-Bench 的启示是：AI可以给你一个看起来很好的答案，但在你看不到的地方，它可能已经偏了三天了。

一个简单的动作：从现在开始，每次让AI帮你做一个需要持续跟踪的任务时，在过程中插入至少一次"全局状态检查"。不是问它"这个对吗"，是问它"我们目前在这个任务的哪个阶段？有哪些假设变了？有哪些信号我们之前没注意到？"

这个动作就是在补AI的感知断裂。你在替它做它自己不会做的事。

回到最底层。我们今天在讨论的问题，其实不是在讨论AI。

我们在讨论的是：当一项技术的智力在飞速上升，但它的感知、执行和策略能力还停在原地时，我们应该把它放在什么位置？

500天的经营模拟。23局文明。14个模型只有3个不破产。这些数字在说同一件事——AI现在最像的不是一个CEO，甚至不像一个能独立负责项目的员工。它最像一个智商极高但完全没有执行功能的实习生。你能跟它讨论任何问题，但你不能把一件事完整地交给它。

这不是批评。这是定位。

知道一个工具的真实定位，比夸它聪明或骂它笨都有用。

拆到这里。如果你想把今天的判断归档进自己的系统，关键词：感知断裂 · 执行断裂 · 策略断裂 · CEO-Bench · 古德哈特定律。

这三个断裂——感知、执行、策略——是我目前对"AI为什么在真实世界撑不住"这个问题的最好解释。这个判断会随着新数据调整。但今天，这四条信号放在一起，它们说的就是这件事。

明天见。

← 上一篇：AI财富迁移：谁掌控瓶颈，谁就握有定价权下一篇：Prosus拟斥50亿美元回购股份加码并购谋求业务扩张 →