李飞飞豪掷10亿美元押注:AI不止会聊天,更得懂物理世界
当整个硅谷都在 ChatGPT、Claude 这些大语言模型上厮杀、争论 AGI 还有几年到来时,被称为「AI 教母」的李飞飞,却泼了一盆冷水——她融了10 亿美元,去赌一个和所有人都反着来的方向:世界模型。
她的判断,一句比一句扎人:「语言能扑灭一场火吗?语言能煎熟一个蛋吗?」她想说的很直接——只会聊天的大模型,根本不懂这个物理世界,它缺了最关键的那一块:「空间智能」。
放话还不止这一句。她说,外界投给人形机器人的那 60 亿美元,「太少了」;而当 Anthropic 的 CEO 说 AGI 还有两三年、DeepMind 的哈萨比斯说人类已经站在「奇点的山脚」时,她干脆撂下一句:AGI 这个词,我根本不参与讨论——「你叫它一个苹果都行。」
但这场对话里最戳人的,其实不是这些放话,而是她作为一个科学家、一个教育者、一个母亲,对那个所有人都在焦虑的问题,给出的回答:AI 会不会抢走我们的工作?我们的孩子,还要不要学习?
这篇文章,我把这位「AI 教母」信息量极大的对话完整梳理了一遍。读完你会明白,为什么在一片喧嚣里,她偏偏选择去做那个「无聊」的人。
对话一开场,主持人就把问题摆到了台面上:所有人都盯着大语言模型,你却融了 10 亿美元去做「世界模型」,你在赌一件别人没看到的事,这个赌注到底是什么?
李飞飞的回答,要从一个5 亿年的故事讲起。
她说,动物的智能,是从「看见」和「在物理世界里移动」开始的。进化的起点,是我们作为动物,知道世界是什么、知道自己是谁、知道怎么在世界里移动、怎么和它互动。人的一生——工作也好、生活也好——很大一部分,都和感知世界、理解世界、在世界里推理和互动有关,这甚至包括我们用来创作、用来生产的那些想象出来的虚拟世界。
把这种能力解锁到机器身上,就是「空间智能」。让机器能生成任意的 3D、4D 世界,能在任意世界里推理,能教机器人、能辅助人去和世界互动——这就是 World Labs 在做的事,而通往空间智能的路,就是构建一个大世界模型。
那它和大语言模型的根本区别在哪?主持人追问:世界模型最终能做到什么,是语言模型永远做不到的?
李飞飞反问了一句,几乎成了整场对话的题眼:
很多事,本就在语言之外。
顺着这句话,她把世界模型的用武之地拆成了三块。
第一是创造。人在设计——设计室内空间、设计机器、设计住宅,甚至设计一个故事——这其中太多东西,是文字描述不了的。
第二是智能体。无论是虚拟世界里的智能体,比如游戏娱乐;还是更严肃的工业场景,比如数字孪生的设计、检测,以及各种各样的优化任务。
第三是机器人。从扑灭一场火,到医疗健康场景,再到制造业,帮人做大量的事。
她说,这些全都是「解锁空间智能、构建世界模型」之后的下游应用。换句话说,世界模型不是一个炫技的玩具,它底下连着的是创意产业、工业和机器人这几条真实的大动脉。
主持人问了一个很关键的问题:世界模型的「ChatGPT 时刻」会长什么样?我们怎么知道这一天到了?
李飞飞坦诚地说,这个问题她还没有答案。
因为「聊天」本身就是一种消费者行为,所谓「ChatGPT 时刻」,描述的是一个面向大众、瞬间引爆的消费级时刻。但她要解锁的空间智能,应用往往会先去到专业人群——专业的创作者、设计师、开发者、研究员和工程师,他们会把它用在机器人、工业设计这些地方。
所以,也许世界模型不会有一个属于大众的「ChatGPT 时刻」。但她话锋一转,也许会有——她自己就特别想用更轻松的方式设计自己的家,比如一键就能换掉窗帘的颜色。
这是一个绕不开的问题。主持人摆出了战局:过去半年,Yann LeCun 离开 Meta 去做世界模型,谷歌发布了 Project Genie,英伟达有自己的世界模型 Cosmos——而英伟达还是你的投资人之一。你有什么是他们没有的?哪个对手最让你担心?
李飞飞先讲了「先发」。她说 World Labs 2024 年就成立了,那时候 ChatGPT 才出来一年,所有人都还在谈大语言模型,而他们已经认定空间智能是 AI 的下一个前沿。这个判断,让她很兴奋。至于他们有什么别人没有的——一支了不起的团队,以及「信念」。
主持人在这里补了一句玩笑:「他们可没有『教母』。」(李飞飞被业界称为「AI 教母」。)
但李飞飞没有把话说满。她说世界很大,就像大语言模型一样,会有很多公司在世界模型上做出了不起的工作。她还顺势讲了一件事:就在 24 小时前,World Labs 刚发了一篇博客,专门去定义「世界模型」的功能分类——因为这个词被用得太混乱了,什么都往里塞。在她看来,围绕空间智能,「世界模型」其实有三种:
●第一种叫「渲染器」(renderer):把漂亮的像素打到屏幕上,大多是视频生成模型,消费者主要是人的眼睛。它追求的是好看,不一定遵守物理、动力学和几何上的正确,因为它是给人眼看的,不是给计算用的。
●第二种叫「规划器」(planner):更多是给机器、给机器人用的。输入是世界的状态或动作,它输出下一步该采取的正确动作。机器人领域常听到的就是这一种。
●第三种叫「模拟器」(simulator):在她看来,这才是三者里的枢纽。它既被人消费、也被机器消费,努力尊重世界的结构、物理和动力学,真正去模拟世界的 3D、4D 信息和语义信息。一个模拟器,可以变成渲染器,也可以变成规划器。
她说,模拟器这一层,是解锁空间智能最关键的一条路径——这正是 World Labs 在啃的硬骨头。
接着是机器人。主持人有点调侃:人形机器人的融资已经冲到 60 亿美元,可它们装洗碗机还没我快,连帮我取个亚马逊包裹都做不到。世界模型、World Labs,能不能填上「炒作」和「现实」之间的这条鸿沟?
李飞飞先接住了这个「刁难」,然后给了一个让人意外的判断。
她说,机器人,将是人类工业化进程中最重要的革命之一。而60 亿美元——太少了。你去看自动驾驶投了多少、看大语言模型投了多少,远不止这个数。
她不是在喊「再多砸钱」。她强调的是:这件事需要时间,更需要的不是炒作,而是深思熟虑地把钱投到对的方向上——比如解锁世界建模、空间智能、模拟层,这些都是其中关键的努力。至于能不能填平那条鸿沟,她说 World Labs 正在做的,是空间物理智能里最关键的技术之一,「那当然是我们的期望」。
主持人话题一转,问到了安全:你对 AI 安全一向比较克制,既不信「末日论」,也反对「一刀切」的监管。放眼整个行业,哪里是真正的安全工作,哪里只是「安全表演」?有没有人做对了?
李飞飞先自嘲了一句:在所有这些口号面前,我都显得很无聊。
她说,现在的炒作实在太多了。但无论你用「负责任」、「安全」还是「可信」这些词,任何工作的目标都该是一样的:把技术和产品做对,让它去增强人、放大人的能力,而不是伤害人。
哪里做对了?她希望每一家公司、每一个产品背后的人,都在认真想这些问题:我们用的是什么数据?建的是什么系统?做了哪些评估?设了哪些护栏?怎么和用户沟通?怎么和监管者配合?她相信,这样的工作正在大量发生,而且不是在「演戏」。
她举了一个特别真实的例子——就在来参加这场对话之前,她刚从斯坦福医院赶过来,因为家里有人一小时后就要做手术。她在医院里亲眼看到 AI 已经在哪些地方用上了:医生用 AI 写病历,放射科医生用 AI 辅助读 MRI 和 CT。她希望未来有更多 AI 去帮护士、帮家属。前一晚她拿到一份很长的放射学报告,第一件事就是发给 AI,让它帮自己读懂。
所以,安全这件事,真功夫一直在做。只是还需要更多,需要用科学、严谨的方式去做——她说,这才是我们该展开的对话,而不是去争论谁在「表演」。
(说到这儿,主持人插了一句:「谢谢你来,希望你的家人平安,我们都这么希望。」)
主持人提到了一个尖锐的现象:现在有一股被称为「AI 仇恨潮」的反弹,前谷歌 CEO 埃里克·施密特在一场大学毕业典礼上被嘘。你花很多时间和学生在一起,他们在说什么?如果他们害怕,这种害怕站得住脚吗?
李飞飞的回答,超出了「学生」这个范围。
她坦言,自己接触的斯坦福学生其实是相当幸运的一群。所以她觉得更重要的,是去和老师、护士、父母、祖辈待在一起,去和 K-12 的教育工作者聊,去那些「觉得自己被排除在对话之外」的人群里走一走。
哪怕是斯坦福的学生,身上也带着一种复杂的情绪:有焦虑,有希望,有兴奋,也有困惑;当 AI 能帮他们做到以前做不到的事,他们感到一种尊严和掌控感;可一旦担心 AI 要抢走自己的工作,又是一种尊严和掌控感的丧失。
而她真正想点破的是:这种情绪,很多时候是因为缺少一种深思熟虑的公共讨论。
而她说,恰恰是这个真空,才是我们最该在意的——因为真实的人,就活在那里,就在那里寻找答案。
作为一个科学家、教育者和创业者,她说自己就站在这场变革的「震中」,和学生、教育者、创业者在一起。她认为自己的责任之一,就是不去炒作,用科学和谦逊去说话,去让人们看到:只要我们做对了,这是一项能真正帮到我们的工作和生活的技术——能带来更好的医疗、更好的科学发现、更好的环境、更好的教育。
聊到这里,两个同样有青春期孩子的母亲,谈起了最让人揪心的话题。
主持人问:你觉得 AI 会怎样改变学习和大学教育?
李飞飞的态度异常坚决:AI 必须改变学习,必须改变从小学到大学的整个教育。她说这是未来十年里,人类最大的机遇之一。因为这个世界上最宝贵的资源,是人的才能。
她的逻辑很硬:当一项技术,已经能在各种标准化考试上——从美国的统考,一直到国际奥数竞赛——做得比普通人还好,这说明的不是人不行了,而是我们的教育系统该变了。我们得改变评价的方式,得重新去赋予老师能力,去教育下一代——让他们学会用这些工具、被这些工具增强,去做我们今天根本想象不到的事。
主持人追问:那我们的孩子,还会学习吗?
「绝对会。」李飞飞说,只要我们教得对、社会把他们准备好,今天所有的孩子都不该害怕 AI。他们应该感受到一种属于人的主动权——去引领 AI、用对 AI,用 AI 去做出他们想为这个世界做出的改变。
最后,主持人抛出了那个最热的词。她说:Anthropic 的 CEO 达里奥·阿莫迪认为 AGI 还有两三年,靠把现有路线继续放大就能到达;DeepMind 的哈萨比斯说我们正处在「奇点的山脚」。而你说过,你连 AGI 这个词都不参与讨论。是他们错了,还是你们只是在为同一个目标吵该叫什么名字?
李飞飞的回答,显出了一个科学家的底色。
她说,她不参与「AGI」这个词的讨论,是因为人工智能这门学科的奠基者们,当年怀着的是一个梦想——造出会思考、会行动的机器。这是一个科学追求,而这个追求,正是她一生的事业,她至今仍在这条路上。如今,她把这个科学追求,和「做出能让人们生活更好的产品」结合在一起,而这,就是叫做「人工智能」的那个领域。
至于别人管它叫什么——
她在意的,只是去打造一项能真正改变人们生活和工作的技术。
对话的最后,主持人问她:今年你们会发布什么,是明年我们还会一直谈论的?李飞飞说,她希望能发布一个空间智能的模型,去激发出一些人们从未见过的、令人兴奋的产品可能。
这场和「AI 教母」李飞飞的对话,核心信号其实只有一个:在一片对语言模型的狂热里,她选择去补上 AI 缺失的另一半——对物理世界的理解。
第一,李飞飞在赌一个「被低估的常识」。当全世界的资本和注意力都涌向语言时,她提醒了一件最朴素的事——人类的智能,本来就不只是语言。我们扑火、煎蛋、设计房子、操作机器,靠的是对物理世界的感知和理解。语言模型再强,也碰不到这一层。她赌的,不是一个比 ChatGPT 更炫的东西,而是 AI 缺失的另一半。这个判断对不对,要时间来验证;但它确实戳中了当下这股热潮的盲区。
第二,她最稀缺的不是技术,是「不炒作」的定力。在一个「末日论」和「乌托邦」二选一、谁喊得响谁占流量的环境里,一个顶级科学家愿意说「每一种口号都让我显得很无聊」、愿意承认「我还不知道世界模型的 ChatGPT 时刻长什么样」——这种诚实和克制,本身就是一种稀缺品。她那句「炒作吸光了房间里的氧气,真空里酿出了焦虑」,值得每一个被 AI 搞得心神不宁的人记住。
第三,对普通人,她其实给了一个明确的答案。面对「AI 会不会抢工作、孩子还要不要学」的集体焦虑,她没有兜售恐惧,也没有兜售幻想。她的回答是:改变教育,把人放在主动权这一边。不是让孩子去和 AI 比谁考分高,而是教他们去引领 AI、驾驭 AI。这或许是这场对话里,最该被焦虑的家长们听进去的一句话。
而她那句反问,值得你记住:
当所有人都在追逐更会「说话」的 AI 时,这位「AI 教母」提醒我们的,恰恰是那个最容易被忽略的真相——真正的智能,从来都不只是语言。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
- END -
分享、点赞、在看,3 连 3 连!