从未踏出房门的AI,为何能凭空"画"出地球？

发布时间：2026-06-13 06:47阅读：27

一个仅通过文本学习的AI，为何能勾勒出世界轮廓，却在两座城市间的距离计算上频频失误？

本文将揭示AI认知世界的真实局限，以及硅谷为此展开的激烈角逐。

让我们先进行一个思想实验。

将一个AI囚禁于无窗密室。它没有视觉、触觉、手机、定位设备，从未见过地图、卫星影像，更未踏足任何地方。它能接触的仅有人类书写的文字——书籍、新闻、维基条目、网络对话，仅此而已。

此刻你隔门询问：巴黎在何处？纽约在何处？东京在何处？

按常理，它至多能背诵"巴黎是法国首都"这类教科书语句，再追问细节便会信口开河。毕竟，它连地球的模样都未曾目睹。

然而2024年，麻省理工的两位研究者完成了一项令学界震惊的实验。

他们对名为Llama-2的大模型（可理解为ChatGPT的同类）实施了一次"神经扫描"——输入数以万计的地名，观察其"思考"这些地名时，神经网络内部哪些区域被激活。

结果显示：这些地点在AI的"认知结构"中，竟按照真实的地理方位排列。

更令人惊讶的是，当研究者将这些地点投射到平面上时，它们自发组成了世界地图的形态。

欧洲呈现欧洲的轮廓，北美是北美的形状，澳大利亚孤悬右下角，南极区域几乎空白。一幅大致准确的地球图景，就这样从"仅阅读过文字"的AI脑海中浮现。

不仅地理位置。研究者还从中"读取"了时间概念——历史人物的大致年代，一首歌或电影的发行年份，在它心中也排列有序，如同一条清晰的时间轴。

这一发现的反直觉之处在于：从未有人专门教授它地理或历史。它只是在日复一日地学习"续写人类话语"，却不经意间将世界的样貌悄然存储于内部。

因此，针对"AI是否只会鹦鹉学舌"这一经典疑问，这幅地图给出了极具说服力的回应：它并非简单的词汇复述。在阅读文字的过程中，它似乎真正"领悟"了世界的某些形态。

若故事仅此而已，倒是一个AI日趋人性化温馨故事。

可惜，反转随之而来。

研究者放大AI自绘的地图后，发现了一个颇为尴尬的问题：多座北美城市被AI"安置"于大西洋中央。纽瓦克漂浮于海中，数个美国东海岸小城散落于大洋上空，宛若集体出海度假。

知名AI研究者Gary Marcus精准捕捉到了这一漏洞。他的反问直击要害：

若AI真的"知晓"纽瓦克的位置，为何将其抛入海中？更何况，若你真依据这张内部地图询问"从A城到B城有多远"，它会严格按照此图计算吗？

答案：基本不会。

这正中问题的核心——

脑海中"拥有"地图，与真正"运用"地图，完全是两回事。

类比说明：AI当前更像凭印象作画的画师，而非使用仪器精准测量的测绘员。它阅读了大量关于世界的描述，依据这些印象勾勒出世界的大致形态——大方向无误，欧洲在西、亚洲在东，了然于胸。但若真将其当作导航，让它引导你穿梭于城市之间，它可能将你引入歧途。

这并非个例。

2024年末，知名科学家李飞飞的团队专门设计了一套测试，评估AI的"空间认知"能力——呈现一段室内视频，询问三岁孩童皆能回答的问题：那把椅子在你左侧还是右侧？这个房间大概多大？从沙发走到门口应如何行进？

测试结果：人类平均得分79分，而当时最先进的几款AI仅得40多分。在"路径规划"类题目上，AI的表现甚至与随机猜测无异。

李飞飞的一句总结颇为犀利：当前AI在判断距离、方向、大小等基础空间问题时，往往连随机猜测都不如。

可见，同一AI既能在大脑中绘制出形似的地球，却又是个连"从沙发走到门口"都规划不好的路痴。

这正是本文要阐明的第一点：AI看似"无所不知"，但"知晓"与"真懂"之间，横亘着一条深邃的鸿沟。

翻车现场：红圈中这几座北美城市，被AI稳稳地"安排"进了大西洋中间。

那么问题来了：为何一个AI既能绘制地球，又会犯下如此荒谬的错误？

答案，隐含于它的学习方式之中。

人类如何认知世界？通过亲身体验——幼时跌倒，故知地面之坚硬；曾倒过水，故知水往低处流；曾行走于路，故知两地之距离。这些知识源于真实的肢体经验。

但AI迥异。它认知世界的唯一途径是阅读人类书写的文字。而语言，不过是世界投下的朦胧倒影。

我们书写"巴黎位于法国"、"纽约在美国东海岸"、"伦敦至曼彻斯特火车两小时"。AI将数以万亿计的此类语句尽数阅读，随后如拼图般将这些碎片线索组合，构建出对世界的大致印象。

此过程，宛如一个从未出国之人，仅凭阅读游记、浏览他人旅行动态，在心中拼凑出一个国家的形象。

他能说出这个国家在地图上的大致方位，有哪些知名城市，哪座靠海、哪座依山。大方向基本无误。但若真将其空降于该国街头，令其寻路、估距、判断行程远近，立刻原形毕露——因其心中的国家形象，是用二手文字印象拼凑，而非用双脚亲历验证。

AI脑海中的世界，便是如此一幅图景。

用一个词汇概括，它获得的是世界的"轮廓"，而非世界的"地图"。轮廓呈现大致的形状与方向，印象派风格，远观尚可，近看则模糊一片；而地图，必须精确到"此路通往何方、两节点相距多远"。

AI当前握在手中的，是前者。

理解这一点，便把握了理解当下所有AI的一把钥匙：其强大与犯傻，根源于同一原因——它的全部世界认知，皆从文字中二手获取。文字中已有的，它学得有模有样；文字中难以表达、需亲身实践才能领会的（如精确距离、真实物理法则），它只能臆测。

正因如此，一个更宏大的问题摆在了所有AI研究者面前：

若仅凭阅读文字，AI永远只能获得一幅模糊的世界轮廓——那么，要打造一个真正"理解"世界的AI，路径究竟在何方？

这，正是当前整个AI行业最激烈的争论焦点。

AI心中的世界是左边的"轮廓"，远观尚可、近看全糊；而真正能依此行进的，是右边那张精准的"地图"。

研究者为AI脑海中那个模糊的世界赋予了正式名称——"世界模型"——即AI内心那张"世界大致模样、万物如何运转"的内在图景。

将此图景从"模糊轮廓"蜕变为"清晰地图"，被公认为AI下一阶段最重要的突破口。而如何跨越这道关卡，目前尚无定论——硅谷最聪慧的几支团队，正以真金白银押注截然不同的方向，宛如武林中的几大门派。

第一派，OpenAI，可称为"视频学习派"。

他们的思路直截了当：既然仅读文字获得的世界过于模糊，便让AI观看海量视频。视频中蕴含真实的物体运动、光影变化、碰撞场景，观看足够多，AI理应自行领悟世界的运行规律。他们的代表作正是声名鹊起的视频生成模型Sora。OpenAI甚至为其技术报告冠以野心勃勃的标题，字面意思是《视频生成模型即世界模拟器》。

然而Sora暴露的问题同样发人深省：其生成的视频中，玻璃杯落地不会破碎，倒水如同倾倒果冻，人物行走时会莫名多出一条腿。这表明它学习的仍是"世界呈现的样子"，而非"世界内在的规律"。

Sora已宣布关停，于2026年4月26日下线网页版和APP。

Sora生成的跑步视频，跑步方向与跑步机相反

第二派，李飞飞，可称为"构建世界派"。

李飞飞是AI界公认的"教母级"人物。她的判断更为犀利——她将当前大模型喻为"黑暗中伶牙俐齿之人"：嘴上功夫了得，却未曾真正见识世面。与其让AI读文字、观视频，不如直接教导它亲手"构建"一个可进入、可漫游的3D世界。

2024年她创立了名为World Labs的公司，估值迅速攀升至50亿美元。2025年11月，他们推出了首款产品Marble——用户输入一句话或一张图片，它便能生成一个可自由探索的三维世界。在她看来，唯有让AI真正"进入"空间，方能从"纸上谈兵"蜕变为"理解世界"。

"构建世界派"李飞飞的方案：一句话或一张图，直接生成可进入探索的3D世界。图片

← 上一篇：从英伟达与谷歌看AI投资机遇下一篇：AI生成优质内容，人类还能做什么 →