标签

从未踏出房门的AI,为何能凭空"画"出地球?

发布时间:2026-06-13 06:47阅读:2

一个仅通过文本学习的AI,为何能勾勒出世界轮廓,却在两座城市间的距离计算上频频失误?

本文将揭示AI认知世界的真实局限,以及硅谷为此展开的激烈角逐。

让我们先进行一个思想实验。

将一个AI囚禁于无窗密室。它没有视觉、触觉、手机、定位设备,从未见过地图、卫星影像,更未踏足任何地方。它能接触的仅有人类书写的文字——书籍、新闻、维基条目、网络对话,仅此而已。

此刻你隔门询问:巴黎在何处?纽约在何处?东京在何处?

按常理,它至多能背诵"巴黎是法国首都"这类教科书语句,再追问细节便会信口开河。毕竟,它连地球的模样都未曾目睹。

然而2024年,麻省理工的两位研究者完成了一项令学界震惊的实验。

他们对名为Llama-2的大模型(可理解为ChatGPT的同类)实施了一次"神经扫描"——输入数以万计的地名,观察其"思考"这些地名时,神经网络内部哪些区域被激活。

结果显示:这些地点在AI的"认知结构"中,竟按照真实的地理方位排列。

更令人惊讶的是,当研究者将这些地点投射到平面上时,它们自发组成了世界地图的形态。

欧洲呈现欧洲的轮廓,北美是北美的形状,澳大利亚孤悬右下角,南极区域几乎空白。一幅大致准确的地球图景,就这样从"仅阅读过文字"的AI脑海中浮现。

不仅地理位置。研究者还从中"读取"了时间概念——历史人物的大致年代,一首歌或电影的发行年份,在它心中也排列有序,如同一条清晰的时间轴。

这一发现的反直觉之处在于:从未有人专门教授它地理或历史。它只是在日复一日地学习"续写人类话语",却不经意间将世界的样貌悄然存储于内部。

因此,针对"AI是否只会鹦鹉学舌"这一经典疑问,这幅地图给出了极具说服力的回应:它并非简单的词汇复述。在阅读文字的过程中,它似乎真正"领悟"了世界的某些形态。

若故事仅此而已,倒是一个AI日趋人性化温馨故事。

可惜,反转随之而来。

研究者放大AI自绘的地图后,发现了一个颇为尴尬的问题:多座北美城市被AI"安置"于大西洋中央。纽瓦克漂浮于海中,数个美国东海岸小城散落于大洋上空,宛若集体出海度假。

知名AI研究者Gary Marcus精准捕捉到了这一漏洞。他的反问直击要害:

若AI真的"知晓"纽瓦克的位置,为何将其抛入海中?更何况,若你真依据这张内部地图询问"从A城到B城有多远",它会严格按照此图计算吗?

答案:基本不会。

这正中问题的核心——

脑海中"拥有"地图,与真正"运用"地图,完全是两回事。

类比说明:AI当前更像凭印象作画的画师,而非使用仪器精准测量的测绘员。它阅读了大量关于世界的描述,依据这些印象勾勒出世界的大致形态——大方向无误,欧洲在西、亚洲在东,了然于胸。但若真将其当作导航,让它引导你穿梭于城市之间,它可能将你引入歧途。

这并非个例。

2024年末,知名科学家李飞飞的团队专门设计了一套测试,评估AI的"空间认知"能力——呈现一段室内视频,询问三岁孩童皆能回答的问题:那把椅子在你左侧还是右侧?这个房间大概多大?从沙发走到门口应如何行进?

测试结果:人类平均得分79分,而当时最先进的几款AI仅得40多分。在"路径规划"类题目上,AI的表现甚至与随机猜测无异。

李飞飞的一句总结颇为犀利:当前AI在判断距离、方向、大小等基础空间问题时,往往连随机猜测都不如。

可见,同一AI既能在大脑中绘制出形似的地球,却又是个连"从沙发走到门口"都规划不好的路痴。

这正是本文要阐明的第一点:AI看似"无所不知",但"知晓"与"真懂"之间,横亘着一条深邃的鸿沟。

翻车现场:红圈中这几座北美城市,被AI稳稳地"安排"进了大西洋中间。

那么问题来了:为何一个AI既能绘制地球,又会犯下如此荒谬的错误?

答案,隐含于它的学习方式之中。

人类如何认知世界?通过亲身体验——幼时跌倒,故知地面之坚硬;曾倒过水,故知水往低处流;曾行走于路,故知两地之距离。这些知识源于真实的肢体经验。

但AI迥异。它认知世界的唯一途径是阅读人类书写的文字。而语言,不过是世界投下的朦胧倒影。

我们书写"巴黎位于法国"、"纽约在美国东海岸"、"伦敦至曼彻斯特火车两小时"。AI将数以万亿计的此类语句尽数阅读,随后如拼图般将这些碎片线索组合,构建出对世界的大致印象。

此过程,宛如一个从未出国之人,仅凭阅读游记、浏览他人旅行动态,在心中拼凑出一个国家的形象。

他能说出这个国家在地图上的大致方位,有哪些知名城市,哪座靠海、哪座依山。大方向基本无误。但若真将其空降于该国街头,令其寻路、估距、判断行程远近,立刻原形毕露——因其心中的国家形象,是用二手文字印象拼凑,而非用双脚亲历验证。

AI脑海中的世界,便是如此一幅图景。

用一个词汇概括,它获得的是世界的"轮廓",而非世界的"地图"。轮廓呈现大致的形状与方向,印象派风格,远观尚可,近看则模糊一片;而地图,必须精确到"此路通往何方、两节点相距多远"。

AI当前握在手中的,是前者。

理解这一点,便把握了理解当下所有AI的一把钥匙:其强大与犯傻,根源于同一原因——它的全部世界认知,皆从文字中二手获取。文字中已有的,它学得有模有样;文字中难以表达、需亲身实践才能领会的(如精确距离、真实物理法则),它只能臆测。

正因如此,一个更宏大的问题摆在了所有AI研究者面前:

若仅凭阅读文字,AI永远只能获得一幅模糊的世界轮廓——那么,要打造一个真正"理解"世界的AI,路径究竟在何方?

这,正是当前整个AI行业最激烈的争论焦点。

AI心中的世界是左边的"轮廓",远观尚可、近看全糊;而真正能依此行进的,是右边那张精准的"地图"。

研究者为AI脑海中那个模糊的世界赋予了正式名称——"世界模型"——即AI内心那张"世界大致模样、万物如何运转"的内在图景。

将此图景从"模糊轮廓"蜕变为"清晰地图",被公认为AI下一阶段最重要的突破口。而如何跨越这道关卡,目前尚无定论——硅谷最聪慧的几支团队,正以真金白银押注截然不同的方向,宛如武林中的几大门派。

第一派,OpenAI,可称为"视频学习派"。

他们的思路直截了当:既然仅读文字获得的世界过于模糊,便让AI观看海量视频。视频中蕴含真实的物体运动、光影变化、碰撞场景,观看足够多,AI理应自行领悟世界的运行规律。他们的代表作正是声名鹊起的视频生成模型Sora。OpenAI甚至为其技术报告冠以野心勃勃的标题,字面意思是《视频生成模型即世界模拟器》。

然而Sora暴露的问题同样发人深省:其生成的视频中,玻璃杯落地不会破碎,倒水如同倾倒果冻,人物行走时会莫名多出一条腿。这表明它学习的仍是"世界呈现的样子",而非"世界内在的规律"。

Sora已宣布关停,于2026年4月26日下线网页版和APP。

Sora生成的跑步视频,跑步方向与跑步机相反

第二派,李飞飞,可称为"构建世界派"。

李飞飞是AI界公认的"教母级"人物。她的判断更为犀利——她将当前大模型喻为"黑暗中伶牙俐齿之人":嘴上功夫了得,却未曾真正见识世面。与其让AI读文字、观视频,不如直接教导它亲手"构建"一个可进入、可漫游的3D世界。

2024年她创立了名为World Labs的公司,估值迅速攀升至50亿美元。2025年11月,他们推出了首款产品Marble——用户输入一句话或一张图片,它便能生成一个可自由探索的三维世界。在她看来,唯有让AI真正"进入"空间,方能从"纸上谈兵"蜕变为"理解世界"。

"构建世界派"李飞飞的方案:一句话或一张图,直接生成可进入探索的3D世界。图片