标签

从文字接龙到思维涌现:AI内部推理的流形结构

发布时间:2026-05-26 18:09来源:微信阅读:6

大语言模型明明只是在预测下一个词,为什么会展现出推理能力?本文通过一篇最新研究,解析模型推理时隐藏状态如何从高维空间自发组织到低维流形,同时说明这项研究的局限性:它更像一次内部动力学检测,而非推理理论的最终答案。

大语言模型明明只是在预测下一个词,为什么会展现出推理能力?本文从推理流形论文出发,将低维流形、维度坍塌、信息体积转化为一个直观理解:真正的推理不是把世界压平,而是把混沌折叠成一条可通行的路径。

① 文字接龙如何产生推理 → ② 什么是推理流形 → ③ 为何坍塌还不够 → ④ 压缩即智能的新诠释 → ⑤ Prompt与结构的作用

如果你是本号的长期读者,会发现我们反复强调一句话:

给它前文:

它预测后面可能是:

给它前文:

它预测后面更可能是:

这就是next-token prediction。

听起来很朴素。

甚至有些令人失望。

因为我们真正关心的是:

如果AI只是在文字接龙,那推理从何而来?

这是所有想要理解大模型的人都会遇到的问题。

前一篇我们讲了图灵奖三巨头的三种AI立场:失控、自主目标与后果感。

那篇文章把问题推向了后果空间:

这篇文章把视角拉回模型内部:

在《马尔可夫的幽灵》中,我们讲过:

从预测下一个字母,到预测下一个词,再到预测下一步行动,中间存在一条连续的脉络。

在《DeepSeek-R1:一个模型如何学会"思考"》中,我们又讲过:

当模型被奖励"答对"时,它会学会把更多token用于中间推理,仿佛在草稿纸上计算。

但这些解释仍然存在一个缺口:

不是输出文本看起来像推理。

不是benchmark分数提高了。

而是模型在隐藏层中,如何组织信息?

最近有一篇论文提供了一个非常有意思的观察框架:

可以大致翻译为:

这个标题很硬核。

但它背后的直觉,其实可以讲清楚:

更重要的是:

这句话,会给我们一直讲的"压缩即智能"补上一块重要拼图。

这篇论文很有启发性。

但如果要严谨阅读,第一件事不是兴奋,而是先把它放对位置。

它不是说:

它更像是在说:

所以,它首先是一篇实验性很强的内部动力学研究。

它有公式。

但这些公式不是牛顿定律那种"从此万物按此推导"的公式。

更准确地说,它提出了一套诊断指标。

就像医生给人做体检:

这些指标不能单独解释"生命是什么"。

但它们能告诉你,一个身体是否处于比较健康的状态。

论文做的事也类似。

它不直接回答:

它更关心:

这点很关键。

因为如果把它过度神化,就会把一篇有意思的论文读偏。

如果把它看成"推理机制已被破解",那还太早。

如果把它看成"我们终于有了一种观察推理内部形态的方法",那就非常值得写。

我们通常如何评估AI会不会推理?

很简单:

比如数学题、代码题、逻辑题、选择题。

这种评估当然有用。

但它有一个问题:

两个模型都答对了,内部可能完全不同。

一个可能真正形成了稳定推理。

另一个可能只是碰上了训练集中见过的模式。

两个模型都答错了,也可能完全不同。

一个可能方向对了,只是最后算错。

另一个可能从一开始就在胡说。

所以,如果我们想研究"推理本身",不能只盯着输出文本。

我们要看模型内部。

大语言模型每生成一个token,内部每一层都会产生一个隐藏状态。

你可以把它想成模型当时的"脑中坐标"。

这个坐标不是二维,也不是三维。

它可能是几千维。

比如某一层的隐藏向量:

一长串数字。

一个token对应一个点。

生成下一个token,又是一个点。

模型一步步推理时,这些点会连成一条轨迹。

从外部看,是模型在写字。

从内部看,是一个点在高维空间里移动。

论文研究的,就是这些轨迹。

它问的是:

论文报告说:有。

而且在多个模型和任务上,这种结构相当明显。

"流形"这个词听起来很数学。

我们先不从定义开始。

想象一张纸。

它本来是二维的。

你可以在纸上画一只蚂蚁的路线。

现在你把这张纸揉弯、折起、卷成一个复杂形状,塞进三维空间。

从外部看,它在三维空间里弯弯绕绕。

但对纸面上的蚂蚁来说,它仍然只是在一张二维纸上走。

这就是流形的直观理解:

地球表面也是这样。

地球在三维空间里。

但我们走路时,大多数时候只在二维表面上移动。

经纬度两个数,就能定位一个地方。

同样,模型的隐藏空间可能有几千维。

但推理时,真正被用到的自由度,可能远远少于几千维。

它不像烟雾一样向所有方向散开。

它更像沿着某张被折叠进高维空间的纸面移动。

这张"纸面",就是推理流形。

更形象一点:

推理不是在所有可能方向里乱跑。

推理是在高维空间里形成了一条受约束的路。

这就是论文最有意思的观察:

注意几个关键词。

第一,自发。

不是工程师手工规定模型只能走这条路。

而是训练之后,模型在推理时自然形成这种结构。

第二,低维。

模型的表示空间很大,但推理轨迹的有效维度很小。

第三,推理时。

它不是说模型所有知识都低维。

模型的词表、概念、世界知识仍然需要很高的表达能力。

低维结构是在具体推理过程中出现的。

论文里一个很重要的词,是dimensional collapse。

可以翻译成"维度坍塌"。

这里的"坍塌"不要理解成坏掉。

它更像一团散开的可能性,被推理任务压成少数关键方向。

比如你看到一道题:

一开始,"苹果"这个词可以激活很多东西:

但在这个上下文里,真正相关的是数量。

于是模型内部要做一件事:

这就是推理中的压缩。

如果什么都不压缩,模型会被无数联想淹没。

如果你问"苹果有几个",它却同时想起乔布斯、牛顿、果园、营养成分、iPhone发布会,它就无法稳定计算。

好的推理一定需要收窄。

它要从混乱的可能性里选出一个子空间:

这和《为什么QKV长这样》里讲过的"上下文让词义坍缩"很像。

一个词的Embedding里有很多可能含义。

Attention根据上下文,把它推向当前最相关的方向。

现在,推理流形把这个想法推进了一层:

这就是"推理是一种坍塌"的第一层含义。

到这里,很容易产生一个错误理解:

不是。

这恰恰是论文最值得写的地方。

低维结构是必要的。

但低维结构不够。

如果一个模型把所有东西都压成一条死线,甚至压成一个点,那它确实"不乱"了。

但它也没法思考了。

想象一个学生解题。

完全不压缩,他会发散到一堆无关想法:

这叫散。

但压缩过头,他只剩一句机械口号:

这也不行。

因为下一题可能是:

如果他只会"数字相加",就会错。

所以,健康推理要在两个坏状态之间找到平衡:

论文把这个说得更精确:

有效推理需要三个条件。

这三个条件缺一不可。

只要表达能力,没有压缩,模型会发散。

只有压缩,没有信息,模型会僵死。

只有信息,没有结构,模型会混乱。

所以,真正的推理不是简单"坍塌"。

更准确地说:

到这里,我们可以把论文自己的技术骨架讲出来。

它不是只写了一个漂亮比喻。

它真正尝试测量三个东西。

第一个叫D_world。

可以理解成:

论文用静态词表Embedding的内在维度来估计它。

意思是:模型底层空间能不能容纳足够复杂的世界概念。

如果这个底子太薄,后面推理再怎么收缩,也是在贫瘠的空间里收缩。

第二个叫D_stim。

可以理解成:

这个量越高,说明轨迹越散。

但它也不能无限低。

低到没有变化,就不是推理,而是僵死。

第三个叫V,也就是信息体积。

可以理解成:

这就是论文最有价值的修正:

最后,它把三者合成一个诊断量:

这个公式的意思很直观。

所以它奖励的是一种状态:

这里最容易误解的是:

它不是说你把这个公式塞进训练代码,模型就会变聪明。

它更像一个内部体检分数:

论文报告说,这个结构指标和多个推理benchmark的表现有很强相关性。

这很有意思。

但相关性不是因果证明。

它告诉我们:

它还没有证明:

这一步,才是后续研究真正难的地方。

这对我们之前的"压缩即智能"很重要。

如果你只听到"压缩"两个字,很容易误解成:

不对。

压缩不是把世界压扁。

压缩是把世界组织起来。

一本教材不是把知识删掉。

它是把一堆经验、实验、定理、例子、习题,组织成一个人能学习的结构。

一个公式不是把物理现象消灭。

它是把无数现象背后的共同规律提出来。

一张地图不是把城市变少。

它是保留道路、方向、距离和边界,舍弃树叶、尘土和每块砖的纹理。

好的压缩,丢掉的是噪音。

坏的压缩,丢掉的是灵魂。

LLM推理也是这样。

一个强模型不是把所有概念都压成一个套路。

它是在具体任务中临时形成一张简洁的内部地图:

这张地图越紧凑,推理越不容易散。

这张地图越有信息,推理越不容易空。

这就是"流形"给我们的直观理解:

现在我们再回看推理模型。

为什么DeepSeek-R1这类模型,要在回答前写那么长的内容?

表面看,是多写了一段推理文本。

本质上,是给模型更多时间,让内部状态沿着推理轨迹走得更充分。

普通模型像这样:

推理模型像这样:

这些中间token不只是给人看的解释。

它们会进入上下文,影响后续生成。

也就是说,模型写下的每一步推理,都会成为下一步推理的条件。

从内部轨迹看,这相当于给模型更多采样点:

但这也解释了另一个现象:

如果推理轨迹在健康流形上展开,多写token有用。

如果模型已经偏离了方向,多写token只是在错误空间里越走越远。

这就是为什么有些AI看起来"想了很久",最后仍然胡说。

它不是没有计算。

它是在错误的结构里计算。

所以,推理能力的关键不只是:

而是:

讲到这里,会自然冒出一个问题:

这也是只谈内部流形时,最容易被略过的地方。

"推理流形"这篇论文主要看内部几何。

它没有真正解决验证问题。

它没有告诉我们:

这些问题属于另一条研究线。

第一条线,是思维链(Chain of Thought)。

它的想法很朴素:

这能提升很多复杂任务的表现。

但它也有问题。

模型写出来的步骤,不一定是真的内部计算过程。

它可能是解释。

也可能是包装。

甚至可能是一条看起来很合理、其实从中间就错了的路。

第二条线,是自洽性(self-consistency)。

既然单条思维链可能走错,那就让模型走多条路。

这有点像让几个学生独立解同一道题。

如果他们用不同路径得到同一个结果,可信度会上升。

但它仍然没有真正检查每一步。

第三条线,是过程监督(process supervision)。

这比只看最终答案更进一步。

它不是只问:

而是问:

这条线很重要。

因为长推理最怕的不是最后一步错。

而是第三步已经错了,第十步还在一本正经地继续推。

第四条线,是树状思考(Tree of Thoughts)。

如果思维链是一条路,树状思考就是多岔路搜索。

这更接近人类做难题时的感觉。

我们不是一条线走到底。

我们会试探、回退、换路、剪枝。

第五条线,是DeepSeek-R1这类可验证强化学习。

这条线的核心是:

数学题、代码题、形式化证明、部分科学问题,都有这种潜力。

这也解释了为什么"可验证数据"会变得这么重要。

验证不是锦上添花。

验证本身就是下一代推理能力的训练信号。

所以,我们可以把当前研究版图分成两层:

DeepSeek-R1这类工作更多在外部层:

推理流形这篇论文更多在内部层:

两者不是互相替代。

它们正好互补。

一个告诉我们怎么训练和筛选推理。

一个提醒我们去看推理在模型内部怎样成形。

这也能重新解释prompt。

很多人把prompt看成咒语。

写对了,AI就灵。

写错了,AI就笨。

但从推理流形的角度看,prompt更像是在给模型设置初始条件和约束。

你问:

模型可能走向科普讲解。

你问:

模型会被推向批判性路径。

你问:

模型会被推向更结构化的推理轨迹。

这不是魔法。

它是在高维空间里改变模型要走的路。

这也能接上萨丕尔-沃尔夫假说。

在人类那里,语言结构会影响人怎样组织世界经验。

在AI这里,prompt和上下文结构会影响模型怎样组织当前推理。

但要注意,prompt不是万能钥匙。

它不能凭空创造底座模型没有的表达能力。

也不能保证模型一定进入健康推理流形。

它能做的是:

这就是为什么一个好prompt常常不是"说得更凶",而是:

好的prompt,不是命令模型"变聪明"。

而是帮它少走弯路。

还有一个方向,能补上这篇论文的另一块空白。

现在很多推理模型会把思考写成文字。

但人类思考并不总是这样。

你解一道几何题时,脑中可能先出现图形。

你写代码时,可能先有一种结构感。

你判断一个人说话是否真诚时,很多线索甚至还没变成语言。

所以现在有一类研究在问:

这就是所谓潜空间推理(latent reasoning)。

其中一个代表方向叫Coconut,也就是Chain of Continuous Thought。

它让模型在连续潜空间里做一部分"内部思考",不急着把每一步都翻译成自然语言。

这件事和推理流形很容易接上。

如果模型内部本来就在某种低维流形上运动,那么也许未来的推理不一定每一步都要写出来。

它可能会变成:

这听起来更接近真实的认知。

我们也不是把脑中每一个中间表征都说出口。

但这里有一个代价:

所以latent reasoning和process supervision之间,会形成一个长期张力。

效率想把推理藏回内部。

安全和可验证性又要求它把关键步骤暴露出来。

这也是为什么"推理机制"不会只靠一篇流形论文结束。

它会同时牵出:

这些线要合在一起,才更接近完整答案。

这是一个非常自然的问题。

既然推理轨迹会落在低维流形上,那是不是说明:

答案要分两层。

第一层:

它没有说:

它做的是诊断,不是工程压缩算法。

第二层:

因为它暗示了一件事:

这和我们之前讲MoE、知识蒸馏、彩票假说时的直觉是一致的。

大模型像一个巨大的城市。

但每一次解决问题,并不是整座城市一起移动。

真正被走过的,可能只是几条路、几个路口、几个功能区。

那工程上就会出现几个可能方向。

第一,用它做压缩后的健康检查。

比如我们把一个大模型蒸馏成小模型。

小模型benchmark看起来还可以。

但它的内部推理轨迹是不是还保持:

这可以成为一种新检查。

第二,用它指导低秩和稀疏计算。

如果某些任务的推理确实只需要少数有效方向,那么LoRA、MoE、稀疏激活、动态路由这类方法,就不是单纯省钱技巧。

它们可能是在工程上追踪同一个事实:

第三,用它帮助做推理时自适应计算。

有些问题一眼就能回答。

有些问题必须展开长推理。

如果内部轨迹已经显示模型进入稳定结构,也许可以少算一点。

如果轨迹发散、信息体积异常、或者结构不稳,也许就该让模型继续思考、换路径、调用verifier。

这会把"多想一会儿"从一个固定开关,变成动态决策。

但这里也要小心。

低维推理轨迹并不等于小模型一定够用。

因为论文同时强调了D_world。

也就是说,健康推理需要一个足够丰富的高维底座。

你可以在具体任务中走低维路。

但这条路之所以能存在,是因为背后有足够大的世界表示空间撑着。

所以更成熟的判断是:

这对压缩有启发。

但它不是一张已经写好的瘦身食谱。

我觉得可以。

但同样要加一个限定:

什么叫泛化?

就是模型没有见过一模一样的问题,却能处理。

如果只从"记忆"角度看,这件事很难解释。

因为没见过,为什么会?

但从"结构"角度看,事情就清楚一点。

模型不是把每道题单独存在脑子里。

它更可能学到了一些可迁移结构:

当一个新问题出现时,模型要做的不是从记忆库里找同款。

而是把新问题投影到某个可用结构上。

这就像你学会了"方程"。

你不是记住每一道买苹果、买铅笔、买车票的题。

你是学会了:

题目换了,结构还在。

从推理流形角度看,泛化可能就是:

这也解释了为什么"数据多"不是全部。

数据要能帮助模型形成可迁移结构。

如果数据只是大量重复、噪音、伪相关,模型可能记住很多,却不一定泛化。

如果数据能暴露变量、反例、难度梯度、长尾情况和可验证反馈,它就更可能把模型推向稳定结构。

这也接回前一篇《AI吃完互联网之后,还能继续变聪明吗?》。

下一代AI需要的,可能不只是更多文本。

而是更多能让模型形成结构、验证结构、修正结构的经验。

所以,泛化的一个可能解释是:

这不是完整答案。

但它比"模型只是背答案"更接近真实。

现在,我们可以把《谁在决定AI的性格?》接回来。

那篇文章讲:

AI的"性格"不是灵魂。

它是预训练、SFT、RLHF、DPO、系统提示词、工具权限、产品目标和用户反馈共同塑造出来的行为倾向。

现在这篇补上另一半:

AI的"推理"也不是一个神秘灵魂突然醒来。

它是在模型内部形成受约束的信息结构。

性格,是输出倾向的结构。

推理,是内部轨迹的结构。

Prompt,是当前上下文的结构。

Agent,是行动循环的结构。

世界模型,是物理经验的结构。

而刚刚那篇"三巨头"的文章,其实讲的是另一种结构:

这就是为什么"Structure is all you need"这个说法很有意思。

当然,严格说,原论文叫《Attention Is All You Need》。

Attention解决的是:

而structure更大的问题是:

从这个角度看,现代AI的很多东西都在走向同一个方向:

也许AI的核心问题,正在从:

转向:

最后要冷静一点。

"推理流形"不是一个已经终结争论的理论。

它更像一个有启发性的观察框架。

我们不能从一篇论文直接跳到:

也不能说:

论文自己也强调,它研究的是当代自回归语言模型中的推理动态。

它用最后token的隐藏状态作为轨迹代理。

它的诊断指标是描述性的、相关性的,不等于因果证明。

多模态系统、机器人、非自回归模型是不是也遵循类似结构,还需要继续研究。

所以,成熟的读法不是神化它。

而是把它放到我们的知识版图里:

它不是替代前面所有解释。

它是在更内部的层次,补上一块几何图像。

我们可以把整篇文章压缩成四句话:

所以,推理是一种坍塌吗?

可以说是。

但更准确地说:

混乱的可能性,被上下文压成少数方向。

无关的联想被压下去。

相关的变量被保留下来。

中间步骤沿着一条受约束的路展开。

如果这条路太散,模型会迷路。

如果这条路太死,模型会僵住。

只有当它既紧凑,又有信息,推理才会变得稳定。

这也许就是AI推理最迷人的地方。

它当然还是数学。

是向量、矩阵、Softmax、隐藏状态、概率分布。

但当这些东西在足够大的模型里被训练到极致时,它们会自发形成结构。

而结构,正是理解的另一种名字。

AI-lab学习笔记