从文字接龙到思维涌现：AI内部推理的流形结构

发布时间：2026-05-26 18:09阅读：52

大语言模型明明只是在预测下一个词，为什么会展现出推理能力？本文通过一篇最新研究，解析模型推理时隐藏状态如何从高维空间自发组织到低维流形，同时说明这项研究的局限性：它更像一次内部动力学检测，而非推理理论的最终答案。

大语言模型明明只是在预测下一个词，为什么会展现出推理能力？本文从推理流形论文出发，将低维流形、维度坍塌、信息体积转化为一个直观理解：真正的推理不是把世界压平，而是把混沌折叠成一条可通行的路径。

① 文字接龙如何产生推理 → ② 什么是推理流形 → ③ 为何坍塌还不够 → ④ 压缩即智能的新诠释 → ⑤ Prompt与结构的作用

如果你是本号的长期读者，会发现我们反复强调一句话：

给它前文：

它预测后面可能是：

给它前文：

它预测后面更可能是：

这就是next-token prediction。

听起来很朴素。

甚至有些令人失望。

因为我们真正关心的是：

如果AI只是在文字接龙，那推理从何而来？

这是所有想要理解大模型的人都会遇到的问题。

前一篇我们讲了图灵奖三巨头的三种AI立场：失控、自主目标与后果感。

那篇文章把问题推向了后果空间：

这篇文章把视角拉回模型内部：

在《马尔可夫的幽灵》中，我们讲过：

从预测下一个字母，到预测下一个词，再到预测下一步行动，中间存在一条连续的脉络。

在《DeepSeek-R1：一个模型如何学会"思考"》中，我们又讲过：

当模型被奖励"答对"时，它会学会把更多token用于中间推理，仿佛在草稿纸上计算。

但这些解释仍然存在一个缺口：

不是输出文本看起来像推理。

不是benchmark分数提高了。

而是模型在隐藏层中，如何组织信息？

最近有一篇论文提供了一个非常有意思的观察框架：

可以大致翻译为：

这个标题很硬核。

但它背后的直觉，其实可以讲清楚：

更重要的是：

这句话，会给我们一直讲的"压缩即智能"补上一块重要拼图。

这篇论文很有启发性。

但如果要严谨阅读，第一件事不是兴奋，而是先把它放对位置。

它不是说：

它更像是在说：

所以，它首先是一篇实验性很强的内部动力学研究。

它有公式。

但这些公式不是牛顿定律那种"从此万物按此推导"的公式。

更准确地说，它提出了一套诊断指标。

就像医生给人做体检：

这些指标不能单独解释"生命是什么"。

但它们能告诉你，一个身体是否处于比较健康的状态。

论文做的事也类似。

它不直接回答：

它更关心：

这点很关键。

因为如果把它过度神化，就会把一篇有意思的论文读偏。

如果把它看成"推理机制已被破解"，那还太早。

如果把它看成"我们终于有了一种观察推理内部形态的方法"，那就非常值得写。

我们通常如何评估AI会不会推理？

很简单：

比如数学题、代码题、逻辑题、选择题。

这种评估当然有用。

但它有一个问题：

两个模型都答对了，内部可能完全不同。

一个可能真正形成了稳定推理。

另一个可能只是碰上了训练集中见过的模式。

两个模型都答错了，也可能完全不同。

一个可能方向对了，只是最后算错。

另一个可能从一开始就在胡说。

所以，如果我们想研究"推理本身"，不能只盯着输出文本。

我们要看模型内部。

大语言模型每生成一个token，内部每一层都会产生一个隐藏状态。

你可以把它想成模型当时的"脑中坐标"。

这个坐标不是二维，也不是三维。

它可能是几千维。

比如某一层的隐藏向量：

一长串数字。

一个token对应一个点。

生成下一个token，又是一个点。

模型一步步推理时，这些点会连成一条轨迹。

从外部看，是模型在写字。

从内部看，是一个点在高维空间里移动。

论文研究的，就是这些轨迹。

它问的是：

论文报告说：有。

而且在多个模型和任务上，这种结构相当明显。

"流形"这个词听起来很数学。

我们先不从定义开始。

想象一张纸。

它本来是二维的。

你可以在纸上画一只蚂蚁的路线。

现在你把这张纸揉弯、折起、卷成一个复杂形状，塞进三维空间。

从外部看，它在三维空间里弯弯绕绕。

但对纸面上的蚂蚁来说，它仍然只是在一张二维纸上走。

这就是流形的直观理解：

地球表面也是这样。

地球在三维空间里。

但我们走路时，大多数时候只在二维表面上移动。

经纬度两个数，就能定位一个地方。

同样，模型的隐藏空间可能有几千维。

但推理时，真正被用到的自由度，可能远远少于几千维。

它不像烟雾一样向所有方向散开。

它更像沿着某张被折叠进高维空间的纸面移动。

这张"纸面"，就是推理流形。

更形象一点：

推理不是在所有可能方向里乱跑。

推理是在高维空间里形成了一条受约束的路。

这就是论文最有意思的观察：

注意几个关键词。

第一，自发。

不是工程师手工规定模型只能走这条路。

而是训练之后，模型在推理时自然形成这种结构。

第二，低维。

模型的表示空间很大，但推理轨迹的有效维度很小。

第三，推理时。

它不是说模型所有知识都低维。

模型的词表、概念、世界知识仍然需要很高的表达能力。

低维结构是在具体推理过程中出现的。

论文里一个很重要的词，是dimensional collapse。

可以翻译成"维度坍塌"。

这里的"坍塌"不要理解成坏掉。

它更像一团散开的可能性，被推理任务压成少数关键方向。

比如你看到一道题：

一开始，"苹果"这个词可以激活很多东西：

但在这个上下文里，真正相关的是数量。

于是模型内部要做一件事：

这就是推理中的压缩。

如果什么都不压缩，模型会被无数联想淹没。

如果你问"苹果有几个"，它却同时想起乔布斯、牛顿、果园、营养成分、iPhone发布会，它就无法稳定计算。

好的推理一定需要收窄。

它要从混乱的可能性里选出一个子空间：

这和《为什么QKV长这样》里讲过的"上下文让词义坍缩"很像。

一个词的Embedding里有很多可能含义。

Attention根据上下文，把它推向当前最相关的方向。

现在，推理流形把这个想法推进了一层：

这就是"推理是一种坍塌"的第一层含义。

到这里，很容易产生一个错误理解：

不是。

这恰恰是论文最值得写的地方。

低维结构是必要的。

但低维结构不够。

如果一个模型把所有东西都压成一条死线，甚至压成一个点，那它确实"不乱"了。

但它也没法思考了。

想象一个学生解题。

完全不压缩，他会发散到一堆无关想法：

这叫散。

但压缩过头，他只剩一句机械口号：

这也不行。

因为下一题可能是：

如果他只会"数字相加"，就会错。

所以，健康推理要在两个坏状态之间找到平衡：

论文把这个说得更精确：

有效推理需要三个条件。

这三个条件缺一不可。

只要表达能力，没有压缩，模型会发散。

只有压缩，没有信息，模型会僵死。

只有信息，没有结构，模型会混乱。

所以，真正的推理不是简单"坍塌"。

更准确地说：

到这里，我们可以把论文自己的技术骨架讲出来。

它不是只写了一个漂亮比喻。

它真正尝试测量三个东西。

第一个叫D_world。

可以理解成：

论文用静态词表Embedding的内在维度来估计它。

意思是：模型底层空间能不能容纳足够复杂的世界概念。

如果这个底子太薄，后面推理再怎么收缩，也是在贫瘠的空间里收缩。

第二个叫D_stim。

可以理解成：

这个量越高，说明轨迹越散。

但它也不能无限低。

低到没有变化，就不是推理，而是僵死。

第三个叫V，也就是信息体积。

可以理解成：

这就是论文最有价值的修正：

最后，它把三者合成一个诊断量：

这个公式的意思很直观。

所以它奖励的是一种状态：

这里最容易误解的是：

它不是说你把这个公式塞进训练代码，模型就会变聪明。

它更像一个内部体检分数：

论文报告说，这个结构指标和多个推理benchmark的表现有很强相关性。

这很有意思。

但相关性不是因果证明。

它告诉我们：

它还没有证明：

这一步，才是后续研究真正难的地方。

这对我们之前的"压缩即智能"很重要。

如果你只听到"压缩"两个字，很容易误解成：

不对。

压缩不是把世界压扁。

压缩是把世界组织起来。

一本教材不是把知识删掉。

它是把一堆经验、实验、定理、例子、习题，组织成一个人能学习的结构。

一个公式不是把物理现象消灭。

它是把无数现象背后的共同规律提出来。

一张地图不是把城市变少。

它是保留道路、方向、距离和边界，舍弃树叶、尘土和每块砖的纹理。

好的压缩，丢掉的是噪音。

坏的压缩，丢掉的是灵魂。

LLM推理也是这样。

一个强模型不是把所有概念都压成一个套路。

它是在具体任务中临时形成一张简洁的内部地图：

这张地图越紧凑，推理越不容易散。

这张地图越有信息，推理越不容易空。

这就是"流形"给我们的直观理解：

现在我们再回看推理模型。

为什么DeepSeek-R1这类模型，要在回答前写那么长的内容？

表面看，是多写了一段推理文本。

本质上，是给模型更多时间，让内部状态沿着推理轨迹走得更充分。

普通模型像这样：

推理模型像这样：

这些中间token不只是给人看的解释。

它们会进入上下文，影响后续生成。

也就是说，模型写下的每一步推理，都会成为下一步推理的条件。

从内部轨迹看，这相当于给模型更多采样点：

但这也解释了另一个现象：

如果推理轨迹在健康流形上展开，多写token有用。

如果模型已经偏离了方向，多写token只是在错误空间里越走越远。

这就是为什么有些AI看起来"想了很久"，最后仍然胡说。

它不是没有计算。

它是在错误的结构里计算。

所以，推理能力的关键不只是：

而是：

讲到这里，会自然冒出一个问题：

这也是只谈内部流形时，最容易被略过的地方。

"推理流形"这篇论文主要看内部几何。

它没有真正解决验证问题。

它没有告诉我们：

这些问题属于另一条研究线。

第一条线，是思维链（Chain of Thought）。

它的想法很朴素：

这能提升很多复杂任务的表现。

但它也有问题。

模型写出来的步骤，不一定是真的内部计算过程。

它可能是解释。

也可能是包装。

甚至可能是一条看起来很合理、其实从中间就错了的路。

第二条线，是自洽性（self-consistency）。

既然单条思维链可能走错，那就让模型走多条路。

这有点像让几个学生独立解同一道题。

如果他们用不同路径得到同一个结果，可信度会上升。

但它仍然没有真正检查每一步。

第三条线，是过程监督（process supervision）。

这比只看最终答案更进一步。

它不是只问：

而是问：

这条线很重要。

因为长推理最怕的不是最后一步错。

而是第三步已经错了，第十步还在一本正经地继续推。

第四条线，是树状思考（Tree of Thoughts）。

如果思维链是一条路，树状思考就是多岔路搜索。

这更接近人类做难题时的感觉。

我们不是一条线走到底。

我们会试探、回退、换路、剪枝。

第五条线，是DeepSeek-R1这类可验证强化学习。

这条线的核心是：

数学题、代码题、形式化证明、部分科学问题，都有这种潜力。

这也解释了为什么"可验证数据"会变得这么重要。

验证不是锦上添花。

验证本身就是下一代推理能力的训练信号。

所以，我们可以把当前研究版图分成两层：

DeepSeek-R1这类工作更多在外部层：

推理流形这篇论文更多在内部层：

两者不是互相替代。

它们正好互补。

一个告诉我们怎么训练和筛选推理。

一个提醒我们去看推理在模型内部怎样成形。

这也能重新解释prompt。

很多人把prompt看成咒语。

写对了，AI就灵。

写错了，AI就笨。

但从推理流形的角度看，prompt更像是在给模型设置初始条件和约束。

你问：

模型可能走向科普讲解。

你问：

模型会被推向批判性路径。

你问：

模型会被推向更结构化的推理轨迹。

这不是魔法。

它是在高维空间里改变模型要走的路。

这也能接上萨丕尔-沃尔夫假说。

在人类那里，语言结构会影响人怎样组织世界经验。

在AI这里，prompt和上下文结构会影响模型怎样组织当前推理。

但要注意，prompt不是万能钥匙。

它不能凭空创造底座模型没有的表达能力。

也不能保证模型一定进入健康推理流形。

它能做的是：

这就是为什么一个好prompt常常不是"说得更凶"，而是：

好的prompt，不是命令模型"变聪明"。

而是帮它少走弯路。

还有一个方向，能补上这篇论文的另一块空白。

现在很多推理模型会把思考写成文字。

但人类思考并不总是这样。

你解一道几何题时，脑中可能先出现图形。

你写代码时，可能先有一种结构感。

你判断一个人说话是否真诚时，很多线索甚至还没变成语言。

所以现在有一类研究在问：

这就是所谓潜空间推理（latent reasoning）。

其中一个代表方向叫Coconut，也就是Chain of Continuous Thought。

它让模型在连续潜空间里做一部分"内部思考"，不急着把每一步都翻译成自然语言。

这件事和推理流形很容易接上。

如果模型内部本来就在某种低维流形上运动，那么也许未来的推理不一定每一步都要写出来。

它可能会变成：

这听起来更接近真实的认知。

我们也不是把脑中每一个中间表征都说出口。

但这里有一个代价：

所以latent reasoning和process supervision之间，会形成一个长期张力。

效率想把推理藏回内部。

安全和可验证性又要求它把关键步骤暴露出来。

这也是为什么"推理机制"不会只靠一篇流形论文结束。

它会同时牵出：

这些线要合在一起，才更接近完整答案。

这是一个非常自然的问题。

既然推理轨迹会落在低维流形上，那是不是说明：

答案要分两层。

第一层：

它没有说：

它做的是诊断，不是工程压缩算法。

第二层：

因为它暗示了一件事：

这和我们之前讲MoE、知识蒸馏、彩票假说时的直觉是一致的。

大模型像一个巨大的城市。

但每一次解决问题，并不是整座城市一起移动。

真正被走过的，可能只是几条路、几个路口、几个功能区。

那工程上就会出现几个可能方向。

第一，用它做压缩后的健康检查。

比如我们把一个大模型蒸馏成小模型。

小模型benchmark看起来还可以。

但它的内部推理轨迹是不是还保持：

这可以成为一种新检查。

第二，用它指导低秩和稀疏计算。

如果某些任务的推理确实只需要少数有效方向，那么LoRA、MoE、稀疏激活、动态路由这类方法，就不是单纯省钱技巧。

它们可能是在工程上追踪同一个事实：

第三，用它帮助做推理时自适应计算。

有些问题一眼就能回答。

有些问题必须展开长推理。

如果内部轨迹已经显示模型进入稳定结构，也许可以少算一点。

如果轨迹发散、信息体积异常、或者结构不稳，也许就该让模型继续思考、换路径、调用verifier。

这会把"多想一会儿"从一个固定开关，变成动态决策。

但这里也要小心。

低维推理轨迹并不等于小模型一定够用。

因为论文同时强调了D_world。

也就是说，健康推理需要一个足够丰富的高维底座。

你可以在具体任务中走低维路。

但这条路之所以能存在，是因为背后有足够大的世界表示空间撑着。

所以更成熟的判断是：

这对压缩有启发。

但它不是一张已经写好的瘦身食谱。

我觉得可以。

但同样要加一个限定：

什么叫泛化？

就是模型没有见过一模一样的问题，却能处理。

如果只从"记忆"角度看，这件事很难解释。

因为没见过，为什么会？

但从"结构"角度看，事情就清楚一点。

模型不是把每道题单独存在脑子里。

它更可能学到了一些可迁移结构：

当一个新问题出现时，模型要做的不是从记忆库里找同款。

而是把新问题投影到某个可用结构上。

这就像你学会了"方程"。

你不是记住每一道买苹果、买铅笔、买车票的题。

你是学会了：

题目换了，结构还在。

从推理流形角度看，泛化可能就是：

这也解释了为什么"数据多"不是全部。

数据要能帮助模型形成可迁移结构。

如果数据只是大量重复、噪音、伪相关，模型可能记住很多，却不一定泛化。

如果数据能暴露变量、反例、难度梯度、长尾情况和可验证反馈，它就更可能把模型推向稳定结构。

这也接回前一篇《AI吃完互联网之后，还能继续变聪明吗？》。

下一代AI需要的，可能不只是更多文本。

而是更多能让模型形成结构、验证结构、修正结构的经验。

所以，泛化的一个可能解释是：

这不是完整答案。

但它比"模型只是背答案"更接近真实。

现在，我们可以把《谁在决定AI的性格？》接回来。

那篇文章讲：

AI的"性格"不是灵魂。

它是预训练、SFT、RLHF、DPO、系统提示词、工具权限、产品目标和用户反馈共同塑造出来的行为倾向。

现在这篇补上另一半：

AI的"推理"也不是一个神秘灵魂突然醒来。

它是在模型内部形成受约束的信息结构。

性格，是输出倾向的结构。

推理，是内部轨迹的结构。

Prompt，是当前上下文的结构。

Agent，是行动循环的结构。

世界模型，是物理经验的结构。

而刚刚那篇"三巨头"的文章，其实讲的是另一种结构：

这就是为什么"Structure is all you need"这个说法很有意思。

当然，严格说，原论文叫《Attention Is All You Need》。

Attention解决的是：

而structure更大的问题是：

从这个角度看，现代AI的很多东西都在走向同一个方向：

也许AI的核心问题，正在从：

转向：

最后要冷静一点。

"推理流形"不是一个已经终结争论的理论。

它更像一个有启发性的观察框架。

我们不能从一篇论文直接跳到：

也不能说：

论文自己也强调，它研究的是当代自回归语言模型中的推理动态。

它用最后token的隐藏状态作为轨迹代理。

它的诊断指标是描述性的、相关性的，不等于因果证明。

多模态系统、机器人、非自回归模型是不是也遵循类似结构，还需要继续研究。

所以，成熟的读法不是神化它。

而是把它放到我们的知识版图里：

它不是替代前面所有解释。

它是在更内部的层次，补上一块几何图像。

我们可以把整篇文章压缩成四句话：

所以，推理是一种坍塌吗？

可以说是。

但更准确地说：

混乱的可能性，被上下文压成少数方向。

无关的联想被压下去。