从文字接龙到思维涌现:AI内部推理的流形结构
大语言模型明明只是在预测下一个词,为什么会展现出推理能力?本文通过一篇最新研究,解析模型推理时隐藏状态如何从高维空间自发组织到低维流形,同时说明这项研究的局限性:它更像一次内部动力学检测,而非推理理论的最终答案。
大语言模型明明只是在预测下一个词,为什么会展现出推理能力?本文从推理流形论文出发,将低维流形、维度坍塌、信息体积转化为一个直观理解:真正的推理不是把世界压平,而是把混沌折叠成一条可通行的路径。
① 文字接龙如何产生推理 → ② 什么是推理流形 → ③ 为何坍塌还不够 → ④ 压缩即智能的新诠释 → ⑤ Prompt与结构的作用
如果你是本号的长期读者,会发现我们反复强调一句话:
给它前文:
它预测后面可能是:
给它前文:
它预测后面更可能是:
这就是next-token prediction。
听起来很朴素。
甚至有些令人失望。
因为我们真正关心的是:
如果AI只是在文字接龙,那推理从何而来?
这是所有想要理解大模型的人都会遇到的问题。
前一篇我们讲了图灵奖三巨头的三种AI立场:失控、自主目标与后果感。
那篇文章把问题推向了后果空间:
这篇文章把视角拉回模型内部:
在《马尔可夫的幽灵》中,我们讲过:
从预测下一个字母,到预测下一个词,再到预测下一步行动,中间存在一条连续的脉络。
在《DeepSeek-R1:一个模型如何学会"思考"》中,我们又讲过:
当模型被奖励"答对"时,它会学会把更多token用于中间推理,仿佛在草稿纸上计算。
但这些解释仍然存在一个缺口:
不是输出文本看起来像推理。
不是benchmark分数提高了。
而是模型在隐藏层中,如何组织信息?
最近有一篇论文提供了一个非常有意思的观察框架:
可以大致翻译为:
这个标题很硬核。
但它背后的直觉,其实可以讲清楚:
更重要的是:
这句话,会给我们一直讲的"压缩即智能"补上一块重要拼图。
这篇论文很有启发性。
但如果要严谨阅读,第一件事不是兴奋,而是先把它放对位置。
它不是说:
它更像是在说:
所以,它首先是一篇实验性很强的内部动力学研究。
它有公式。
但这些公式不是牛顿定律那种"从此万物按此推导"的公式。
更准确地说,它提出了一套诊断指标。
就像医生给人做体检:
这些指标不能单独解释"生命是什么"。
但它们能告诉你,一个身体是否处于比较健康的状态。
论文做的事也类似。
它不直接回答:
它更关心:
这点很关键。
因为如果把它过度神化,就会把一篇有意思的论文读偏。
如果把它看成"推理机制已被破解",那还太早。
如果把它看成"我们终于有了一种观察推理内部形态的方法",那就非常值得写。
我们通常如何评估AI会不会推理?
很简单:
比如数学题、代码题、逻辑题、选择题。
这种评估当然有用。
但它有一个问题:
两个模型都答对了,内部可能完全不同。
一个可能真正形成了稳定推理。
另一个可能只是碰上了训练集中见过的模式。
两个模型都答错了,也可能完全不同。
一个可能方向对了,只是最后算错。
另一个可能从一开始就在胡说。
所以,如果我们想研究"推理本身",不能只盯着输出文本。
我们要看模型内部。
大语言模型每生成一个token,内部每一层都会产生一个隐藏状态。
你可以把它想成模型当时的"脑中坐标"。
这个坐标不是二维,也不是三维。
它可能是几千维。
比如某一层的隐藏向量:
一长串数字。
一个token对应一个点。
生成下一个token,又是一个点。
模型一步步推理时,这些点会连成一条轨迹。
从外部看,是模型在写字。
从内部看,是一个点在高维空间里移动。
论文研究的,就是这些轨迹。
它问的是:
论文报告说:有。
而且在多个模型和任务上,这种结构相当明显。
"流形"这个词听起来很数学。
我们先不从定义开始。
想象一张纸。
它本来是二维的。
你可以在纸上画一只蚂蚁的路线。
现在你把这张纸揉弯、折起、卷成一个复杂形状,塞进三维空间。
从外部看,它在三维空间里弯弯绕绕。
但对纸面上的蚂蚁来说,它仍然只是在一张二维纸上走。
这就是流形的直观理解:
地球表面也是这样。
地球在三维空间里。
但我们走路时,大多数时候只在二维表面上移动。
经纬度两个数,就能定位一个地方。
同样,模型的隐藏空间可能有几千维。
但推理时,真正被用到的自由度,可能远远少于几千维。
它不像烟雾一样向所有方向散开。
它更像沿着某张被折叠进高维空间的纸面移动。
这张"纸面",就是推理流形。
更形象一点:
推理不是在所有可能方向里乱跑。
推理是在高维空间里形成了一条受约束的路。
这就是论文最有意思的观察:
注意几个关键词。
第一,自发。
不是工程师手工规定模型只能走这条路。
而是训练之后,模型在推理时自然形成这种结构。
第二,低维。
模型的表示空间很大,但推理轨迹的有效维度很小。
第三,推理时。
它不是说模型所有知识都低维。
模型的词表、概念、世界知识仍然需要很高的表达能力。
低维结构是在具体推理过程中出现的。
论文里一个很重要的词,是dimensional collapse。
可以翻译成"维度坍塌"。
这里的"坍塌"不要理解成坏掉。
它更像一团散开的可能性,被推理任务压成少数关键方向。
比如你看到一道题:
一开始,"苹果"这个词可以激活很多东西:
但在这个上下文里,真正相关的是数量。
于是模型内部要做一件事:
这就是推理中的压缩。
如果什么都不压缩,模型会被无数联想淹没。
如果你问"苹果有几个",它却同时想起乔布斯、牛顿、果园、营养成分、iPhone发布会,它就无法稳定计算。
好的推理一定需要收窄。
它要从混乱的可能性里选出一个子空间:
这和《为什么QKV长这样》里讲过的"上下文让词义坍缩"很像。
一个词的Embedding里有很多可能含义。
Attention根据上下文,把它推向当前最相关的方向。
现在,推理流形把这个想法推进了一层:
这就是"推理是一种坍塌"的第一层含义。
到这里,很容易产生一个错误理解:
不是。
这恰恰是论文最值得写的地方。
低维结构是必要的。
但低维结构不够。
如果一个模型把所有东西都压成一条死线,甚至压成一个点,那它确实"不乱"了。
但它也没法思考了。
想象一个学生解题。
完全不压缩,他会发散到一堆无关想法:
这叫散。
但压缩过头,他只剩一句机械口号:
这也不行。
因为下一题可能是:
如果他只会"数字相加",就会错。
所以,健康推理要在两个坏状态之间找到平衡:
论文把这个说得更精确:
有效推理需要三个条件。
这三个条件缺一不可。
只要表达能力,没有压缩,模型会发散。
只有压缩,没有信息,模型会僵死。
只有信息,没有结构,模型会混乱。
所以,真正的推理不是简单"坍塌"。
更准确地说:
到这里,我们可以把论文自己的技术骨架讲出来。
它不是只写了一个漂亮比喻。
它真正尝试测量三个东西。
第一个叫D_world。
可以理解成:
论文用静态词表Embedding的内在维度来估计它。
意思是:模型底层空间能不能容纳足够复杂的世界概念。
如果这个底子太薄,后面推理再怎么收缩,也是在贫瘠的空间里收缩。
第二个叫D_stim。
可以理解成:
这个量越高,说明轨迹越散。
但它也不能无限低。
低到没有变化,就不是推理,而是僵死。
第三个叫V,也就是信息体积。
可以理解成:
这就是论文最有价值的修正:
最后,它把三者合成一个诊断量:
这个公式的意思很直观。
所以它奖励的是一种状态:
这里最容易误解的是:
它不是说你把这个公式塞进训练代码,模型就会变聪明。
它更像一个内部体检分数:
论文报告说,这个结构指标和多个推理benchmark的表现有很强相关性。
这很有意思。
但相关性不是因果证明。
它告诉我们:
它还没有证明:
这一步,才是后续研究真正难的地方。
这对我们之前的"压缩即智能"很重要。
如果你只听到"压缩"两个字,很容易误解成:
不对。
压缩不是把世界压扁。
压缩是把世界组织起来。
一本教材不是把知识删掉。
它是把一堆经验、实验、定理、例子、习题,组织成一个人能学习的结构。
一个公式不是把物理现象消灭。
它是把无数现象背后的共同规律提出来。
一张地图不是把城市变少。
它是保留道路、方向、距离和边界,舍弃树叶、尘土和每块砖的纹理。
好的压缩,丢掉的是噪音。
坏的压缩,丢掉的是灵魂。
LLM推理也是这样。
一个强模型不是把所有概念都压成一个套路。
它是在具体任务中临时形成一张简洁的内部地图:
这张地图越紧凑,推理越不容易散。
这张地图越有信息,推理越不容易空。
这就是"流形"给我们的直观理解:
现在我们再回看推理模型。
为什么DeepSeek-R1这类模型,要在回答前写那么长的内容?
表面看,是多写了一段推理文本。
本质上,是给模型更多时间,让内部状态沿着推理轨迹走得更充分。
普通模型像这样:
推理模型像这样:
这些中间token不只是给人看的解释。
它们会进入上下文,影响后续生成。
也就是说,模型写下的每一步推理,都会成为下一步推理的条件。
从内部轨迹看,这相当于给模型更多采样点:
但这也解释了另一个现象:
如果推理轨迹在健康流形上展开,多写token有用。
如果模型已经偏离了方向,多写token只是在错误空间里越走越远。
这就是为什么有些AI看起来"想了很久",最后仍然胡说。
它不是没有计算。
它是在错误的结构里计算。
所以,推理能力的关键不只是:
而是:
讲到这里,会自然冒出一个问题:
这也是只谈内部流形时,最容易被略过的地方。
"推理流形"这篇论文主要看内部几何。
它没有真正解决验证问题。
它没有告诉我们:
这些问题属于另一条研究线。
第一条线,是思维链(Chain of Thought)。
它的想法很朴素:
这能提升很多复杂任务的表现。
但它也有问题。
模型写出来的步骤,不一定是真的内部计算过程。
它可能是解释。
也可能是包装。
甚至可能是一条看起来很合理、其实从中间就错了的路。
第二条线,是自洽性(self-consistency)。
既然单条思维链可能走错,那就让模型走多条路。
这有点像让几个学生独立解同一道题。
如果他们用不同路径得到同一个结果,可信度会上升。
但它仍然没有真正检查每一步。
第三条线,是过程监督(process supervision)。
这比只看最终答案更进一步。
它不是只问:
而是问:
这条线很重要。
因为长推理最怕的不是最后一步错。
而是第三步已经错了,第十步还在一本正经地继续推。
第四条线,是树状思考(Tree of Thoughts)。
如果思维链是一条路,树状思考就是多岔路搜索。
这更接近人类做难题时的感觉。
我们不是一条线走到底。
我们会试探、回退、换路、剪枝。
第五条线,是DeepSeek-R1这类可验证强化学习。
这条线的核心是:
数学题、代码题、形式化证明、部分科学问题,都有这种潜力。
这也解释了为什么"可验证数据"会变得这么重要。
验证不是锦上添花。
验证本身就是下一代推理能力的训练信号。
所以,我们可以把当前研究版图分成两层:
DeepSeek-R1这类工作更多在外部层:
推理流形这篇论文更多在内部层:
两者不是互相替代。
它们正好互补。
一个告诉我们怎么训练和筛选推理。
一个提醒我们去看推理在模型内部怎样成形。
这也能重新解释prompt。
很多人把prompt看成咒语。
写对了,AI就灵。
写错了,AI就笨。
但从推理流形的角度看,prompt更像是在给模型设置初始条件和约束。
你问:
模型可能走向科普讲解。
你问:
模型会被推向批判性路径。
你问:
模型会被推向更结构化的推理轨迹。
这不是魔法。
它是在高维空间里改变模型要走的路。
这也能接上萨丕尔-沃尔夫假说。
在人类那里,语言结构会影响人怎样组织世界经验。
在AI这里,prompt和上下文结构会影响模型怎样组织当前推理。
但要注意,prompt不是万能钥匙。
它不能凭空创造底座模型没有的表达能力。
也不能保证模型一定进入健康推理流形。
它能做的是:
这就是为什么一个好prompt常常不是"说得更凶",而是:
好的prompt,不是命令模型"变聪明"。
而是帮它少走弯路。
还有一个方向,能补上这篇论文的另一块空白。
现在很多推理模型会把思考写成文字。
但人类思考并不总是这样。
你解一道几何题时,脑中可能先出现图形。
你写代码时,可能先有一种结构感。
你判断一个人说话是否真诚时,很多线索甚至还没变成语言。
所以现在有一类研究在问:
这就是所谓潜空间推理(latent reasoning)。
其中一个代表方向叫Coconut,也就是Chain of Continuous Thought。
它让模型在连续潜空间里做一部分"内部思考",不急着把每一步都翻译成自然语言。
这件事和推理流形很容易接上。
如果模型内部本来就在某种低维流形上运动,那么也许未来的推理不一定每一步都要写出来。
它可能会变成:
这听起来更接近真实的认知。
我们也不是把脑中每一个中间表征都说出口。
但这里有一个代价:
所以latent reasoning和process supervision之间,会形成一个长期张力。
效率想把推理藏回内部。
安全和可验证性又要求它把关键步骤暴露出来。
这也是为什么"推理机制"不会只靠一篇流形论文结束。
它会同时牵出:
这些线要合在一起,才更接近完整答案。
这是一个非常自然的问题。
既然推理轨迹会落在低维流形上,那是不是说明:
答案要分两层。
第一层:
它没有说:
它做的是诊断,不是工程压缩算法。
第二层:
因为它暗示了一件事:
这和我们之前讲MoE、知识蒸馏、彩票假说时的直觉是一致的。
大模型像一个巨大的城市。
但每一次解决问题,并不是整座城市一起移动。
真正被走过的,可能只是几条路、几个路口、几个功能区。
那工程上就会出现几个可能方向。
第一,用它做压缩后的健康检查。
比如我们把一个大模型蒸馏成小模型。
小模型benchmark看起来还可以。
但它的内部推理轨迹是不是还保持:
这可以成为一种新检查。
第二,用它指导低秩和稀疏计算。
如果某些任务的推理确实只需要少数有效方向,那么LoRA、MoE、稀疏激活、动态路由这类方法,就不是单纯省钱技巧。
它们可能是在工程上追踪同一个事实:
第三,用它帮助做推理时自适应计算。
有些问题一眼就能回答。
有些问题必须展开长推理。
如果内部轨迹已经显示模型进入稳定结构,也许可以少算一点。
如果轨迹发散、信息体积异常、或者结构不稳,也许就该让模型继续思考、换路径、调用verifier。
这会把"多想一会儿"从一个固定开关,变成动态决策。
但这里也要小心。
低维推理轨迹并不等于小模型一定够用。
因为论文同时强调了D_world。
也就是说,健康推理需要一个足够丰富的高维底座。
你可以在具体任务中走低维路。
但这条路之所以能存在,是因为背后有足够大的世界表示空间撑着。
所以更成熟的判断是:
这对压缩有启发。
但它不是一张已经写好的瘦身食谱。
我觉得可以。
但同样要加一个限定:
什么叫泛化?
就是模型没有见过一模一样的问题,却能处理。
如果只从"记忆"角度看,这件事很难解释。
因为没见过,为什么会?
但从"结构"角度看,事情就清楚一点。
模型不是把每道题单独存在脑子里。
它更可能学到了一些可迁移结构:
当一个新问题出现时,模型要做的不是从记忆库里找同款。
而是把新问题投影到某个可用结构上。
这就像你学会了"方程"。
你不是记住每一道买苹果、买铅笔、买车票的题。
你是学会了:
题目换了,结构还在。
从推理流形角度看,泛化可能就是:
这也解释了为什么"数据多"不是全部。
数据要能帮助模型形成可迁移结构。
如果数据只是大量重复、噪音、伪相关,模型可能记住很多,却不一定泛化。
如果数据能暴露变量、反例、难度梯度、长尾情况和可验证反馈,它就更可能把模型推向稳定结构。
这也接回前一篇《AI吃完互联网之后,还能继续变聪明吗?》。
下一代AI需要的,可能不只是更多文本。
而是更多能让模型形成结构、验证结构、修正结构的经验。
所以,泛化的一个可能解释是:
这不是完整答案。
但它比"模型只是背答案"更接近真实。
现在,我们可以把《谁在决定AI的性格?》接回来。
那篇文章讲:
AI的"性格"不是灵魂。
它是预训练、SFT、RLHF、DPO、系统提示词、工具权限、产品目标和用户反馈共同塑造出来的行为倾向。
现在这篇补上另一半:
AI的"推理"也不是一个神秘灵魂突然醒来。
它是在模型内部形成受约束的信息结构。
性格,是输出倾向的结构。
推理,是内部轨迹的结构。
Prompt,是当前上下文的结构。
Agent,是行动循环的结构。
世界模型,是物理经验的结构。
而刚刚那篇"三巨头"的文章,其实讲的是另一种结构:
这就是为什么"Structure is all you need"这个说法很有意思。
当然,严格说,原论文叫《Attention Is All You Need》。
Attention解决的是:
而structure更大的问题是:
从这个角度看,现代AI的很多东西都在走向同一个方向:
也许AI的核心问题,正在从:
转向:
最后要冷静一点。
"推理流形"不是一个已经终结争论的理论。
它更像一个有启发性的观察框架。
我们不能从一篇论文直接跳到:
也不能说:
论文自己也强调,它研究的是当代自回归语言模型中的推理动态。
它用最后token的隐藏状态作为轨迹代理。
它的诊断指标是描述性的、相关性的,不等于因果证明。
多模态系统、机器人、非自回归模型是不是也遵循类似结构,还需要继续研究。
所以,成熟的读法不是神化它。
而是把它放到我们的知识版图里:
它不是替代前面所有解释。
它是在更内部的层次,补上一块几何图像。
我们可以把整篇文章压缩成四句话:
所以,推理是一种坍塌吗?
可以说是。
但更准确地说:
混乱的可能性,被上下文压成少数方向。
无关的联想被压下去。
相关的变量被保留下来。
中间步骤沿着一条受约束的路展开。
如果这条路太散,模型会迷路。
如果这条路太死,模型会僵住。
只有当它既紧凑,又有信息,推理才会变得稳定。
这也许就是AI推理最迷人的地方。
它当然还是数学。
是向量、矩阵、Softmax、隐藏状态、概率分布。
但当这些东西在足够大的模型里被训练到极致时,它们会自发形成结构。
而结构,正是理解的另一种名字。
AI-lab学习笔记