AI的“注意力中枢”并不无限

发布时间：2026-04-10 04:17阅读：17

狐狐/ AI使用 · 第2篇

人脑中有一块区域叫前额叶，主要负责注意力分配、专注维持与决策判断——也就是决定当下该看重什么、忽略什么。它是人类认知控制的重要中枢，但它能承载的信息量并不无限，所以我们很难把注意力同时平均放在很多事情上。

2017年，Google发布了一篇论文，Attention Is All You Need，中文可直译为《注意力就是全部》。这篇论文提出了Transformer架构，也为如今所有大语言模型打下了核心基础。[1]

Transformer最关键的机制叫"自注意力"。从某种角度看，它就像AI的"前额叶"，决定AI在当前输入中该重点看哪里、该弱化哪里。

我们日常接触的AI，几乎都是建立在这一机制之上的。

对人类而言，每天可用的注意力有限。AI同样如此。它表面上似乎什么都能处理，但它的处理资源也是有上限的。你输入给它的每一条信息，都在占用它的预算。

给得越多，分配到每一条内容上的注意力就越少，这也意味着AI完成任务时的准确性会开始下滑。

这篇要讨论的正是这个问题：AI的注意力到底如何运作、会怎样被浪费，以及怎样尽量提高这份注意力的利用效率。

你和AI进行的每一轮对话，都会不断往一个叫上下文窗口（Context Window）的容器里加入内容。你发出的消息、上传的资料、以及AI自己的回复，都包含在其中。AI每次回答时，都是基于这个窗口里的全部内容来进行推理。

那这个窗口到底有多大？如今主流模型的上下文窗口已经来到百万token量级，大致可以装下一整本《红楼梦》。听上去确实非常可观。

可问题在于，能装进去，并不代表能处理得足够好。

Chroma Research在2025年测试了18个前沿模型（包括GPT-4.1、Claude、Gemini），结果发现所有模型都会随着输入长度增加而表现下降。有的模型本来能稳定维持在95%的准确率，但一旦长度超过某个阈值，就会迅速掉到60%。这不是缓慢滑落，而是悬崖式下跌。[2]

这种现象有个名称：Context Rot（上下文腐化）。并不是非得等窗口塞满才会出问题，研究显示，在窗口远远没装满时，性能就可能已经开始崩坏。比如一个能装200万字的窗口，才放进50万字，退化现象就已经出现了。也就是说，给它一个能容纳整部《红楼梦》的窗口，你才放进去半本，它就已经开始迷糊了。

图1：模型会随着上下文变长而出现性能衰减

所谓迷糊，是什么意思？比如你真的把整部《红楼梦》喂给AI，再问它"第一回写了什么"，它可能会把开头和中间的情节混在一起回答，甚至直接编出一段原文里根本不存在的内容。并不是答案不在里面，而是七十多万字把它的注意力摊薄了，它没法准确锁定。

关于上下文腐化具体是如何发生的、又该怎样应对，后面的推文会单独展开。这一篇先聚焦一个问题：它为什么会腐化？

根源就在所有大语言模型共同使用的底层架构：Transformer。

Transformer里有一个叫"自注意力"的机制：每个token（可以粗略理解成一个词或半个词）都需要和窗口中的其他token计算关联。token数量翻倍，计算量会变成原来的四倍。这就意味着窗口越大，每个token最终分到的注意力越稀薄。

更重要的是，这份注意力并不是平均分布在整个窗口中的。

斯坦福大学在2024年发表的研究"Lost in the Middle"指出：AI对开头和结尾部分的关注最强，对中间部分的关注最弱，整体准确率呈现U型曲线。当关键信息从开头挪到中间时，准确率会下降超过20个百分点。[3]

这并不是某个模型单独做得不好，而是Transformer架构本身具备的数学特性。就像你读一封很长的邮件，最容易记住的往往是开头第一段和最后的总结，中间那些段落？大概率就略过去了。AI也是同样的情况。

所以再回到那句开头的话：Attention Is All You Need（注意力就是一切）。但注意力并不是无限的，而且它的分配也并不均匀。你塞进去的每一条信息，都会稀释AI对其他内容的关注。信息越精炼、越少、越靠前，AI的注意力越集中，最终给出的答案通常也越好。

2022年底ChatGPT刚出现时，很多人发现"同一个问题换种说法问AI，结果会差很多"，于是出现了一个词：提示词工程（Prompt Engineering），专门研究怎样把发给AI的那句话写得更好。到了2023年，这个词火到甚至催生出专门的"提示词工程师"岗位。

但随着模型规模越来越大、上下文窗口越来越长，人们逐渐发现，仅仅把一句话写好已经不够了。哪怕那句话本身写得再漂亮，只要AI的注意力已经被大量无关信息冲淡，效果依然有限。

因此从2025年开始，行业里又逐渐冒出另一个概念：上下文工程（Context Engineering）。它不再只是研究一句话该怎么写，而是研究如何管理你提供给AI的整个信息环境：该给哪些信息、不该给哪些信息、什么先给、什么后给。

简单来说：

到今天，这两个概念其实都已经成了基础共识。

而上下文工程最直接的一条推论就是：一次只让AI完成一件事。

如果你让AI同时"改语法+调结构+改语气"，它会尝试兼顾全部目标，但每一项能分到的注意力都不够，最后往往每件事都只是勉强完成。换成你自己同时做这三件事，结果也不会太理想。

一次只做一件事。这是投入产出比最高的使用习惯。

AI还有一个你可能没太留意的习惯：当信息不足时，它通常不会主动追问你，而是直接用自己的默认假设把空白补上，然后开始执行。你最后看到那份不够满意的结果，很可能是因为AI在你没有说明白的地方，已经私下替你做了好几个判断，只是你没有意识到。

比如，你正在写一封邮件，想请AI帮你润色，于是直接把邮件丢给它，再说一句"帮我润色一下"。可它并不知道你希望往哪个方向润色——是更简洁？更正式？还是更有说服力？

接着你又说"我觉得你写得不太好"，那问题来了：什么才算"好"？好在哪里？需要达到什么程度？

归根结底，就是你和AI之间的“颗粒度”没有对齐。

解决这个问题，大致有三条路径，具体取决于你到底"不清楚"到什么程度。

第一种：你其实大概知道自己想要什么，只是表达得还不够精确。

在把需求发给AI之前，先自己对齐一遍："我到底想要什么？"把那些模糊的大词拆成2-3个更具体的方向，再选一个。

不要说"帮我优化这封邮件"，而是改成：

多花10秒钟，但AI从第一句开始就不用再猜你想要什么。

你会发现，这个把词拆开的动作，往往也会让你自己更明白"我究竟想要什么"。模糊需求最容易被忽视的副作用就在于：你以为自己已经想清楚了，可一旦试着表达出来，才发现其实还没真正弄明白。AI只是提前替你照了一面镜子。

第二种：你知道自己缺信息，但并不清楚到底缺的是哪一块。

描述完需求后，再加上一句：

AI会把它当前最大的缺口直接暴露出来，然后由你来补。这比你在结果出来后再反过来猜"是不是我没说清楚"，效率高得多。这也是为什么真正会用AI的人会越用越顺手——因为他们在使用过程中，一直在主动让AI暴露它缺什么信息。

第三种：你甚至不知道应该朝哪个方向去问。

有时候问题不是你说不明白，而是你根本不知道一件事背后还存在多少方向。你想了解A，但并不知道A其实还分成BCDEFG那么多支线，你连该提什么问题都不知道。这时就可以反过来，让AI先把整张地图铺开：

AI的知识库里大概率知道这些分支确实存在，它只是不知道你到底想选哪一个。先让它全列出来，你就能快速定位方向，哪怕你之前根本不知道那个方向叫什么。

其实，这三种情形，和下面两图对应的是一个非常经典的Rumsfeld矩阵认知框架：

大多数人和AI沟通卡住时，不是因为AI太笨，而是自己困在了右边那两个格子里。先弄清楚你当前处在哪个格子，再选相应的方法，比一味埋头改prompt有效得多。

这种情况其实不需要什么技巧。输入足够明确，输出也足够明确，中间几乎没有歧义空间。

但问题在于：现实中真正落在这个格子里的任务，少得惊人。

你可能会觉得，"帮我用学术论文的正式语气翻译这段话"应该也属于这个格子？其实并不是。"学术"是哪一类学科的学术？社科和理工的写法完全不同。"正式语气"又是多正式？期刊论文和学位论文的措辞习惯也并不一样。

只要你的需求里出现了一个形容词，比如"正式"、"简洁"、"专业"、"好看"，你大概率已经滑到了别的格子里，只是自己还以为没有。

大多数人和AI沟通不顺，不是因为AI太笨，而是因为高估了自己需求的清晰程度。你以为自己已经说清楚了，但"说清楚"这件事，本身就比想象中难得多。

你知道自己缺少信息，但并不能确认具体缺的是哪部分。

❌ 错误版：

你知道自己没考虑周全，于是拼命往里补信息，可预算和温泉酒店彼此冲突，素食需求和日本料理推荐也互相打架，AI只好试图全部兼顾，最后每个需求都浅尝辄止，没有一个真正被解决。

✅ 正确版：

AI可能会追问：这次旅行你最想获得的体验是什么，是文化、美食，还是购物？先确定一条主线。

一个问题就锁定了最大的缺口。你回答之后，AI就能先给出准确的大框架，后面的细节再一轮一轮继续追问。差别不在于AI突然变聪明了，而在于它的注意力终于被聚焦起来了。

你完全不知道这件事有哪些可能方向，甚至连问题都提不出来。

❌ 错误版：

AI会给你一份很泛的清单：学Python、学英语、考PMP、学数据分析……看起来每项都没错，但没有一项是真正针对你的。因为它不知道你所在的行业、所处的阶段、真正的短板分别是什么，而你自己也没有意识到这些维度本来就存在。

✅ 正确版：

AI可能会列出：技术深耕、管理能力、跨界复合、行业认证、软技能沟通……你一眼就会意识到"哦，我现在最缺的是管理能力"，哪怕你之前压根没想过"管理能力"会是一个选项。

这是最危险的格子，因为你甚至意识不到自己漏掉了什么。先让AI把地图摊开，再由你来选路线。

回到场景一里的那个例子。你说"帮我用学术论文的正式语气翻译这段话"，AI给了你一个版本。你看完以后觉得……不太对。但又一时说不清到底哪里不对。

再看两遍，你发现AI用了很多被动句，比如"该方法被广泛应用于……"。你隐约觉得别扭，但说不上原因。再看一遍，你才反应过来：你平时读的那些顶刊论文，其实很少这样用被动句，你导师也说过"能主动就尽量别被动"。这个偏好你一直都知道，只是刚才提需求的时候根本没想到要说出来。

改完以后好一些了。但AI又把所有术语都翻译成了中文，比如"卷积神经网络"、"长短期记忆"。而你们课题组平时的习惯，是术语保留英文缩写。这个规矩你原本也清楚，只是这次没有想到。

接下来你又发现，段落之间的衔接太生硬，满篇都是"此外"、"另外"、"同时"。可你读过的好论文并不是这么写的，它们段落之间有逻辑推进，而不是简单并列。

你有没有看到这里发生了什么？

"学术论文的正式语气" → "少用被动句" → "术语保留英文缩写" → "段落采用逻辑递进而不是并列"。

每一轮，你都在把一个含糊的大词，拆成更细、更具体、几乎没有歧义的指令。每往前一步，都是在把一个"你不知道自己知道"的隐性偏好，转化成一个"你明确知道自己知道"的清晰要求。

"学术论文的正式语气"这八个字，看上去像是很清楚的指令，但其实里面包含了接近无限的维度，比如语态偏好、术语处理方式、段落衔接形式、句子长度、引用格式、语气距离感……每一个维度都还能继续往下拆，每拆一层，要求就更精确一分。

当你一路拆到最后，每个词都精确到没有歧义时，你就从右下角（我不知道我不知道）逐渐收敛到了左上角（我知道我知道）。

所谓"我知道我知道"，并不是你的起点，而是你的终点。它是你经过一轮轮拆解之后，才最终抵达的状态。

而前面提到的三种方法（自己拆模糊词、让AI提出关键问题、让AI列出全部方向），本质上都是在加速这一收敛过程。

和AI沟通的本质，不是一次性写出一个完美prompt，而是持续不断地把"我不知道"收敛成"我知道"。

你和导师讨论论文方向、和同事对齐需求、和朋友商量去哪吃饭，本质上都在做同一件事：把模糊的东西逐步收敛成精确的东西。

只不过在现实生活中，我们是多模态交流，表情、动作、语气都在补充信息，所以这个收敛过程往往是隐式完成的。而AI是单模态的，它只能依靠文本，不会替你自动脑补，因此你的每一个模糊点都会被直接暴露出来。

AI的注意力是有限的，而你表达得有多清楚，决定了它最终能发挥到什么程度。

上一篇我们讲过，AI为什么不是在"知道答案"，而更像是在"猜下一个词"。

下一篇，我们会聊上下文腐化的四种典型死法：中毒、分心、混淆、冲突。每一种你大概率都遇到过，只是还不知道它们分别叫什么。

想讲的内容实在太多，以至于很难进一步压缩。

在写这篇的时候，我也在尝试把认识论层面的框架，和AI的实际使用方式真正结合起来。

写这篇文章本身，其实也是一次收敛：我原本想讲的是AI的上下文，但"上下文"这三个字能继续拆出的内容太多了：它是什么、为什么有限、有限之后怎么办、而这些做法背后又对应了什么认知问题……

一层层拆下去，最后会发现，最底层的逻辑其实都指向同一个问题："你到底知不知道自己想要什么"。

还是那句话：颗粒度对齐。我越来越觉得，"颗粒度"这三个字真的是非常精彩的发明。

不管是和AI交流、和人沟通，还是和自己理清一件事——本质上都在做同一个动作：把模糊的东西，慢慢收敛成清晰而精确的东西。

最后，感谢你愿意耐心看到这里。如果你觉得这篇内容有启发，不妨留言、点赞、转发。

你的支持，就是我继续写下去最大的动力。

本文是「AI使用」系列第2篇。本系列共9篇，带你从"能用AI"走到"会用AI"。

← 上一篇：AI越强大，为何普通人却更难上手下一篇：AI赋能银行业转型的路径解析 →