AI的“注意力中枢”并不无限
狐狐/ AI使用 · 第2篇
人脑中有一块区域叫前额叶,主要负责注意力分配、专注维持与决策判断——也就是决定当下该看重什么、忽略什么。它是人类认知控制的重要中枢,但它能承载的信息量并不无限,所以我们很难把注意力同时平均放在很多事情上。
2017年,Google发布了一篇论文,Attention Is All You Need,中文可直译为《注意力就是全部》。这篇论文提出了Transformer架构,也为如今所有大语言模型打下了核心基础。[1]
Transformer最关键的机制叫"自注意力"。从某种角度看,它就像AI的"前额叶",决定AI在当前输入中该重点看哪里、该弱化哪里。
我们日常接触的AI,几乎都是建立在这一机制之上的。
对人类而言,每天可用的注意力有限。AI同样如此。它表面上似乎什么都能处理,但它的处理资源也是有上限的。你输入给它的每一条信息,都在占用它的预算。
给得越多,分配到每一条内容上的注意力就越少,这也意味着AI完成任务时的准确性会开始下滑。
这篇要讨论的正是这个问题:AI的注意力到底如何运作、会怎样被浪费,以及怎样尽量提高这份注意力的利用效率。
你和AI进行的每一轮对话,都会不断往一个叫上下文窗口(Context Window)的容器里加入内容。你发出的消息、上传的资料、以及AI自己的回复,都包含在其中。AI每次回答时,都是基于这个窗口里的全部内容来进行推理。
那这个窗口到底有多大?如今主流模型的上下文窗口已经来到百万token量级,大致可以装下一整本《红楼梦》。听上去确实非常可观。
可问题在于,能装进去,并不代表能处理得足够好。
Chroma Research在2025年测试了18个前沿模型(包括GPT-4.1、Claude、Gemini),结果发现所有模型都会随着输入长度增加而表现下降。有的模型本来能稳定维持在95%的准确率,但一旦长度超过某个阈值,就会迅速掉到60%。这不是缓慢滑落,而是悬崖式下跌。[2]
这种现象有个名称:Context Rot(上下文腐化)。并不是非得等窗口塞满才会出问题,研究显示,在窗口远远没装满时,性能就可能已经开始崩坏。比如一个能装200万字的窗口,才放进50万字,退化现象就已经出现了。也就是说,给它一个能容纳整部《红楼梦》的窗口,你才放进去半本,它就已经开始迷糊了。
图1:模型会随着上下文变长而出现性能衰减
所谓迷糊,是什么意思?比如你真的把整部《红楼梦》喂给AI,再问它"第一回写了什么",它可能会把开头和中间的情节混在一起回答,甚至直接编出一段原文里根本不存在的内容。并不是答案不在里面,而是七十多万字把它的注意力摊薄了,它没法准确锁定。
关于上下文腐化具体是如何发生的、又该怎样应对,后面的推文会单独展开。这一篇先聚焦一个问题:它为什么会腐化?
根源就在所有大语言模型共同使用的底层架构:Transformer。
Transformer里有一个叫"自注意力"的机制:每个token(可以粗略理解成一个词或半个词)都需要和窗口中的其他token计算关联。token数量翻倍,计算量会变成原来的四倍。这就意味着窗口越大,每个token最终分到的注意力越稀薄。
更重要的是,这份注意力并不是平均分布在整个窗口中的。
斯坦福大学在2024年发表的研究"Lost in the Middle"指出:AI对开头和结尾部分的关注最强,对中间部分的关注最弱,整体准确率呈现U型曲线。当关键信息从开头挪到中间时,准确率会下降超过20个百分点。[3]
这并不是某个模型单独做得不好,而是Transformer架构本身具备的数学特性。就像你读一封很长的邮件,最容易记住的往往是开头第一段和最后的总结,中间那些段落?大概率就略过去了。AI也是同样的情况。
所以再回到那句开头的话:Attention Is All You Need(注意力就是一切)。但注意力并不是无限的,而且它的分配也并不均匀。你塞进去的每一条信息,都会稀释AI对其他内容的关注。信息越精炼、越少、越靠前,AI的注意力越集中,最终给出的答案通常也越好。
2022年底ChatGPT刚出现时,很多人发现"同一个问题换种说法问AI,结果会差很多",于是出现了一个词:提示词工程(Prompt Engineering),专门研究怎样把发给AI的那句话写得更好。到了2023年,这个词火到甚至催生出专门的"提示词工程师"岗位。
但随着模型规模越来越大、上下文窗口越来越长,人们逐渐发现,仅仅把一句话写好已经不够了。哪怕那句话本身写得再漂亮,只要AI的注意力已经被大量无关信息冲淡,效果依然有限。
因此从2025年开始,行业里又逐渐冒出另一个概念:上下文工程(Context Engineering)。它不再只是研究一句话该怎么写,而是研究如何管理你提供给AI的整个信息环境:该给哪些信息、不该给哪些信息、什么先给、什么后给。
简单来说:
到今天,这两个概念其实都已经成了基础共识。
而上下文工程最直接的一条推论就是:一次只让AI完成一件事。
如果你让AI同时"改语法+调结构+改语气",它会尝试兼顾全部目标,但每一项能分到的注意力都不够,最后往往每件事都只是勉强完成。换成你自己同时做这三件事,结果也不会太理想。
一次只做一件事。这是投入产出比最高的使用习惯。
AI还有一个你可能没太留意的习惯:当信息不足时,它通常不会主动追问你,而是直接用自己的默认假设把空白补上,然后开始执行。你最后看到那份不够满意的结果,很可能是因为AI在你没有说明白的地方,已经私下替你做了好几个判断,只是你没有意识到。
比如,你正在写一封邮件,想请AI帮你润色,于是直接把邮件丢给它,再说一句"帮我润色一下"。可它并不知道你希望往哪个方向润色——是更简洁?更正式?还是更有说服力?
接着你又说"我觉得你写得不太好",那问题来了:什么才算"好"?好在哪里?需要达到什么程度?
归根结底,就是你和AI之间的“颗粒度”没有对齐。
解决这个问题,大致有三条路径,具体取决于你到底"不清楚"到什么程度。
第一种:你其实大概知道自己想要什么,只是表达得还不够精确。
在把需求发给AI之前,先自己对齐一遍:"我到底想要什么?"把那些模糊的大词拆成2-3个更具体的方向,再选一个。
不要说"帮我优化这封邮件",而是改成:
多花10秒钟,但AI从第一句开始就不用再猜你想要什么。
你会发现,这个把词拆开的动作,往往也会让你自己更明白"我究竟想要什么"。模糊需求最容易被忽视的副作用就在于:你以为自己已经想清楚了,可一旦试着表达出来,才发现其实还没真正弄明白。AI只是提前替你照了一面镜子。
第二种:你知道自己缺信息,但并不清楚到底缺的是哪一块。
描述完需求后,再加上一句:
AI会把它当前最大的缺口直接暴露出来,然后由你来补。这比你在结果出来后再反过来猜"是不是我没说清楚",效率高得多。这也是为什么真正会用AI的人会越用越顺手——因为他们在使用过程中,一直在主动让AI暴露它缺什么信息。
第三种:你甚至不知道应该朝哪个方向去问。
有时候问题不是你说不明白,而是你根本不知道一件事背后还存在多少方向。你想了解A,但并不知道A其实还分成BCDEFG那么多支线,你连该提什么问题都不知道。这时就可以反过来,让AI先把整张地图铺开:
AI的知识库里大概率知道这些分支确实存在,它只是不知道你到底想选哪一个。先让它全列出来,你就能快速定位方向,哪怕你之前根本不知道那个方向叫什么。
其实,这三种情形,和下面两图对应的是一个非常经典的Rumsfeld矩阵认知框架:
大多数人和AI沟通卡住时,不是因为AI太笨,而是自己困在了右边那两个格子里。先弄清楚你当前处在哪个格子,再选相应的方法,比一味埋头改prompt有效得多。
这种情况其实不需要什么技巧。输入足够明确,输出也足够明确,中间几乎没有歧义空间。
但问题在于:现实中真正落在这个格子里的任务,少得惊人。
你可能会觉得,"帮我用学术论文的正式语气翻译这段话"应该也属于这个格子?其实并不是。"学术"是哪一类学科的学术?社科和理工的写法完全不同。"正式语气"又是多正式?期刊论文和学位论文的措辞习惯也并不一样。
只要你的需求里出现了一个形容词,比如"正式"、"简洁"、"专业"、"好看",你大概率已经滑到了别的格子里,只是自己还以为没有。
大多数人和AI沟通不顺,不是因为AI太笨,而是因为高估了自己需求的清晰程度。你以为自己已经说清楚了,但"说清楚"这件事,本身就比想象中难得多。
你知道自己缺少信息,但并不能确认具体缺的是哪部分。
❌ 错误版:
你知道自己没考虑周全,于是拼命往里补信息,可预算和温泉酒店彼此冲突,素食需求和日本料理推荐也互相打架,AI只好试图全部兼顾,最后每个需求都浅尝辄止,没有一个真正被解决。
✅ 正确版:
AI可能会追问:这次旅行你最想获得的体验是什么,是文化、美食,还是购物?先确定一条主线。
一个问题就锁定了最大的缺口。你回答之后,AI就能先给出准确的大框架,后面的细节再一轮一轮继续追问。差别不在于AI突然变聪明了,而在于它的注意力终于被聚焦起来了。
你完全不知道这件事有哪些可能方向,甚至连问题都提不出来。
❌ 错误版:
AI会给你一份很泛的清单:学Python、学英语、考PMP、学数据分析……看起来每项都没错,但没有一项是真正针对你的。因为它不知道你所在的行业、所处的阶段、真正的短板分别是什么,而你自己也没有意识到这些维度本来就存在。
✅ 正确版:
AI可能会列出:技术深耕、管理能力、跨界复合、行业认证、软技能沟通……你一眼就会意识到"哦,我现在最缺的是管理能力",哪怕你之前压根没想过"管理能力"会是一个选项。
这是最危险的格子,因为你甚至意识不到自己漏掉了什么。先让AI把地图摊开,再由你来选路线。
回到场景一里的那个例子。你说"帮我用学术论文的正式语气翻译这段话",AI给了你一个版本。你看完以后觉得……不太对。但又一时说不清到底哪里不对。
再看两遍,你发现AI用了很多被动句,比如"该方法被广泛应用于……"。你隐约觉得别扭,但说不上原因。再看一遍,你才反应过来:你平时读的那些顶刊论文,其实很少这样用被动句,你导师也说过"能主动就尽量别被动"。这个偏好你一直都知道,只是刚才提需求的时候根本没想到要说出来。
改完以后好一些了。但AI又把所有术语都翻译成了中文,比如"卷积神经网络"、"长短期记忆"。而你们课题组平时的习惯,是术语保留英文缩写。这个规矩你原本也清楚,只是这次没有想到。
接下来你又发现,段落之间的衔接太生硬,满篇都是"此外"、"另外"、"同时"。可你读过的好论文并不是这么写的,它们段落之间有逻辑推进,而不是简单并列。
你有没有看到这里发生了什么?
"学术论文的正式语气" → "少用被动句" → "术语保留英文缩写" → "段落采用逻辑递进而不是并列"。
每一轮,你都在把一个含糊的大词,拆成更细、更具体、几乎没有歧义的指令。每往前一步,都是在把一个"你不知道自己知道"的隐性偏好,转化成一个"你明确知道自己知道"的清晰要求。
"学术论文的正式语气"这八个字,看上去像是很清楚的指令,但其实里面包含了接近无限的维度,比如语态偏好、术语处理方式、段落衔接形式、句子长度、引用格式、语气距离感……每一个维度都还能继续往下拆,每拆一层,要求就更精确一分。
当你一路拆到最后,每个词都精确到没有歧义时,你就从右下角(我不知道我不知道)逐渐收敛到了左上角(我知道我知道)。
所谓"我知道我知道",并不是你的起点,而是你的终点。它是你经过一轮轮拆解之后,才最终抵达的状态。
而前面提到的三种方法(自己拆模糊词、让AI提出关键问题、让AI列出全部方向),本质上都是在加速这一收敛过程。
和AI沟通的本质,不是一次性写出一个完美prompt,而是持续不断地把"我不知道"收敛成"我知道"。
你和导师讨论论文方向、和同事对齐需求、和朋友商量去哪吃饭,本质上都在做同一件事:把模糊的东西逐步收敛成精确的东西。
只不过在现实生活中,我们是多模态交流,表情、动作、语气都在补充信息,所以这个收敛过程往往是隐式完成的。而AI是单模态的,它只能依靠文本,不会替你自动脑补,因此你的每一个模糊点都会被直接暴露出来。
AI的注意力是有限的,而你表达得有多清楚,决定了它最终能发挥到什么程度。
上一篇我们讲过,AI为什么不是在"知道答案",而更像是在"猜下一个词"。
下一篇,我们会聊上下文腐化的四种典型死法:中毒、分心、混淆、冲突。每一种你大概率都遇到过,只是还不知道它们分别叫什么。
想讲的内容实在太多,以至于很难进一步压缩。
在写这篇的时候,我也在尝试把认识论层面的框架,和AI的实际使用方式真正结合起来。
写这篇文章本身,其实也是一次收敛:我原本想讲的是AI的上下文,但"上下文"这三个字能继续拆出的内容太多了:它是什么、为什么有限、有限之后怎么办、而这些做法背后又对应了什么认知问题……
一层层拆下去,最后会发现,最底层的逻辑其实都指向同一个问题:"你到底知不知道自己想要什么"。
还是那句话:颗粒度对齐。我越来越觉得,"颗粒度"这三个字真的是非常精彩的发明。
不管是和AI交流、和人沟通,还是和自己理清一件事——本质上都在做同一个动作:把模糊的东西,慢慢收敛成清晰而精确的东西。
最后,感谢你愿意耐心看到这里。如果你觉得这篇内容有启发,不妨留言、点赞、转发。
你的支持,就是我继续写下去最大的动力。
本文是「AI使用」系列第2篇。本系列共9篇,带你从"能用AI"走到"会用AI"。