日常测试揭短：AI 难以维持持久专注力

发布时间：2026-06-15 16:02阅读：23

编译：高杰

人工智能在众多领域已逐渐比肩人类。

可是，

一项刊登在《美国科学院院刊》子刊上的最新研究

却给我们敲响了警钟：

AI 或许在人类司空见惯的某项日常技能上

意外“栽跟头”——

即在遭遇干扰时，难以长久保持专注。

科研团队借用了认知科学界沿用几十年的经典实验范式——Stroop 任务（颜色 - 词汇干扰测验），对 GPT-4o、Claude 3.5 Sonnet、GPT-5 等现今最顶尖的大语言模型展开了系统评估。

结论显示：当任务篇幅较短时，这些模型还能精准辨识颜色；可一旦任务序列被拉长，它们的表现便急转直下，部分模型的准确率从九成以上暴跌至近乎完全失灵，好似机器也会“开小差”。

Stroop 任务是一项著名的心理学测验，几十年来始终被用来探究注意力、专注度以及自控力。

测试过程中，会呈现用彩色油墨印制的颜色名词，比如“红”“蓝”“绿”，分为两种情形：一是词义与油墨颜色相符，例如用红色油墨印“红”字；二是词义与油墨颜色相悖，例如用蓝色油墨印“红”字。参与者被要求报出文字的油墨颜色，而不是朗读文字内容。

这项任务看似简易，实则制造了难题，因为对多数人而言，阅读文字是一种自动化习惯。大脑必须主动压制阅读文字的冲动，转而集中精力识别油墨颜色。

心理学家常利用该实验来衡量所谓的“执行控制”能力，即一套协助人们调节注意力、抵御干扰并维持目标专注的心理机制。

研究小组旨在查明，当下大型语言模型应对此类认知冲突的模式，是否与人类相同。

ChatGPT、Claude 和 Gemini 等工具的核心均为大型语言模型。此类 AI 经由海量文本训练，掌握了语言规律，生成的回答往往极具人类语感。

测试发现，在仅含 5 个颜色词汇的短清单中，即便词义和油墨色彩不吻合，各类 AI 整体表现尚佳。

但是，一旦词汇清单变长，AI 表现出现断崖式下跌：GPT-4o 在处理 5 个词汇时准确率高达 91%；而当词汇增至 10 个，准确率滑落至 57%；待清单扩充到 40 个词汇后，准确率仅余 15%。Claude 3.5 Sonnet 在 20 词以内的清单中表现平稳，超过 20 词后正确率猛降，处理 40 词长清单时，准确率跌至 24%。

GPT-4o 和 Claude 3.5 Sonnet 的表现（准确性）

科研人员在 GPT-5、Claude Opus 4.1、Gemini 2.5 等模型中均观察到了同样的衰减规律。

当匹配与不匹配的颜色词同时出现在同一清单里时，任务难度再度升级。

在此情境下，AI 模型的表现持续恶化，在某些情形中，不匹配色词的识别准确率几乎归零。

研究人员分析指出，AI 难以牢固记住“识别油墨颜色”这条核心指令，反而愈发本能地直接读取文字本身。换言之，这些系统似乎无法持续抑制它们被训练得最频繁的那种反应（即读取文字）。

这一发现尤为有趣，因为人类也遭遇类似的冲突。我们通常更善于读出文字，而非说出油墨颜色。不过，尽管存在这种倾向，在面对一长串词义、色彩矛盾的文本时，绝大多数人仍能保持高准确率，且表现稳定。

图源：包图网

该研究突显了人类智能与人工智能的一个关键差异。

目前，AI 系统虽拥有出色的语言生成与逻辑推理能力，但其底层运作机制与生物大脑的注意力调控逻辑迥然不同。

人类通常能在过滤冲突干扰信息的同时，持续聚焦于特定目标。但研究结果显示，当任务强度不断攀升时，现有的 AI 模型很难实现这种认知自控。

研究团队指出，这些实验中出现的性能崩溃，揭示了当前大型语言模型的底层局限。AI 虽能在部分场景模仿人类行为，但其维持注意力的逻辑，与人类存在本质区别。

该研究警示我们：即便是当下最前沿的 AI 系统，依然存在显著短板，尤其是当任务需要长时间抵抗干扰、持续处理长串信息时，AI 的注意力缺陷会暴露无遗。

数据图及参考

← 上一篇：济南学员运用AI短剧工具7天完成霸总甜宠作品，上线次日播放量突破1300万下一篇：北京大学AI与企业数字化管理研修班9班6月27日开课|企业家的人工智能转型实战课程 →