日常测试揭短:AI 难以维持持久专注力
编译:高杰
人工智能在众多领域已逐渐比肩人类。
可是,
一项刊登在《美国科学院院刊》子刊上的最新研究
却给我们敲响了警钟:
AI 或许在人类司空见惯的某项日常技能上
意外“栽跟头”——
即在遭遇干扰时,难以长久保持专注。
科研团队借用了认知科学界沿用几十年的经典实验范式——Stroop 任务(颜色 - 词汇干扰测验),对 GPT-4o、Claude 3.5 Sonnet、GPT-5 等现今最顶尖的大语言模型展开了系统评估。
结论显示:当任务篇幅较短时,这些模型还能精准辨识颜色;可一旦任务序列被拉长,它们的表现便急转直下,部分模型的准确率从九成以上暴跌至近乎完全失灵,好似机器也会“开小差”。
Stroop 任务是一项著名的心理学测验,几十年来始终被用来探究注意力、专注度以及自控力。
测试过程中,会呈现用彩色油墨印制的颜色名词,比如“红”“蓝”“绿”,分为两种情形:一是词义与油墨颜色相符,例如用红色油墨印“红”字;二是词义与油墨颜色相悖,例如用蓝色油墨印“红”字。参与者被要求报出文字的油墨颜色,而不是朗读文字内容。
这项任务看似简易,实则制造了难题,因为对多数人而言,阅读文字是一种自动化习惯。大脑必须主动压制阅读文字的冲动,转而集中精力识别油墨颜色。
心理学家常利用该实验来衡量所谓的“执行控制”能力,即一套协助人们调节注意力、抵御干扰并维持目标专注的心理机制。
研究小组旨在查明,当下大型语言模型应对此类认知冲突的模式,是否与人类相同。
ChatGPT、Claude 和 Gemini 等工具的核心均为大型语言模型。此类 AI 经由海量文本训练,掌握了语言规律,生成的回答往往极具人类语感。
测试发现,在仅含 5 个颜色词汇的短清单中,即便词义和油墨色彩不吻合,各类 AI 整体表现尚佳。
但是,一旦词汇清单变长,AI 表现出现断崖式下跌:GPT-4o 在处理 5 个词汇时准确率高达 91%;而当词汇增至 10 个,准确率滑落至 57%;待清单扩充到 40 个词汇后,准确率仅余 15%。Claude 3.5 Sonnet 在 20 词以内的清单中表现平稳,超过 20 词后正确率猛降,处理 40 词长清单时,准确率跌至 24%。
GPT-4o 和 Claude 3.5 Sonnet 的表现(准确性)
科研人员在 GPT-5、Claude Opus 4.1、Gemini 2.5 等模型中均观察到了同样的衰减规律。
当匹配与不匹配的颜色词同时出现在同一清单里时,任务难度再度升级。
在此情境下,AI 模型的表现持续恶化,在某些情形中,不匹配色词的识别准确率几乎归零。
研究人员分析指出,AI 难以牢固记住“识别油墨颜色”这条核心指令,反而愈发本能地直接读取文字本身。换言之,这些系统似乎无法持续抑制它们被训练得最频繁的那种反应(即读取文字)。
这一发现尤为有趣,因为人类也遭遇类似的冲突。我们通常更善于读出文字,而非说出油墨颜色。不过,尽管存在这种倾向,在面对一长串词义、色彩矛盾的文本时,绝大多数人仍能保持高准确率,且表现稳定。
图源:包图网
该研究突显了人类智能与人工智能的一个关键差异。
目前,AI 系统虽拥有出色的语言生成与逻辑推理能力,但其底层运作机制与生物大脑的注意力调控逻辑迥然不同。
人类通常能在过滤冲突干扰信息的同时,持续聚焦于特定目标。但研究结果显示,当任务强度不断攀升时,现有的 AI 模型很难实现这种认知自控。
研究团队指出,这些实验中出现的性能崩溃,揭示了当前大型语言模型的底层局限。AI 虽能在部分场景模仿人类行为,但其维持注意力的逻辑,与人类存在本质区别。
该研究警示我们:即便是当下最前沿的 AI 系统,依然存在显著短板,尤其是当任务需要长时间抵抗干扰、持续处理长串信息时,AI 的注意力缺陷会暴露无遗。
数据图及参考