标签

顶尖AI智力测试“翻车”:人类完胜,模型表现堪忧

发布时间:2026-05-04 02:20来源:微信阅读:6

GPT-5.5与Claude Opus 4.7最新测试结果令人大跌眼镜

📊 最新一项测试让全球最顶尖的人工智能模型挑战了一套“智力题”——

结果显示,人类考生全部答对,而GPT-5.5的正确率仅为0.43%,Claude Opus 4.7的表现更差,只有0.18%……

这究竟是人类智慧的胜利,还是AI能力的局限?

你是否曾思考过,当前的人工智能究竟有多么“聪明”?

为了探究这个问题,Keras的创始人François Chollet设计了一项名为ARC-AGI的测试。近日,他们发布了第三代版本——ARC-AGI-3。

这个测试与传统的考试形式有所不同:

简单来说:它是一个专门为暴露AI局限性而设计的挑战 ✌️

让我们来看看这些“顶级选手”的表现:

📍 成本:GPT-5.5单次测试就耗费了约1万美元……

测试团队将AI的失败原因归纳为三种,每一种都显得令人难以置信……

❌ 失败模式一:只见局部,不见整体。通俗解释:AI能够识别出机器的各个部件如何运作,但却无法理解整个机器的整体功能。 举例说明:在某个测试关卡中,Claude Opus在第四步发现“这个动作可以旋转”,在第六步又识别出“那个动作可以倾倒颜料”,但它始终未能领会到需要先对齐容器才能蘸取图案的要点! 📌 核心问题:对单个操作的理解准确,但组合运用时则陷入混乱

通俗解释:AI能够识别出机器的各个部件如何运作,但却无法理解整个机器的整体功能。

举例说明:在某个测试关卡中,Claude Opus在第四步发现“这个动作可以旋转”,在第六步又识别出“那个动作可以倾倒颜料”,但它始终未能领会到需要先对齐容器才能蘸取图案的要点!

📌 核心问题:对单个操作的理解准确,但组合运用时则陷入混乱

❌ 失败模式二:被训练数据“误导”。通俗解释:这类似于一个学生只擅长解答做过的题目,遇到新题时则生搬硬套旧的解题思路。 GPT-5.5在某个场景中,看到画面中的砖块在移动,便固执地将其认定为“打砖块游戏”,并按照该游戏的逻辑进行操作——完全忽视了这实际上是一个考察“按键组合”的题目! 📌 核心问题:将相似性作为套用规则的依据,而忽略了实际的游戏规则

通俗解释:这类似于一个学生只擅长解答做过的题目,遇到新题时则生搬硬套旧的解题思路。

GPT-5.5在某个场景中,看到画面中的砖块在移动,便固执地将其认定为“打砖块游戏”,并按照该游戏的逻辑进行操作——完全忽视了这实际上是一个考察“按键组合”的题目!

📌 核心问题:将相似性作为套用规则的依据,而忽略了实际的游戏规则

❌ 失败模式三:偶然成功不代表掌握。通俗解释:AI将随机猜测视为真正的能力,并且错误地加深了这种认知。 Claude Opus在某一关中偶然成功过关,但其理解却是“点击可以传送角色”——这实际上是错误的,只是第一关恰好允许这种错误的尝试。随后,它将这种错误的理解带入后续关卡,导致错误越来越严重…… 📌 核心问题:未能反思“为何成功”,而是将偶然事件视为必然规律

通俗解释:AI将随机猜测视为真正的能力,并且错误地加深了这种认知。

Claude Opus在某一关中偶然成功过关,但其理解却是“点击可以传送角色”——这实际上是错误的,只是第一关恰好允许这种错误的尝试。随后,它将这种错误的理解带入后续关卡,导致错误越来越严重……

📌 核心问题:未能反思“为何成功”,而是将偶然事件视为必然规律

一句话总结:两者都是“偏科生”,只是各自偏向的领域不同

💡关键差异点:“抽象概括”能力是什么?这就像你阅读了大量的实验数据后,能否从中提炼出一条普遍规律。Opus的问题在于它提炼出了规律但提炼错了,而GPT-5.5则根本无法进行提炼。两者在推理能力上都存在显著的缺陷!

尽管这些AI在许多任务上展现出惊人的表现,但此次测试暴露了它们的根本性不足:

因此,当前的人工智能本质上仍然是“高级模式匹配”,距离真正的“通用人工智能”还有很长的路要走 🚀

📖 来源链接

ARC Prize 官方博客

作者:Greg Kamradt | 发布日期:2026年5月1日

🔗https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis

❤️ 感谢阅读 | 关注AI前沿动态