顶尖AI智力测试“翻车”：人类完胜，模型表现堪忧

发布时间：2026-05-04 02:20阅读：30

GPT-5.5与Claude Opus 4.7最新测试结果令人大跌眼镜

📊 最新一项测试让全球最顶尖的人工智能模型挑战了一套“智力题”——

结果显示，人类考生全部答对，而GPT-5.5的正确率仅为0.43%，Claude Opus 4.7的表现更差，只有0.18%……

这究竟是人类智慧的胜利，还是AI能力的局限？

你是否曾思考过，当前的人工智能究竟有多么“聪明”？

为了探究这个问题，Keras的创始人François Chollet设计了一项名为ARC-AGI的测试。近日，他们发布了第三代版本——ARC-AGI-3。

这个测试与传统的考试形式有所不同：

简单来说：它是一个专门为暴露AI局限性而设计的挑战 ✌️

让我们来看看这些“顶级选手”的表现：

📍 成本：GPT-5.5单次测试就耗费了约1万美元……

测试团队将AI的失败原因归纳为三种，每一种都显得令人难以置信……

❌ 失败模式一：只见局部，不见整体。通俗解释：AI能够识别出机器的各个部件如何运作，但却无法理解整个机器的整体功能。举例说明：在某个测试关卡中，Claude Opus在第四步发现“这个动作可以旋转”，在第六步又识别出“那个动作可以倾倒颜料”，但它始终未能领会到需要先对齐容器才能蘸取图案的要点！ 📌 核心问题：对单个操作的理解准确，但组合运用时则陷入混乱

通俗解释：AI能够识别出机器的各个部件如何运作，但却无法理解整个机器的整体功能。

举例说明：在某个测试关卡中，Claude Opus在第四步发现“这个动作可以旋转”，在第六步又识别出“那个动作可以倾倒颜料”，但它始终未能领会到需要先对齐容器才能蘸取图案的要点！

📌 核心问题：对单个操作的理解准确，但组合运用时则陷入混乱

❌ 失败模式二：被训练数据“误导”。通俗解释：这类似于一个学生只擅长解答做过的题目，遇到新题时则生搬硬套旧的解题思路。 GPT-5.5在某个场景中，看到画面中的砖块在移动，便固执地将其认定为“打砖块游戏”，并按照该游戏的逻辑进行操作——完全忽视了这实际上是一个考察“按键组合”的题目！ 📌 核心问题：将相似性作为套用规则的依据，而忽略了实际的游戏规则

通俗解释：这类似于一个学生只擅长解答做过的题目，遇到新题时则生搬硬套旧的解题思路。

GPT-5.5在某个场景中，看到画面中的砖块在移动，便固执地将其认定为“打砖块游戏”，并按照该游戏的逻辑进行操作——完全忽视了这实际上是一个考察“按键组合”的题目！

📌 核心问题：将相似性作为套用规则的依据，而忽略了实际的游戏规则

❌ 失败模式三：偶然成功不代表掌握。通俗解释：AI将随机猜测视为真正的能力，并且错误地加深了这种认知。 Claude Opus在某一关中偶然成功过关，但其理解却是“点击可以传送角色”——这实际上是错误的，只是第一关恰好允许这种错误的尝试。随后，它将这种错误的理解带入后续关卡，导致错误越来越严重…… 📌 核心问题：未能反思“为何成功”，而是将偶然事件视为必然规律

通俗解释：AI将随机猜测视为真正的能力，并且错误地加深了这种认知。

Claude Opus在某一关中偶然成功过关，但其理解却是“点击可以传送角色”——这实际上是错误的，只是第一关恰好允许这种错误的尝试。随后，它将这种错误的理解带入后续关卡，导致错误越来越严重……

📌 核心问题：未能反思“为何成功”，而是将偶然事件视为必然规律

一句话总结：两者都是“偏科生”，只是各自偏向的领域不同

💡关键差异点：“抽象概括”能力是什么？这就像你阅读了大量的实验数据后，能否从中提炼出一条普遍规律。Opus的问题在于它提炼出了规律但提炼错了，而GPT-5.5则根本无法进行提炼。两者在推理能力上都存在显著的缺陷！

尽管这些AI在许多任务上展现出惊人的表现，但此次测试暴露了它们的根本性不足：

因此，当前的人工智能本质上仍然是“高级模式匹配”，距离真正的“通用人工智能”还有很长的路要走 🚀

📖 来源链接

ARC Prize 官方博客

作者：Greg Kamradt | 发布日期：2026年5月1日

🔗https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis

❤️ 感谢阅读 | 关注AI前沿动态

← 上一篇：中医AI论文精选推送下一篇：人工智能数据科学强化课试听开启 →