AI能力瓶颈暴露，人类展现绝对优势，AGI何时不再是幻想？

发布时间：2026-03-31 02:06阅读：13

wuhu快报

文 | 敏糸

AI一夜之间跌下“神坛”？

近日，各AI大模型遭遇了一场“智力测验”的洗礼。

正当科技界领袖们在发布会上天花乱坠地描绘通用人工智能（AGI）美好蓝图时，一项名为ARC-AGI-3的基准测试于3月25日正式亮相，给所有AI开发者泼了一盆冷水。

▲ 点击链接了解更多：https://arcprize.org/arc-agi/3

这项测试以游戏形式呈现，其难度被形容为“天花板级别”。在这场“考试”中，众多AI“学霸”们遭遇了滑铁卢。

测试规则简单明了：玩家需在限定步数内通过移动方块并触发场景中的机关道具，使左下方图形的属性与终点目标一致，最终成功抵达终点。

▲ 人类测试场景

尽管测试方式看似简单，但实际包含150多种不同的题型设计。AI模型在面对这些复杂多变的场景时显得力不从心。

备受瞩目的Opus 4.6大模型，在这项测试中仅获得了0.2%的低分。

与之形成鲜明对比的是，参与测试的1200多名人类玩家轻松实现了100%的满分通关。

AI在日常任务中的优秀表现似乎荡然无存。它就像一个只会死记硬背的学生，面对新问题时毫无头绪。

部分网友认为，AI的表现证明了它与人类相比仍有明显差距，尤其是在创造力和逻辑推理方面。

也有观点认为，这项测试设置的门槛过高，对AI的持续学习能力提出了过高的要求。

无论如何，ARC-AGI-3测试揭示了当前AI技术的局限性。

从“题海战术”到“实时应变”

过去，AI模型在测试中表现出色，往往是因为这些测试题已经被它们在预训练阶段“背过”了。

常见的AI评估方式是“静态测试”，这类测试的题库广泛存在于互联网上，大模型通过海量学习可以轻松应对。

然而，这种测试方式并不能真实反映AI的智能水平。

以常识推理测试HellaSwag为例，AI通常能轻松达到90%以上的准确率。但一旦测试题目中出现不合逻辑的修改或新增干扰项，AI的表现就会大幅下滑。

ARC-AGI-3测试将难度提升到了新的高度。

这次测试中，AI被置于完全陌生的交互式游戏环境中。没有提示信息，没有规则说明，AI必须完全依靠自身能力来理解和解决问题。

这要求AI具备快速学习和适应新环境的能力。可惜的是，目前的AI模型在这方面表现得并不理想。

0.2%的尴尬与新思路的探索

此次测试中，AI的表现彻底打破了“参数越多能力越强”的固有认知。

测试引入了一个关键评分公式：假设人类玩家只需10步就能完成任务，而AI用了N步，则AI得分=(10/N)^2。

这意味着AI的“暴力破解”方式不再奏效。

Opus 4.6 0.2%的得分背后，反映的是AI在面对全新规则时的无能为力。

令人意外的是，排行榜上的“黑马”并非那些动辄万亿参数的顶级模型，而是一个名为StochasticGoose的动作学习智能体。

它采用了多智能体协作架构，通过任务拆分和信息共享，实现了更高效的规则学习。

虽然目前成绩尚未得到官方认证，但这一突破预示着AI研发可能需要新的技术方向。

人类智慧的不可替代性

在ARC-AGI-3这样专门针对AI的高强度测试中，人类依然展现出了强大的优势。

目前的AI模型在处理未知问题时缺乏灵活性和创造性思维，这正是人类智慧的核心所在。

AI要想真正实现通用人工智能，必须解决“元认知”和“自主目标获取”这两个关键问题。

回顾2024年ARC竞赛的冠军方案，即使是结合了复杂算法的解决方案，在面对交互式环境时依然显得笨拙。

人类的创造力和逻辑推理能力，依然是AI难以企及的高峰。

此次测试虽然让AI界感到失望，但也为人类提供了一个重新认识自身优势的机会。

只要人类保持敢于创新、勇于突破的精神，智慧的火种就永远不会熄灭。

END

添加wuhu小精灵3号微信(wuhudonghua3)发送“动画新势力”即可在不久后被邀请进入粉丝群。

都看完了～快来给动画人点亮

再唠两句互动一下，来波友谊 “三连击”↓↓↓