AI能力瓶颈暴露,人类展现绝对优势,AGI何时不再是幻想?
wuhu快报
文 | 敏 糸
AI一夜之间跌下“神坛”?
近日,各AI大模型遭遇了一场“智力测验”的洗礼。
正当科技界领袖们在发布会上天花乱坠地描绘通用人工智能(AGI)美好蓝图时,一项名为ARC-AGI-3的基准测试于3月25日正式亮相,给所有AI开发者泼了一盆冷水。
▲ 点击链接了解更多:https://arcprize.org/arc-agi/3
这项测试以游戏形式呈现,其难度被形容为“天花板级别”。在这场“考试”中,众多AI“学霸”们遭遇了滑铁卢。
测试规则简单明了:玩家需在限定步数内通过移动方块并触发场景中的机关道具,使左下方图形的属性与终点目标一致,最终成功抵达终点。
▲ 人类测试场景
尽管测试方式看似简单,但实际包含150多种不同的题型设计。AI模型在面对这些复杂多变的场景时显得力不从心。
备受瞩目的Opus 4.6大模型,在这项测试中仅获得了0.2%的低分。
与之形成鲜明对比的是,参与测试的1200多名人类玩家轻松实现了100%的满分通关。
AI在日常任务中的优秀表现似乎荡然无存。它就像一个只会死记硬背的学生,面对新问题时毫无头绪。
部分网友认为,AI的表现证明了它与人类相比仍有明显差距,尤其是在创造力和逻辑推理方面。
也有观点认为,这项测试设置的门槛过高,对AI的持续学习能力提出了过高的要求。
无论如何,ARC-AGI-3测试揭示了当前AI技术的局限性。
01
从“题海战术”到“实时应变”
过去,AI模型在测试中表现出色,往往是因为这些测试题已经被它们在预训练阶段“背过”了。
常见的AI评估方式是“静态测试”,这类测试的题库广泛存在于互联网上,大模型通过海量学习可以轻松应对。
然而,这种测试方式并不能真实反映AI的智能水平。
以常识推理测试HellaSwag为例,AI通常能轻松达到90%以上的准确率。但一旦测试题目中出现不合逻辑的修改或新增干扰项,AI的表现就会大幅下滑。
ARC-AGI-3测试将难度提升到了新的高度。
这次测试中,AI被置于完全陌生的交互式游戏环境中。没有提示信息,没有规则说明,AI必须完全依靠自身能力来理解和解决问题。
这要求AI具备快速学习和适应新环境的能力。可惜的是,目前的AI模型在这方面表现得并不理想。
02
0.2%的尴尬与新思路的探索
此次测试中,AI的表现彻底打破了“参数越多能力越强”的固有认知。
测试引入了一个关键评分公式:假设人类玩家只需10步就能完成任务,而AI用了N步,则AI得分=(10/N)^2。
这意味着AI的“暴力破解”方式不再奏效。
Opus 4.6 0.2%的得分背后,反映的是AI在面对全新规则时的无能为力。
令人意外的是,排行榜上的“黑马”并非那些动辄万亿参数的顶级模型,而是一个名为StochasticGoose的动作学习智能体。
它采用了多智能体协作架构,通过任务拆分和信息共享,实现了更高效的规则学习。
虽然目前成绩尚未得到官方认证,但这一突破预示着AI研发可能需要新的技术方向。
03
人类智慧的不可替代性
在ARC-AGI-3这样专门针对AI的高强度测试中,人类依然展现出了强大的优势。
目前的AI模型在处理未知问题时缺乏灵活性和创造性思维,这正是人类智慧的核心所在。
AI要想真正实现通用人工智能,必须解决“元认知”和“自主目标获取”这两个关键问题。
回顾2024年ARC竞赛的冠军方案,即使是结合了复杂算法的解决方案,在面对交互式环境时依然显得笨拙。
人类的创造力和逻辑推理能力,依然是AI难以企及的高峰。
此次测试虽然让AI界感到失望,但也为人类提供了一个重新认识自身优势的机会。
只要人类保持敢于创新、勇于突破的精神,智慧的火种就永远不会熄灭。
END
添加wuhu小精灵3号微信(wuhudonghua3)发送“动画新势力”即可在不久后被邀请进入粉丝群。
都看完了~快来给动画人点亮
再唠两句互动一下,来波友谊 “三连击”↓↓↓