Nature重磅:ADeLe精准预判AI模型成败
瓦伦西亚理工大学(Universitat Politècnica de València)的一支研究团队,来自瓦伦西亚大学人工智能研究所(VRAIN)及ValgrAI,成功研发了ADeLe。这一创新方法可精准预判大型语言模型(LLM)在未曾执行过的全新任务中的成功率,并清晰界定特定模型的推理边界。
该研究刊登于《自然》期刊,堪称重大进展。传统手段仅能反映AI模型在既定测试中的成效,而ADeLe运用更具认知深度的评测方式,可预先解析并预判模型行为,使企业在发布新型AI系统前便能洞察潜在失误。如此一来,我们便能在实际运行前预见模型的薄弱环节。
借助这种认知型评估体系,"我们首度能够在AI模型部署前,以近90%的精确度判断其是否具备解决新问题的能力。对产业界来说,这意味着及时侦测故障,防止因系统表现未达预期而产生的巨额开销,"巴斯克大学VRAIN研究员费尔南多·马丁内斯-普卢梅德表示。
AI能力评测实现严谨化突破
考虑到人工智能当前的高速发展与广泛应用,这一突破对长期呼吁对AI能力实施严格、可扩展、标准化评测的研究者、企业、第三方评估机构、政策制定者及监管部门而言,影响深远。
正如文中所述,"迄今为止,AI评估体系未能跟上快速演进且日趋多元的人工智能生态步伐。对于各类通用AI系统而言,理解并预测其性能已成为当务之急。"这一全新方法具备全面性与扩展性,有效弥补了传统AI评测在解释性与预测性方面的短板。
18项核心认知指标
此项研究由以下学者合力完成:巴斯克大学计算机科学教授、VRAIN研究员何塞·埃尔南德斯-奥拉略,ValgrAI UMI成员;巴斯克大学计算机科学高级讲师、VRAIN研究员费尔南多·马丁内斯-普卢梅德;巴斯克大学博士生亚埃尔·莫罗斯-达瓦尔及VRAIN研究员姜可欣;以及巴斯克大学ValgrAI与VRAIN博士生贝赫扎德·梅尔巴赫什。
本研究的核心并非测量整体正确率,而是提炼出一系列宽泛的能力维度,使得预测能力可迁移至未知任务。
新体系将大型AI语言模型面临的各类认知挑战归纳为18项关键指标,涵盖注意力、推理水平及任务特异性等要素。随后,系统依据各项任务对各指标的需求程度,对现实中的每个任务进行维度评分。通过让模型执行足够数量的已评分任务(按难度分级),即可生成模型的能力画像。
核心成果
研究团队运用ADeLe对多项AI性能基准展开评估,总结出四大核心发现:第一,现行AI性能基准并未测得其所欲测之内容,因其时常评估超出设计范畴的其他能力。第二,不同AI模型在各项能力上呈现出差异化的优劣格局,具体取决于模型规模、推理方式及模型家族。第三,新型ADeLe体系可精准解读并预判AI系统在特定新任务中的成败。最后,他们指出,关于AI模型是否具备推理能力的矛盾研究结果均有部分正确性,但指向不同层级的推理难度。部分现行AI性能测试仅需基础的问题解决能力,而另一些则要求高级逻辑、抽象思维及深厚的专业领域知识。
作者在成果总结中强调,"ADeLe呈现的最清晰图景是:推理模型(如OpenAI的o1)在逻辑与数学领域,以及理解用户真实意图等出人意料的方面,均展现出切实且可量化的进步。"
这篇题为"通用量表释放AI评估的解释力与预测力"的研究,由剑桥大学、瓦伦西亚理工大学、普林斯顿大学、卡内基梅隆大学、威廉玛丽学院的科研人员,以及微软研究院和自动化与机器人中心(CAR,CSIC-UPM)等机构的专家共同完成。
参考文献
Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026).