Nature重磅：ADeLe精准预判AI模型成败

发布时间：2026-04-07 13:05阅读：12

瓦伦西亚理工大学（Universitat Politècnica de València）的一支研究团队，来自瓦伦西亚大学人工智能研究所（VRAIN）及ValgrAI，成功研发了ADeLe。这一创新方法可精准预判大型语言模型（LLM）在未曾执行过的全新任务中的成功率，并清晰界定特定模型的推理边界。

该研究刊登于《自然》期刊，堪称重大进展。传统手段仅能反映AI模型在既定测试中的成效，而ADeLe运用更具认知深度的评测方式，可预先解析并预判模型行为，使企业在发布新型AI系统前便能洞察潜在失误。如此一来，我们便能在实际运行前预见模型的薄弱环节。

借助这种认知型评估体系，"我们首度能够在AI模型部署前，以近90%的精确度判断其是否具备解决新问题的能力。对产业界来说，这意味着及时侦测故障，防止因系统表现未达预期而产生的巨额开销，"巴斯克大学VRAIN研究员费尔南多·马丁内斯-普卢梅德表示。

AI能力评测实现严谨化突破

考虑到人工智能当前的高速发展与广泛应用，这一突破对长期呼吁对AI能力实施严格、可扩展、标准化评测的研究者、企业、第三方评估机构、政策制定者及监管部门而言，影响深远。

正如文中所述，"迄今为止，AI评估体系未能跟上快速演进且日趋多元的人工智能生态步伐。对于各类通用AI系统而言，理解并预测其性能已成为当务之急。"这一全新方法具备全面性与扩展性，有效弥补了传统AI评测在解释性与预测性方面的短板。

18项核心认知指标

此项研究由以下学者合力完成：巴斯克大学计算机科学教授、VRAIN研究员何塞·埃尔南德斯-奥拉略，ValgrAI UMI成员；巴斯克大学计算机科学高级讲师、VRAIN研究员费尔南多·马丁内斯-普卢梅德；巴斯克大学博士生亚埃尔·莫罗斯-达瓦尔及VRAIN研究员姜可欣；以及巴斯克大学ValgrAI与VRAIN博士生贝赫扎德·梅尔巴赫什。

本研究的核心并非测量整体正确率，而是提炼出一系列宽泛的能力维度，使得预测能力可迁移至未知任务。

新体系将大型AI语言模型面临的各类认知挑战归纳为18项关键指标，涵盖注意力、推理水平及任务特异性等要素。随后，系统依据各项任务对各指标的需求程度，对现实中的每个任务进行维度评分。通过让模型执行足够数量的已评分任务（按难度分级），即可生成模型的能力画像。

核心成果

研究团队运用ADeLe对多项AI性能基准展开评估，总结出四大核心发现：第一，现行AI性能基准并未测得其所欲测之内容，因其时常评估超出设计范畴的其他能力。第二，不同AI模型在各项能力上呈现出差异化的优劣格局，具体取决于模型规模、推理方式及模型家族。第三，新型ADeLe体系可精准解读并预判AI系统在特定新任务中的成败。最后，他们指出，关于AI模型是否具备推理能力的矛盾研究结果均有部分正确性，但指向不同层级的推理难度。部分现行AI性能测试仅需基础的问题解决能力，而另一些则要求高级逻辑、抽象思维及深厚的专业领域知识。

作者在成果总结中强调，"ADeLe呈现的最清晰图景是：推理模型（如OpenAI的o1）在逻辑与数学领域，以及理解用户真实意图等出人意料的方面，均展现出切实且可量化的进步。"

这篇题为"通用量表释放AI评估的解释力与预测力"的研究，由剑桥大学、瓦伦西亚理工大学、普林斯顿大学、卡内基梅隆大学、威廉玛丽学院的科研人员，以及微软研究院和自动化与机器人中心（CAR，CSIC-UPM）等机构的专家共同完成。

参考文献

Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026).

← 上一篇：娱乐圈风向突变？AI虚拟偶像即将批量登场下一篇：千问深度研究能力再升级：13万股票行情接入并免费开放 →