AI审稿表现惊艳!AAAI-26 2.3万篇论文实测,人类竟不如它
-定制专属模型就像打开浏览器一样简单-
顶会投稿量激增近一倍,AI仅用不到一天便完成了2.3万篇论文的审阅,学者评价:它比人类审稿更出色
试想一下,如果你投递的顶会论文将由AI来把关,你的感受会是怎样?
这并非天方夜谭。2026年4月15日,AAAI协会年会发布了一份重磅报告:AAAI-26首次大规模引入AI辅助审稿机制,涵盖22,977篇投稿,每一篇都获得了AI生成的专业评审。
结果令人意外——参与调研的学者们不仅认可AI审稿的价值,更在多个核心指标上,倾向于认为AI评审优于人类评审。
过去两三年,大模型已融入许多人的工作生活,但在专业领域,模型往往难以精准应答。微调成为了解决之道,但传统方式门槛过高。如今,定制专属模型变得前所未有的简单。
1
为何需要AI介入审稿?
因为人工实在无法招架
AAAI-26的初始投稿量突破3万份,进入评审流程的达22,977篇,这一数字几乎是2025年的两倍。投稿量翻倍意味着需要更多审稿人,而AAAI-26招募的审稿人数量也增加了近三倍。在巨大的压力下,传统的同行评审体系面临严峻考验,AI辅助审稿试点项目应运而生。
2
AI是如何完成审稿的?
一套专业高效的流水线系统
你可能以为AI审稿只是简单的聊天生成,实则不然。研究团队构建了一套多阶段、多工具的AI审稿流水线。
第一步:论文预处理
系统将PDF图像重采样至250 DPI,利用OCR工具将论文转换为Markdown格式,保留LaTeX公式与表格结构,以便AI“读懂”论文。
第二步:五个核心评审维度
评审任务被拆解为五个专业阶段,每个阶段配备专属提示词。评估与正确性阶段利用Python解释器验证代码与数学推导,重要性阶段则调用网络搜索工具查询相关文献。
第三步:自我批评与最终修订
生成初步评审后,系统会自我纠错,检查是否存在无据主张或前后矛盾,并据此修订生成最终评审。
该系统基于OpenAI GPT-5模型,上下文窗口达40万Token,在不到24小时内处理了全部2.3万篇论文,单篇成本不足1美元。
3
AI审稿效果如何?数据揭示了意外结果
为了评估效果,AAAI-26对作者、审稿人及委员会进行了大规模调查。结果显示,AI在9项评估标准中,有6项得分高于人类,包括技术错误识别、提出新视角、改进建议、研究设计优化及整体全面性。
调查还显示,超半数受访者认为AI评审有用,且超五成受访者对AI表现超出预期感到惊喜。在SPECS基准测试中,AI也展现了强大的弱点识别能力。
这说明:架构设计比单纯追求模型大小更为关键。
4
AI并非要取代人类——人类依然是决策核心
有人担心AI会抢走审稿人的饭碗,但AAAI-26明确表示,该项目旨在辅助而非替代。AI评审仅作为第一阶段审稿的补充,与至少两位人类评审并行,且不包含分数或推荐意见,仅提供分析性反馈。最终决策权完全掌握在人类专家手中。
项目负责人指出,AI旨在提供额外输入,而非取代人类判断。学者们也普遍认为,未来将是人机协同审稿的时代。
5
AI审稿的局限性:
见树不见林
当然,AI审稿并非完美无缺。受访者认为,AI更易过分强调次要问题,生成的评审偏长,且在评估新颖性和重要性方面仍逊于人类。此外,复杂格式解析偶尔会出现错误,偶有不切实际的建议。
正如一位受访者所言:“AI帮我发现了实验细节问题,但判断问题严重程度仍需我亲自把关。”
简而言之,AI能细致检查每一棵树,却可能忽略森林的全貌。这正是人机协同的价值所在。
6
这项实验有何意义?
AAAI-26的AI审稿试点是学术评审史上的里程碑。它证明了在真实会议规模下,AI系统已能生成可靠且有用的评审意见,破解了投稿激增与审稿人短缺的困局。同时,它也划定了边界:AI是助手而非替代者。
正如报告所述:“最先进的AI方法已能为会议规模的同行评审做出有意义的贡献,为下一代协同人机团队合作开辟了道路。”
人机协同的评审时代,正在到来。