顶会论文遭AI幻觉反噬:虚假引用成隐忧
2026年1月,一篇提交至ACL 2026的论文在学术界引发轩然大波。
该研究并未提出新算法,也未刷新SOTA记录。它完成了一项极具冲击力的任务:对过去两年ACL系列会议(ACL/NAACL/EMNLP)的1.7万余篇论文展开学术审查,揭露了近300篇存在虚假引用的文章。
更具讽刺意味的是,刚刚落幕的EMNLP 2025正是此类幻觉引用的高发区。主会每40篇论文中就有1篇中招,比例高达2.6%。
由AI生成的幻觉引用,已开始对顶级会议论文形成反噬。
所谓幻觉引用(HalluCitation),并非普通引用错误,而是彻底虚构。
一个典型的幻觉引用示例如下:
"Anticipated for"这一短语暴露了其生成痕迹,这是大模型编造引用时惯用的表达。作者Smith、Johnson、Brown或许是真实研究者,但他们从未撰写过该论文。
还有更隐蔽的情况。部分幻觉引用会伪造看似真实的arXiv ID,例如arXiv:2401.12345,格式完全合规,但实际在arXiv上根本不存在。
这并非学术不端,而是AI的“创作”。
大模型在生成引用时,会依据上下文合理编造故事。若要求生成一段关于神经语言理解的相关工作,它会虚构几篇听起来专业严谨的论文,作者名、标题、年份均似曾相识,但现实中并不存在。
而许多作者因赶截止日期,看到格式正确、语境通顺,便直接采用。
《HalluCitation Matters》的作者团队来自日本奈良先端科学技术大学院大学(NAIST),他们构建了一套完整的自动化检测流程:
结果令人震惊。
从时间线看:2024年初,幻觉引用尚属偶发。但进入2025年,尤其是下半年,数量急剧上升。这与大模型辅助写作工具在学术界的普及节奏高度吻合。
从会议分布看:EMNLP 2025是重灾区。
EMNLP 2025主会的幻觉率是其他会议的十倍以上。更令人讽刺的是,主会的幻觉率(2.60%)竟是Findings(0.82%)的三倍。
这说明了什么?
即便经过三位审稿人和一位领域主席(AC)层层把关,最终录用的优质论文中,每40篇仍有一篇的参考文献完全是虚构的。
审稿机制在面对AI生成的似是而非内容时,已显现出系统性失效。
NAIST团队对这300篇涉事论文标题进行词频分析,生成的词云图充满黑色幽默。
出现频率最高的词:大语言模型(Large Language Models)、推理(Reasoning)、多模态(Multimodal)。
那些高谈阔论推理、大模型、多模态的论文,自身却未做最基本的核查,连参考文献是否存在都未确认。
这反映出一种典型的投机心理。在热点赛道极度内卷的背景下,大量研究者借助AI工具进行快速甚至全自动写作。当作者自身都不阅读自己的参考文献时,幻觉便堂而皇之地混入正文。
更值得注意的是,研究发现,包含幻觉引用的论文,审稿得分普遍偏低。
这意味着,即使审稿人未直接识别出假引用,他们潜意识中也能感知这些文章质量平庸。但即便如此,仍有大量此类论文通过了EMNLP的门槛。
这本身就是对会议接收标准的一次拷问。
这篇论文最具杀伤力的地方,不在于数据本身,而在于其展示数据的方式。
在附录B中,作者直接列出了300篇涉事论文的ID、标题及具体幻觉引用内容。
尽管作者在文中表示无意针对个人,但这种高透明度的列表,使任何人都能在几秒钟内检索到具体论文和作者。
更有趣的是论文的参考文献列表。作者将这300篇涉事论文全部纳入参考文献。
这意味着什么?
学术圈通用的引用提醒机制将发挥作用。当涉事作者收到系统发送的新引用通知时,他们将直接看到自己的论文出现在这篇探讨幻觉引用的研究中。
这不仅是打假,更是一次学术界的“贴脸开大”。
而且,这篇论文本身正是投给ACL 2026的。
现在,压力来到了ACL 2026组委会和审稿人这边。若拒收该论文,理由会是什么?攻击性太强?不符合会议主题?任何拒稿理由在这一长串实锤数据面前,都可能被解读为掩耳盗铃。
但若接收,则等于官方承认EMNLP 2025作为“重灾区”的事实,承认同行评审机制在过去两年存在巨大漏洞。
无论结果如何,NAIST团队的这一操作已赢得胜利。
它迫使每位正在撰写或准备投稿的研究者,重新打开自己的.bib文件,逐行检查那些曾看都不看就复制粘贴的引用。
作者也展现了严谨态度。他们发现,并非所有幻觉引用都源于作者使用ChatGPT随意编造。
有些问题出在Google Scholar自身被污染。
Google Scholar会收录一些预印本、会议摘要,甚至学生作业,这些内容本身可能包含错误或虚构引用。当研究者使用Google Scholar的“一键引用”功能时,无意中引入了错误。
还有一些问题出在BibTeX管理工具(如Zotero、Mendeley)。这些工具在抓取元数据时,可能因网页解析错误、数据库不一致等原因,生成错误的引用信息。
作者将这些情况归类为非主观幻觉引用,并在论文中进行了细致分析:
这种客观分析为论文增添了一层厚度。
它不仅指责造假者,更指出整个学术基础设施(从写作工具到索引数据库)在AI时代的脆弱性。
AI生成的幻觉引用,已非个别现象,而是系统性问题。
根源并非“学术不端”,而是“赶deadline + 用AI + 未核实”。
这一流程极为常见:
问题在于,BibTeX文件往往在最后才整理,最少被人工逐条点开。于是这些“定时炸弹”便被直接提交并永久存档。
而AI一旦出错,便会合理编造故事。
更深层的问题是,当AI能帮我们生成一切时,真实性正成为学术界最昂贵也最稀缺的硬通货。
审稿机制在面对AI生成的似是而非内容时,已显现出系统性失效。审稿人默认参考文献真实,不会逐条点击每个链接、检查每个DOI。
那该怎么办?
如果BibTeX只有十几条,或许还能手动逐条核查。但现实往往是:50条、100条,甚至几百条,混着AI生成和Zotero导出,年份、作者、标题稍有偏差便难以察觉。
这类工作本质上是机械校验,非常适合交由工具完成首轮筛查。
最近我看到有人使用WisPaper的True-Cite功能(https://wispaper.ai/agents/true-cite),这是一个专门用于校验BibTeX引用真实性的工具。
其逻辑非常简单:
整个过程无需代码,几分钟即可跑完一份中等规模的Bib文件。
一个建议的自查流程:
这一步不会提升论文质量,但能显著降低学术风险。
AI写作已是现实,不用AI并非解决方案。
真正重要的是,你是否在关键节点进行了必要校验。
在AI时代,主动检查引用,不是心虚,而是专业。
参考文献:
Takashi Kodama, Naoya Yamaguchi, Mamoru Komachi. (2026). HalluCitation Matters: Revealing the Impact of Hallucinated References with 300 Hallucinated Papers in ACL Conferences. arXiv preprint arXiv:2601.18724.
说明:
本文讨论的问题不仅限于NLP领域。任何使用AI辅助写作的学科,都可能面临类似风险。如果你的文献管理中有哪怕一条是AI生成的,建议立即核查。