arXiv重拳整治AI造假:一年禁投,全员连坐
据《自然》杂志消息,预印本服务器 arXiv 近期发布新规:一旦发现投稿中包含由人工智能(AI)工具编造的参考文献,涉事作者将被禁止在该平台投稿,禁期为一年。若确凿证据显示作者使用了生成式 AI 却未对稿件进行严谨核查,同样适用此禁令。
美国俄勒冈州立大学计算机科学家、arXiv 计算机科学部负责人 Thomas Dietterich 指出,一年处罚期结束后,除非该作者的研究成果已被“信誉卓著的同行评议期刊”正式录用,否则仍不得在 arXiv 上发布任何手稿。
Thomas Dietterich 在其个人社交媒体上进一步强调,“无论论文内容源自何处,凡在论文上署名的作者,都必须对论文的全部内容负全责。”
arXiv 此次行动是预印本平台应对日益猖獗的 AI“垃圾内容”的又一亮剑。所谓 AI“垃圾内容”,是指利用生成式 AI 生成的低质或无意义内容。这一举措在社交网络上引发了科研人员的广泛讨论。
尽管科学家们正越来越频繁地利用大语言模型来完成文献综述等多项任务,arXiv 的新规仍赢得了众多研究人员的支持。德国 AI 初创企业 sci2sci 联合创始人 Valeri Kremnev 称赞此举“非常棒”,并期待相关行动能更彻底地打击垃圾内容。
然而,并非所有人都认为此举完全正确。专注于利用 AI 辅助同行评议的平台 Reviewer3 创始人 Natalie Khalil 认为,arXiv 的措施仅能治标。“若一名研究人员被 arXiv 封杀,他仍可继续做研究,只是换个平台发表而已。”
对此,Dietterich 回应称,各平台需携手合作,共同剔除大语言模型生成的错误参考文献及其他问题内容。“一名不负责任的研究者或许会在别处发表劣质研究,但这绝不能成为允许其在 arXiv 上发布这些内容的理由。”
Dietterich 表示,尽管 arXiv 此前已针对多种违规行为实施过处罚,但直到最近才针对不当使用生成式 AI 制定了规范化应对方案,旨在震慑此类行为。在他看来,当前研究人员过度信赖大语言模型,未花足够时间分析模型生成的结果。他还指出,部分此类 AI 生成内容出自论文工厂。
Dietterich 指出,AI“垃圾内容”在 arXiv 的计算机科学板块最为泛滥。该板块的论文量约占该平台总投稿量的一半。“该领域的作者既是大语言模型技术的早期采用者,也是早期的滥用者。”
其他预印本平台同样饱受 AI“垃圾内容”困扰。例如,美国开放科学中心于去年 10 月关闭了其预印本平台 OSF Preprints,原因是大量低质量投稿涌入,其中许多属于 AI“垃圾内容”。部分平台与 arXiv 一样采取了“封禁”策略,如心理学预印本平台 PsyArXiv 对未披露大量使用生成式 AI 的作者实施永久封禁;社会学预印本平台 SocArXiv 也永久封禁了提交 AI 生成垃圾论文的作者。
Dietterich 认为,随着生成式 AI 最终可能不再“胡言乱语”,其产出的论文将与真正的研究论文愈发难以区分。“届时,我们或许需要一些能证明作者确实开展了实验的方法。”