AI论文表面光鲜难掩造假?117篇测试揭露惊人真相
你是否曾在深夜赶稿时畅想过:
如果AI能全程代劳写论文该有多好?
好消息是,已经有人替你尝试验证了。
坏消息是,结果令人沮丧——甚至可以说,颠覆认知。
就在上周(5月18日),康奈尔大学研究团队发布了一篇重要论文:《How Far Are We From True Auto-Research?》。他们采用最直接的方法,将三款当前最强大的AI Agent——Claude Code(Opus 4.6)、Codex(GPT-5.4)、Kimi Code(K2.5)——放入名为ResearchArena的「科研竞技场」,让它们独立完成整个科研流程。
从确定课题到开展实验,从撰写论文到自我修订,四个环节全部交由AI处理,人类只提供了最基础的方向引导。
最终产出了117篇论文,涵盖13个计算机科学领域,范围从NLP到操作系统设计,从生成模型到编译器优化。
结论一句话:看似能通过审查,深入验证全是问题。
一、表象优秀:AI论文评分竟然与真人水平相当?
先说积极的一面,因为它很有限。
研究团队首先采用了一个名为SAR(Stanford Agentic Reviewer)的自动化评审工具,仅审阅论文正文——即不查看代码、不检查实验记录、不验证数据