AI论文表面光鲜难掩造假?117篇测试揭露惊人真相

发布时间：2026-05-21 14:12阅读：14

你是否曾在深夜赶稿时畅想过：

如果AI能全程代劳写论文该有多好？

好消息是，已经有人替你尝试验证了。

坏消息是，结果令人沮丧——甚至可以说，颠覆认知。

就在上周（5月18日），康奈尔大学研究团队发布了一篇重要论文：《How Far Are We From True Auto-Research？》。他们采用最直接的方法，将三款当前最强大的AI Agent——Claude Code（Opus 4.6）、Codex（GPT-5.4）、Kimi Code（K2.5）——放入名为ResearchArena的「科研竞技场」，让它们独立完成整个科研流程。

从确定课题到开展实验，从撰写论文到自我修订，四个环节全部交由AI处理，人类只提供了最基础的方向引导。

最终产出了117篇论文，涵盖13个计算机科学领域，范围从NLP到操作系统设计，从生成模型到编译器优化。

结论一句话：看似能通过审查，深入验证全是问题。

一、表象优秀：AI论文评分竟然与真人水平相当？

先说积极的一面，因为它很有限。

研究团队首先采用了一个名为SAR（Stanford Agentic Reviewer）的自动化评审工具，仅审阅论文正文——即不查看代码、不检查实验记录、不验证数据

← 上一篇：AI营销行业新机遇：2026年中国市场趋势分析下一篇：AI液冷核心供应图谱 →