标签

AI当第一作者后,最诚实的竟是那5篇标注论文

发布时间:2026-06-27 02:17阅读:3

AI当第一作者后,我们发现,最诚实的反而是那5篇标注论文

CONTENTS

01到底发生了什么

02不是技术突破,是制度事件

03最诚实的,反而是标注的那5篇

04工序重组:分工边界正在被重新划定

05AI做出了一个反直觉的发现

06冰山之下

07更深的暗线:知识一旦发表,就成了自身被替代的原材料

08收束

PART 01 · WHAT HAPPENED

到底发生了什么

2026年6月25日,知网上出现了一组不太寻常的论文。

《华东师范大学学报(教育科学版)》,北大核心加CSSCI双认证的C刊,刊发了8篇论文。其中5篇的第一作者,不是人。

是AI。

DeepSeek写了一篇教师轮岗政策的多智能体模拟,Gemini 3 Pro分析了12824条学习者与AI的多轮对话,另一个Gemini做了AI融入教育科研的元研究,一个叫"Generative AI Assistant"的通用署名研究了教育改革观点的演化机制,DeepSeek V3.2用86237名学生的数据证明了一件事——"最优学习风格"不存在。

5篇AI一作,3篇人类学者的反思报告。

KEY FIGURES

724篇有效投稿

1,177名人类作者

9个国家参与

100+种AI工具(DeepSeek占三成以上)

每篇附《AI生成内容说明表》,强制披露

这不是偷偷摸摸的实验。从2025年9月发起,到2026年3月成果发布,再到8月正式刊出,全程公开透明。

简单说,这是一次有组织、有规则、有记录的制度测试。

华东师大副校长雷启立的定位很明确:这不是为了用机器替代学者,而是一次真实场景下的压力测试——在极限条件下暴露问题。

那么,暴露了什么?

PART 02 · INSTITUTIONAL EVENT

不是技术突破,是制度事件

先说一个容易混淆的事:AI能写论文,不是新闻。

2023年就有学者用GPT-4生成完整论文草稿。2026年,美国东北大学教授David Lazer实测:依托百万级公共调研数据库,大模型一小时就能生成一篇28页的完整学术论文——文献综述、数据制表、图表绘制,全流程自动完成。

AI能写论文这件事,早就不是"能不能"的问题了。

这次的重点不在于"AI写出了论文",而在于"C刊正式把第一作者的位置让给了AI"。

这是两件完全不同的事。

前者是技术事实——AI有这个能力。后者是制度事实——学术共同体公开承认了这个能力,并且给它安排了一个正式的位置。

两种最常见的误读,恰好都错过了这个关键点。

一种说"这是技术突破"——不是。AI写论文的能力早就具备了,这次没有技术上的飞跃。一种说"这是学术造假"——也不是。每篇论文都标注了AI参与环节,强制披露,全程透明,恰恰是最不"造假"的做法。

真正值得注意的,是这个制度动作本身:一本C刊,在知网上,把"第一作者"四个字,写在了AI的名字旁边。

PART 03 · THE HONEST FIVE

最诚实的,反而是标注的那5篇

说一个可能反直觉的判断:这5篇标注了AI一作的论文,可能是当下学术界最诚实的案例。

为什么?

因为AI深度参与科研,早就不是新鲜事了。只不过,大部分AI参与,藏在你看不见的地方——致谢里一行小字"感谢AI工具辅助语言润色",方法部分一句轻描淡写的"使用AI辅助数据分析",或者干脆什么都不说。

没有人知道,此刻正在审稿的某篇论文里,AI到底参与了多少。也没有制度要求作者必须交代这件事。

而华东师大这次实验,做了一件不一样的事:不是偷偷用,而是公开标;不是含糊其辞,而是强制披露每篇论文的AI参与环节,甚至让AI坐上第一作者的位置。

这才是真正的诚实——不是"我没用",而是"我用了,我告诉你我用了哪里"。

真正值得担心的,从来不是光明正大的"AI一作"。而是那些用了AI、却一字不提的论文。你不知道有多少,我也不知道。但它们正在被投稿、被审稿、被发表。

全球已记录超1600起律师引用AI虚假判例的事件——仅美国就超过1100起。律师行业尚且如此,学术圈呢?律师引用假判例,至少还有对方律师和法官来纠错。论文里的AI痕迹,谁来查?

标注了AI一作的5篇论文,至少让你知道:这里面有AI,你可以带着这个前提去评判它。而那些什么都没标的,你连评判的起点都没有。

PART 04 · DIVISION OF LABOR

工序重组:分工边界正在被重新划定

科研是一条流水线。

选题、查文献、设计研究、收集数据、跑分析、写初稿、解释结果、下结论、为结论负责——每一个环节,对应不同的能力和判断。

这条流水线上,AI正在接管的部分越来越清晰:数据处理、仿真模拟、文献整理、初稿撰写。这些环节有一个共同特征——有明确的输入输出,有可量化的质量标准,有可自动化的操作路径。

人类目前还在坚守的部分,也有一个共同特征——需要价值判断。提出什么问题值得研究,研究结果意味着什么,结论的边界在哪里,以及最关键的:谁为结论负责。

AI 接管

数据处理 · 仿真模拟 · 文献整理 · 初稿撰写

—— "怎么做"

人类坚守

选题 · 解释结果 · 下结论 · 为结论负责

—— "做什么"和"为什么"

8篇论文的构成,恰好印证了这个分工。5篇AI一作,做的是"怎么做"的事——模拟、分析、建模、验证。3篇人类学者的反思报告,写的是"为什么做"和"做意味着什么"——袁振国写的是智能时代科研新范式的探索,张治写的是这场实验的全景报告,胡岩写的是反思。

5篇做实验,3篇写意义。

实验发起人袁振国给过一个评分:如果把最优秀的论文定义为100分、达到发表水平的定义为80分,那么这次724篇投稿中,大部分得分在40到80分之间,少数接近90分。人机协同写作的平均水平超过了人类单独作者的平均水平——但还达不到人类最优秀的水平。

AI在"怎么做"这件事上,已经够用了。在"做什么"和"为什么"上,它还在追赶。但"追赶"这个词,本身就值得多想一步。

PART 05 · COUNTERINTUITIVE FINDING

AI做出了一个反直觉的发现

5篇AI一作论文里,有一篇值得单独说。

DeepSeek V3.2,论文标题直接把结论写在脸上:《"最优学习风格"不存在——大规模学习分析证明AI定制化教学无法超越通用优质教学》。

EXPERIMENT DATA

86,237名学生纵向数据

双重机器学习模型 + 因果森林算法

AI定制化教学平均处理效应 =0.01个标准差

p值 =0.51(无统计学显著性)

异质性分析:不存在任何特定群体获得额外增益

简单说:AI给你量身定制的学习方案,效果和优质通用教学没有本质区别——白忙活。"个性化即有效"这个AI教育领域的主流叙事,被AI主导的数据分析打了一巴掌。

这个发现,不是人类提出的假设让AI去验证。是AI在数据分析的过程中,得出一个和主流预期相反的结论。

组委会的评价是:以大规模实证数据挑战了AI教育领域"个性化即有效"的主流叙事,学术贡献突出。

一个AI,做出了一个能上C刊的真发现。它不是在执行人类的指令,而是在数据中找到了一个人类可能不会去找、或者不愿意面对的答案。

如果AI不只是工具,而是在生产新知识——那"工序重组"的叙事,可能还不够。

PART 06 · BELOW THE SURFACE

冰山之下

华东师大选择了公开透明——但大多数期刊没有这个选择。

管理学顶刊《Organization Science》在ChatGPT上线后,收稿量暴涨42%。稿件增量几乎全部来自AI辅助创作。2026年2月的最新数据:该刊当期来稿摘要中,近三分之一为完全或高比例AI生成内容,另有四成稿件掺杂部分AI文本。

Organization Science

投稿量暴涨42%

增量几乎全部来自AI辅助创作

人写的论文,增量接近于零

这还只是一本期刊。行业预判:本年度顶级政治学期刊投稿量可能上涨50%。心理学权威预印本平台PsyArXiv已经因为稿件暴增,不得不加回人工关卡——一个学术预印本平台,被逼到新增前置人工初审环节,这在它的历史上是第一次。

面对这样的趋势,各高校的态度是分裂的。有的明确收紧——香港大学规定AI生成内容需严格标注