标签

AI检测与学术打假为何同时失灵?

发布时间:2026-06-01 20:44来源:微信阅读:4

文 | 丁毅超

AI时代的新伪科学

2026年春,中国学界接连发生两起轰动事件。科普博主耿同学单人多次举报多所名校青年杰青的论文数据造假,引发生命科学界剧烈震荡。同期,教育部指导全国高校全面推行毕业论文AIGC检测机制,规定学生论文必须通过AI生成内容筛查方可参与答辩。

两件事表面看一攻一守,前者追查学术不端,后者防范代写行为。但若深入观察,会发现二者底层逻辑高度相似。

先解析AIGC检测的本质。其原理并不复杂。人类写作时,用词具有不规则性,偶尔会选择不够“标准”但更生动的表达,或写出结构松散却语感自然的句子。而大语言模型的生成机制基于概率驱动,在每个位置都倾向于选择统计上最合理的下一个词。

举个直观例子:学生可能写“这个问题很麻烦”,而AI在相同语境下更可能输出“这一问题具有较高的复杂性”。后者语法更规范、逻辑更严密。AIGC检测系统的核心任务,正是捕捉这种过于工整的统计痕迹。它通过一系列指标评估文本偏离人类写作不规则性的程度,若论文在统计上过于接近模型输出分布,即被标记为疑似AI生成。

耿同学打假的核心方法在结构上与此完全一致,只是对象由文本转为数据。他核查的是论文数据中是否存在不自然的统计特征。如呈等差数列的实验数据、补充材料中数十组数据在小数点后两位完全一致等。这些痕迹之所以能揭露造假,是因为人为编造的数据与文本面临相同困境:人类对随机性的直觉本就薄弱。真实自然数据与人类写作都带有难以刻意模仿的不规则性,而伪造者无论多谨慎,终会在统计上留下过于整齐的指纹。

从这个角度看,两种检测实为同一件事:即在表面统计特征中寻找