AI检测与学术打假为何同时失灵？

发布时间：2026-06-01 20:44阅读：13

文 | 丁毅超

AI时代的新伪科学

2026年春，中国学界接连发生两起轰动事件。科普博主耿同学单人多次举报多所名校青年杰青的论文数据造假，引发生命科学界剧烈震荡。同期，教育部指导全国高校全面推行毕业论文AIGC检测机制，规定学生论文必须通过AI生成内容筛查方可参与答辩。

两件事表面看一攻一守，前者追查学术不端，后者防范代写行为。但若深入观察，会发现二者底层逻辑高度相似。

先解析AIGC检测的本质。其原理并不复杂。人类写作时，用词具有不规则性，偶尔会选择不够“标准”但更生动的表达，或写出结构松散却语感自然的句子。而大语言模型的生成机制基于概率驱动，在每个位置都倾向于选择统计上最合理的下一个词。

举个直观例子：学生可能写“这个问题很麻烦”，而AI在相同语境下更可能输出“这一问题具有较高的复杂性”。后者语法更规范、逻辑更严密。AIGC检测系统的核心任务，正是捕捉这种过于工整的统计痕迹。它通过一系列指标评估文本偏离人类写作不规则性的程度，若论文在统计上过于接近模型输出分布，即被标记为疑似AI生成。

耿同学打假的核心方法在结构上与此完全一致，只是对象由文本转为数据。他核查的是论文数据中是否存在不自然的统计特征。如呈等差数列的实验数据、补充材料中数十组数据在小数点后两位完全一致等。这些痕迹之所以能揭露造假，是因为人为编造的数据与文本面临相同困境：人类对随机性的直觉本就薄弱。真实自然数据与人类写作都带有难以刻意模仿的不规则性，而伪造者无论多谨慎，终会在统计上留下过于整齐的指纹。

从这个角度看，两种检测实为同一件事：即在表面统计特征中寻找

← 上一篇：618购物节：AI全面渗透新变局下一篇：欧洲AI领军企业Mistral获宝马与空客大单 →