学术快讯 | AI 滥用倒逼高校评价体系革新
点击蓝字,关注我们
论文标题:Generative AI use and misuse call for assessment reform in higher education
论文译名:生成式 AI 的使用与滥用呼唤高等教育评估改革
作者信息:Igor Chirikov, Ivan Smirnov, René F. Kizilcec
期刊信息:Science
发表时间:2026 年 5 月 21 日
DOI:10.1126/science.aec5115
Abstract
关于生成式人工智能(GenAI)重塑高等教育的讨论已陷入严重对立。本研究基于美国 20 所顶尖公立研究型大学 95,513 名代表性学生的调研数据,并辅以间接估算学科作弊率的实验手段,弥补了既往研究样本匮乏及敏感行为难以量化的短板。研究揭示,GenAI 的利用与违规现象在不同学科及学生群体间存在显著差异。这些分布特征表明,高校亟需推行学科针对性的评估改革,而非采取“一刀切”的全面封禁或通用检测手段。
Introduction
GenAI 正使高校常规评估作为衡量学生能力的依据变得不可靠。尽管这些工具能通过个性化辅导与反馈助力学习,但也易沦为学生的“思维捷径”,诱使其将评估任务外包给 AI。由于 GenAI 能轻松生成文本、代码及音视频,它严重侵蚀了传统评估的有效性,进而动摇学术证书的公信力及社会对高校的信任。鉴于风险在不同学科及学生子群体中的分布不均,精准定位 GenAI 使用与滥用的集中区域,对制定有效对策至关重要。
Results
研究指出,GenAI 在学生群体中已广泛普及,但其采用频率及辅助作弊行为在学科分布及人口统计学特征上表现出显著差异。具体发现如下:
普及程度与学科差异:2023-2024 学年,三分之二的学生使用过 GenAI,其中 37% 的人保持定期(每月及以上)使用。STEM(科学、技术、工程和数学)领域的采纳率更高,例如计算机科学专业学生的定期使用率达 62%,而艺术类专业仅为 24%。
作弊行为发生率估算:在使用 GenAI 的学生中,约 9% 的人在明知违规的情况下,仍提交 AI 生成内容作为个人作业。值得注意的是,重度日活跃用户中的作弊比例高达 26%,远超月活跃用户的 7%。
作弊率的学科分布:整体而言,非 STEM 领域的预估作弊率高于 STEM 领域。细分学科看,经济学(17%)和新闻学(16%)作弊率较高,而生物学则是最低学科之一(5%)。
人口统计学差异:女性、少数族裔及低收入学生的 GenAI 定期使用率显著低于同龄人,凸显了技术资源获取层面的不平等隐患。
按学科学分的 GenAI 使用和作弊情况。蓝点显示基于直接问卷回复中,各群体内报告每月或更频繁使用生成式人工智能(GenAI)的学生比例(n=95,513)。橙点显示在报告曾使用过 GenAI 的学生群体中(n=61,509),基于列表实验推导出的 GenAI 辅助作弊行为的最大似然估计值。STEM 代表科学、技术、工程和数学。
Implications
研究结果表明,依赖传统的全面禁令及现有文本检测工具不仅效果有限,甚至可能因施加不平等负担而引发新的评估有效性危机。高校必须在学科层面推动评估改革,统筹学习保障、真实评估及培养学生负责任的 AI 使用能力等多重目标。短期策略可在特定学习成果上回归受控环境(如课堂测验、口试等),但长远来看,机构需明确可接受的 AI 使用边界,并通过重构作业机制(如要求记录过程、论证选择、批判 AI 输出等)来结构性地限制或引导性地融合 GenAI。此外,校方须致力于消除由性别、种族及经济地位造成的 AI 使用鸿沟,并强化师资培训,提升其在 AI 时代重构教学评估的实务能力。
方法总结
该研究于 2024 年 3 月至 8 月间,收集了美国 20 所主要公立研究型大学 95,513 名学生的代表性问卷数据。为精准估算各学科学生利用 GenAI 进行学术不端的比例,研究采用了间接提问技术——列表随机化实验。该方法允许受访者匿名回答敏感问题,有效降低了直接询问带来的社会期许偏差。调查中,受访学生被随机分为两组:对照组接收三条关于 GenAI 使用的非敏感陈述;实验组则接收相同的三条陈述,外加一条关于“明知违规却提交 AI 生成内容”的敏感陈述。受访者仅需报告符合自身情况的陈述数量,无需指明具体哪条。最终,通过最大似然法对比两组报告的数值差异,科学推算出参与 GenAI 辅助作弊的学生比例。
声明
本文内容及解读仅代表个人总结,所涉及的观点、理解和分析可能与原文存在差异。若存在不同理解或解释,以原文为准。欢迎各位读者参考原文,并根据实际情况进一步深入探讨。
关于我们
点击一次“在看”,