标签

AI辅助Angoff定标:一项非劣效验证

发布时间:2026-06-15 00:42阅读:1

效度,因而,是测验编制与评估中最核心的考量要素。

《教育与心理测验标准》(2014年版)

Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.

Standards for educational and psychological testing(2014).

传统Angoff方法需多位学科专家逐题判定“边界考生答对概率”,过程耗时且受限于专家资源。Brighton & Sussex医学院团队在Medical Teacher发表验证研究,评估三种AI方法能否在保障考试安全前提下,生成与人类专家相当的Angoff划界分。

验证旨在确认基于AI的Angoff估算在单最佳答案选择题中是否非劣于人类判断,同时确保流程不向外部AI平台泄露原始试题。

研究采用100道新编SBA试题,以4名教师平均Angoff评分作为人类基准。三种AI模型的预测结果如下:

三组AI估算与人类评分的均值差异均处于预设10%非劣效界内,95%置信区间全数落于界内。重复测量方差分析未显示显著差异(p=0.41)。整体分布高度吻合。

题目层面一致性。以±10个百分点为一致阈值:67题(67%)AI与人类完全一致;33题(33%)至少一个AI模型与人类存在分歧。分歧方向均衡:17题AI判定更严、16题AI判定更宽。

系统性分歧模式。在6道AI显著严于人类(即AI认为更难)和4道AI显著宽于人类(即AI认为更易)的题目中,AI模型将这两类题目均置于接近中等难度水平(约60%),未能复现人类专家对题目难度的排序。此系统性偏差提示:AI模型在捕捉需专业判断的细微难度差异方面存在盲区。

题目特征的预测价值。对历史1003道题的分析显示:可读性负担与选项间语义相似度同Angoff评分显著负相关;更难题目(Angoff<50%)更常出自妇产科、血液科、眼科、肾内科及精神科;更易题目(Angoff>70%)更多源于心内科、急症医学、皮肤科和儿科。

安全离线特征提取。本研究最大方法论创新在于ExamFeats工具。该工具在离线环境中提取试题结构化表面特征(如题干词数、选项相似度、可读性指标、数值表达式数量、专科分类、题型分类等),仅发送非敏感特征至AI模型,绝不传输原始试题文本。

LLM模型(GPT-5)输入包含:边界考生描述 + 结构化特征数据 + 输出概率指令。温度设为0.0以确保输出确定性,每题重复24次取均值。ML模型基于岭回归在1003道历史试题上训练。混合模型以2:1比例融合ML与LLM预测。

边界考生描述构建。研究通过教师调查确立“Year-2边缘学生”的操作性定义,为AI提供明确参照框架。这是构建效度的关键步骤。

前瞻性验证设计。模型在历史题目上训练,于100道全新SBA上进行前瞻性验证,更贴近真实应用场景。

第一,人类参照标准仅由3-4位教师构成,面板规模偏小,参照标准本身可靠性有限。模拟研究显示,当题目超50道时,至少需15位评判者方能产生稳定Angoff切分线。小面板增加随机偏差风险。

第二,ExamFeats提取的是表面特征,可能遗漏决定感知难度的关键因素,如临床模糊性、指南特异性、概念整合要求。当AI面对临床背景熟悉但答案涉及特殊规则或例外情况的题目时,系统性高估难度。

第三,研究未评估AI划界分对整体考试通过/不通过决策的影响。群体层面准确不等同于个体层面安全。

第四,单中心、单一项目(英国PA项目)、单一年级的验证范围限制推广性。不同考试项目、题型、文化语境下的表现仍有待验证。

Stephenson E, Robinson S, Bascombe K, Okorie M. Secure AI-assisted Angoff standard-setting for single best answer questions: A non-inferiority validation study. Med Teach. 2026 Jun 11. DOI: 10.1080/0142159X.2026.2681212.

本研究核心贡献在于证明技术可行性:在不向外部AI暴露原始试题前提下,基于结构化特征的AI模型可在群体层面生成与小型专家面板相当的Angoff划界分。这对资源有限的小型考试项目具实际意义。

更值得关注的是方法论设计中的效度意识。研究者未简单用AI替代专家,而是构建多层验证框架:通过教师调查建立边界考生描述(内容效度),通过历史数据训练ML模型(内部结构证据),通过前瞻性非劣效设计检验与人类判断关系(与其他变量关系证据),并探讨AI划界分对考试决策潜在影响(后果证据)。

33%的题目层面分歧清晰划定AI适用边界:AI可提供群体层面高效基线估计,但不应替代题目层面专家判断。两者构成互补关系而非替代关系。

对于USMLE这类大规模标准化考试,本研究启示不在于建议立即采用AI划界分,而在于指出可行效率提升路径:用AI进行首轮划界分估计,将专家资源集中于AI分歧题目的人工复审,在保证效度前提下显著降低人力与时间成本。这是考试标准设定领域值得持续跟踪的方向。

本研究在Messick五类效度证据框架和Kane四环节论证框架中的定位:

医师为何需具备基于医疗系统的实践能力?

美国如何依胜任力导向确定医师执照考试内容?

ChatGPT可通过USMLE?官方回应来了!

医学高风险考试中选择题与简答题的实验性比较

患者诊疗结果是否为评价执照考试质量的良好校标?

Olle ten Cate:胜任力层级的三分法

《科举史》摘记:科举制度属中华优秀传统文化吗?

A Production of international

Medical Education & Assessment Newsletters

国际医学教育评价简报出品

助力医师成长,成就医师梦想!

国际医学教育评价简讯(international Medical Education & Assessment Newsletters)由医学考试从业者/爱好者维护的个人公众号,旨在通过遴选和分享国际医学教育和医师评价简讯,促进医学考试领域科学研究与理论实践。愿与同仁携手,助力医师成长,成就医师梦想!