AI辅助Angoff定标：一项非劣效验证

发布时间：2026-06-15 00:42阅读：10

效度，因而，是测验编制与评估中最核心的考量要素。

《教育与心理测验标准》（2014年版）

Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests.

Standards for educational and psychological testing（2014）.

传统Angoff方法需多位学科专家逐题判定“边界考生答对概率”，过程耗时且受限于专家资源。Brighton & Sussex医学院团队在Medical Teacher发表验证研究，评估三种AI方法能否在保障考试安全前提下，生成与人类专家相当的Angoff划界分。

验证旨在确认基于AI的Angoff估算在单最佳答案选择题中是否非劣于人类判断，同时确保流程不向外部AI平台泄露原始试题。

研究采用100道新编SBA试题，以4名教师平均Angoff评分作为人类基准。三种AI模型的预测结果如下：

三组AI估算与人类评分的均值差异均处于预设10%非劣效界内，95%置信区间全数落于界内。重复测量方差分析未显示显著差异（p=0.41）。整体分布高度吻合。

题目层面一致性。以±10个百分点为一致阈值：67题（67%）AI与人类完全一致；33题（33%）至少一个AI模型与人类存在分歧。分歧方向均衡：17题AI判定更严、16题AI判定更宽。

系统性分歧模式。在6道AI显著严于人类（即AI认为更难）和4道AI显著宽于人类（即AI认为更易）的题目中，AI模型将这两类题目均置于接近中等难度水平（约60%），未能复现人类专家对题目难度的排序。此系统性偏差提示：AI模型在捕捉需专业判断的细微难度差异方面存在盲区。

题目特征的预测价值。对历史1003道题的分析显示：可读性负担与选项间语义相似度同Angoff评分显著负相关；更难题目（Angoff<50%）更常出自妇产科、血液科、眼科、肾内科及精神科；更易题目（Angoff>70%）更多源于心内科、急症医学、皮肤科和儿科。

安全离线特征提取。本研究最大方法论创新在于ExamFeats工具。该工具在离线环境中提取试题结构化表面特征（如题干词数、选项相似度、可读性指标、数值表达式数量、专科分类、题型分类等），仅发送非敏感特征至AI模型，绝不传输原始试题文本。

LLM模型（GPT-5）输入包含：边界考生描述 + 结构化特征数据 + 输出概率指令。温度设为0.0以确保输出确定性，每题重复24次取均值。ML模型基于岭回归在1003道历史试题上训练。混合模型以2:1比例融合ML与LLM预测。

边界考生描述构建。研究通过教师调查确立“Year-2边缘学生”的操作性定义，为AI提供明确参照框架。这是构建效度的关键步骤。

前瞻性验证设计。模型在历史题目上训练，于100道全新SBA上进行前瞻性验证，更贴近真实应用场景。

第一，人类参照标准仅由3-4位教师构成，面板规模偏小，参照标准本身可靠性有限。模拟研究显示，当题目超50道时，至少需15位评判者方能产生稳定Angoff切分线。小面板增加随机偏差风险。

第二，ExamFeats提取的是表面特征，可能遗漏决定感知难度的关键因素，如临床模糊性、指南特异性、概念整合要求。当AI面对临床背景熟悉但答案涉及特殊规则或例外情况的题目时，系统性高估难度。

第三，研究未评估AI划界分对整体考试通过/不通过决策的影响。群体层面准确不等同于个体层面安全。

第四，单中心、单一项目（英国PA项目）、单一年级的验证范围限制推广性。不同考试项目、题型、文化语境下的表现仍有待验证。

Stephenson E, Robinson S, Bascombe K, Okorie M. Secure AI-assisted Angoff standard-setting for single best answer questions: A non-inferiority validation study. Med Teach. 2026 Jun 11. DOI: 10.1080/0142159X.2026.2681212.

本研究核心贡献在于证明技术可行性：在不向外部AI暴露原始试题前提下，基于结构化特征的AI模型可在群体层面生成与小型专家面板相当的Angoff划界分。这对资源有限的小型考试项目具实际意义。

更值得关注的是方法论设计中的效度意识。研究者未简单用AI替代专家，而是构建多层验证框架：通过教师调查建立边界考生描述（内容效度），通过历史数据训练ML模型（内部结构证据），通过前瞻性非劣效设计检验与人类判断关系（与其他变量关系证据），并探讨AI划界分对考试决策潜在影响（后果证据）。

33%的题目层面分歧清晰划定AI适用边界：AI可提供群体层面高效基线估计，但不应替代题目层面专家判断。两者构成互补关系而非替代关系。

对于USMLE这类大规模标准化考试，本研究启示不在于建议立即采用AI划界分，而在于指出可行效率提升路径：用AI进行首轮划界分估计，将专家资源集中于AI分歧题目的人工复审，在保证效度前提下显著降低人力与时间成本。这是考试标准设定领域值得持续跟踪的方向。

本研究在Messick五类效度证据框架和Kane四环节论证框架中的定位：

医师为何需具备基于医疗系统的实践能力？

美国如何依胜任力导向确定医师执照考试内容？

ChatGPT可通过USMLE？官方回应来了！

医学高风险考试中选择题与简答题的实验性比较

患者诊疗结果是否为评价执照考试质量的良好校标？

Olle ten Cate：胜任力层级的三分法

《科举史》摘记：科举制度属中华优秀传统文化吗？

A Production of international

Medical Education & Assessment Newsletters

国际医学教育评价简报出品

助力医师成长，成就医师梦想！

国际医学教育评价简讯（international Medical Education & Assessment Newsletters）由医学考试从业者/爱好者维护的个人公众号，旨在通过遴选和分享国际医学教育和医师评价简讯，促进医学考试领域科学研究与理论实践。愿与同仁携手，助力医师成长，成就医师梦想！

← 上一篇：全球 AI 变局：五大风向标揭示未来走向下一篇：AI免费时代落幕：Anthropic率先转向付费模式，OpenAI与Google或跟进 →