PRPER特刊:AI工具在物理教学与研究中的多元应用
童大振按:2023年12月,《Physical Review Physics Education Research》期刊发布了关于人工智能工具在物理教学及教育研究领域应用的征稿启事。截至目前(2026年5月6日),该专刊已收录13篇相关学术文章。期刊负责人于今年3月对已发表的12篇文章(另有一篇于4月发表)进行了梳理和总结。本文即是对该总结的提炼与解读。
在此之前,我们的团队也已从“教学、评价、研究”三个维度对这12篇论文进行了分类归纳,成果已于5月份刊载于《中学物理》期刊,待上传至知网后将与大家分享。
论文链接:https://doi.org/10.1103/PhysRevPhysEducRes.22.010001
论文格式:
Küchemann S,Kuhn J. Editorial: Focused Collection: Artificial Intelligence Tools in Physics Teaching and Physics Education Research[J].Physical Review Physics Education Research, 2026, 22(1): 010001.
近年来,人工智能(AI)在物理教育研究领域的焦点发生了显著转变。早期研究侧重于AI在物理问题求解及数据处理方面的能力,而现阶段则更深入地关注学习者的个体需求、教师在教学实践中遇到的挑战以及教育的根本目标。美国物理学会《Physical Review Physics Education Research》(PRPER)期刊于2026年推出的AI专题合集,汇聚了全球众多物理教育与AI专家的最新研究成果。本文将系统性地梳理该合集的核心发现、主要应用方向、现有局限性以及未来的研究议程。
一、研究重心的演变:
从“AI的能力”转向“AI如何促进教育”
近五年来物理教育AI研究的发展轨迹清晰地展现了从“技术驱动”到“教育导向”的核心迁移。早期研究集中于AI的基础功能实现,例如学习数据预测、学习者行为识别、作业自动批改等;而当前的研究则全面转向生成式人工智能与物理教学全过程的深度整合,不再局限于“AI能完成什么任务”,而是更关注“AI如何有效地支持学生发展、减轻教师负担、并优化教学循环”。
当前研究的焦点集中在以下四大关键问题,这些问题也将是未来物理教育AI发展的核心方向:
✅ AI在何时能提供有效的帮助?
✅ AI可能带来哪些新型的教育风险?
✅ 如何科学地评估AI在物理教育中的可靠性?
✅ 哪种人机协作模式最适合物理教学与学习?
研究中涉及的AI技术与应用场景已基本覆盖了物理教学的“教学、学习、评估、练习、实验”等各个环节。
二、评估与评分:
AI助力大规模阅卷的可行途径
物理学科的评估方式多以手写、图表和符号为主,AI在此领域的关键在于流程的重塑。该专题合集明确了以下三大核心应用路径及具体操作要点。
手写物理试题的阅卷
Kortemeyer及其同事研究了AI在评估手写热力学考试答案方面的潜力。研究指出,当前的手写识别技术尚不能完全准确地转换所有手写内容,尤其在处理非标准格式或包含图形元素的情况下存在局限。建议采用“初步分类与精细校验”相结合的模式:AI首先完成基础的格式识别(如公式的正确性、步骤的完整性),然后由人工对复杂的图示和逻辑关联部分进行复核,以平衡效率与准确性。
文本推理过程的评分
Chen和Wan的研究表明,AI评分与人类评分者之间的一致性可以达到常规评分者间一致性的水平。这项研究的核心启示并非在于“AI能够评分”,而在于当评分任务设计具备可审计性时——即包含清晰的评分标准、结构化的输出以及明确的人工监督方案——AI能够有效地辅助评分工作。
AI辅助评分机制的构建
Kortemeyer与Nöhl引入了心理测量学的理论方法,论证了AI评分在哪些环节是可信的,以及如何通过设定阈值来区分机器评分与人工评分的任务。在高风险的评估场景中,关键不在于“AI绝对准确”,而在于“我们能够量化AI可能准确的场景,并在其不可靠时采取有原则的替代方案”。在高利害性考试中,不追求完全自动化,可以采用机器评分结合分级人工复核的方式。
AI并非旨在“取代专家阅卷”,而是构建一个包含标准化输入、可机器追踪的量规以及不确定性评估的闭环流程,从而将人工的注意力引导至最有价值的环节。
三、大规模教育研究:
AI从“编码”到“分类”的转变
长久以来,物理教育研究严重依赖耗时的定性编码过程。该合集中的多篇论文展示了AI如何在不将分类等同于理解的前提下,辅助这项工作。
实验笔记的自动标注
Fussell等人的研究探讨了不同大语言模型在监督分析学生实验笔记方面的有效性。研究从技术选择的角度指出了模型规模与精度的关系:轻量级模型虽然降低了部署成本,但其在技能频率估计等任务中的绝对误差超出了可接受范围;而高性能模型需要更强大的硬件支持,仅适用于高精度研究场景。
长期学习轨迹的追踪
Wyrwich等人通过识别学生在理解能量概念时的最佳学习路径,分析了学生在单元学习过程中的进展,并为教师的能量教学提供指导。研究发现,处于高效学习轨道的学生通常表现优于处于低效学习轨道的学生。通过精细化分析,为教学设计和即时反馈提供了支持。
眼动追踪预测学习表现
Dinc等人结合眼动追踪技术和机器学习,探讨了学生在物理学习过程中的理解机制。研究显示,学习过程中的注视行为比解题过程中的注视行为更具预测性,这给自适应系统带来了一些实际限制——预测信号可能在学生投入解题时达到最强。该研究同时强调了视觉表征(如图表)作为学习对象和预测依据的重要性。
四、与AI协同学习:
工具、体验与协作模式的探索
如果说教师端的阅卷和科研分析构成了AI教育应用的一个方面,那么学生端的学习工具则构成了另一个方面——而后者面临着截然不同的挑战。
AI定制的聊天机器人
Lademann等人比较了传统教材与AI定制聊天机器人生成补充学习材料对学生学习体验和学业成绩的影响。研究发现,尽管短期成绩提升不显著,但与仅使用传统教材相比,GenAI生成的材料能够减轻学生的认知负荷,并对学习者的积极情绪、学习兴趣和自我效能感产生显著影响。
人机协作的模式
Tong等人的研究比较了高中生群体中人机协作与人人协作的效果,发现两种模式都能提升解决问题的能力,其中人人协作的效果更佳。在实际互动中,学生倾向于将GenAI视为“获取答案的工具”,而非“学习伙伴”。同时,GenAI在图像识别、问题分析和回复一致性方面仍存在挑战。需要加强对学生数字素养的培养,以提升与GenAI的互动质量。
AI实验助手的应用
Kilde-Westberg团队将这些议题引入了实验室教学场景。他们分析了学生在物理实验课中使用ChatGPT的情况,既揭示了AI辅助的价值,也凸显了其局限性。在实验教学中,教师的角色不仅在于纠正答案,更在于诊断学生关注了什么、遗漏了什么,以及他们能否对现象的变化做出有意义的辨识。AI或许能辅助创意生成和解释说明,但要使AI应用与学生不断发展的实验能力相匹配,教师的作用仍然不可替代。
五、物理场景下的AI局限:
对文本的敏感性与视觉能力的不足
该合集中的多篇论文并非仅关注AI的应用部署,而是致力于描绘其在物理任务中的表现。这一研究方向至关重要,因为物理教育中充斥着各种表征形式——如图表、图像、矢量场、电路图等,且提示词的微小差异都可能影响对物理问题的界定。
提示词的细微变化影响
Dunlap等人探讨了大语言模型在处理经典物理问题“物体沿斜面下滑”时的表现。研究表明,若将AI用作导师或解题指导工具,我们不仅需要评估其答案的正确性,更应考量其认知过程的质量:是否阐明了假设前提?是否发现了逻辑上的不一致?是否论证了选择特定表征方式的依据?
视觉理解能力的挑战
Polverini等人的研究评估了两种基于大型多模态模型的聊天机器人ChatGPT-4和ChatGPT-4o在简明电磁学评估(BEMA)中的表现。从ChatGPT-4到ChatGPT-4o的迭代提升了整体性能,但它们的定性分析揭示了模型在视觉解读、物理定律选择与应用以及空间协调(尤其是右手定则的应用)方面持续存在的不足。
六、教师在实践中的落地:
接纳度、障碍与所需支持
Wattanakasiwich等人对中学及大学物理教师进行的一项调查显示,教师群体在技术采纳的不同阶段存在差异,面临着技术知识不足、语言处理能力限制等障碍。他们表达了对AI生成内容可能包含错误物理概念、影响学生思维方式、以及在提示词编写方面存在挑战的担忧。值得注意的是,教师常将GenAI用于评估相关任务,其使用动机可能源于对绩效的期望,也可能源于探索的乐趣和好奇心。多数教师使用的是免费版本,他们在整合GenAI的过程中还面临语言障碍、资源不足和制度性限制等挑战。
七、研究总结
(1) 角色定位:AI是“测量工具”而非“万能助手”。
认识误差与偏见:在进行评分、文本标注或生成反馈时,AI应被视为一种带有固有误差、潜在偏见和情境敏感性的“测量仪器”。
关注失效场景:我们不应只关注AI的平均表现,更应深入研究它在何时、何地会失效,以及如何检测和减轻这些失效带来的影响。
管理重于工具:成功的AI教学应用,其核心在于教师对整个流程的“编排”与“引导”,而非AI工具本身。
(2) 学科本质:超越“文本”的多重表征。
非文本信息的挑战:物理学包含大量的图表、过程图谱和空间推理。AI处理手写内容和复杂图形的能力,并非“附加功能”,而是物理学科的核心需求。
未来趋势:未来的研究方向在于探索AI如何解读学生生成的图像表征,并根据学生的需求动态调整教学呈现方式。
(3) 协作素养:培养“物理思维习惯”。
超越“直接获取答案”:学生习惯于利用AI直接获得答案,但教学应引导学生借助AI来构建假设、请求多种解题路径,并检验边界条件。
能力强化:这种显性的人机协作教学模式,能够强化学生的物理思维能力,使AI成为其思维发展的脚手架。
(4) 实施科学:构建系统的支持体系。
多维度挑战:AI的实际应用受到风险认知、成本、语言可及性以及机构政策等多方面因素的制约。
闭环研究:需要将教师的接纳度调查与实际的干预研究相结合,通过测试不同的提示词和工具定制方案,来真实评估AI对学习表现的改变。
【完】