AI在STEM教育中的发展现状与未来趋势

发布时间：2026-05-27 02:03阅读：13

2026年5月12日，全球开放获取期刊《教育前沿》（Frontiers in Education）发表Fernando Erasmo Pacheco-Olea等人的一篇题为《STEM教育中的AI：应用、学习成果与方法论空白（2016–2025）》[Artificial intelligence in STEM education: applications, learning outcomes, and methodological gaps (2016–2025)]论文。

该论文发现，AI支持下的STEM教育正从以工具为中心的实验转向教学法与评估范式的整体重构。并指出，当与支架式教学设计、计算思维培养以及AI素养框架相结合时，AI与STEM教育的整合效果才显著。然而，其可持续性还需要在代表性不足的教育系统中进行纵向验证、伦理治理和情境适应。

该论文的具体内容概述如下：

一、研究方法

该论文指出，在过去十年，AI显著改变了教育生态系统，尤其是在STEM领域。AI在课堂中的应用推动了自适应学习模式、智能辅导系统、虚拟实验室以及学生学业表现预测分析的发展。AI与STEM教育的融合不仅代表了一项技术进步，更体现了教学、学习和评估科学能力方式的认识论转变。

这种认识论的转变意味着从知识传授转向由智能系统介导的知识共同建构。在传统的STEM教育中，学习的重点是通过预定义的方法解决问题。相比之下，AI支持的学习环境引入了动态的、数据驱动的推理过程，学生与自适应系统互动，获得实时反馈，并参与解决方案的迭代优化。

因此，重点从过程正确性转向元认知调节、对算法输出的批判性评估，以及对AI生成知识的局限性和偏见的理解。这一转变重新定义了STEM中"思考"的含义，强调可解释性、验证过程以及人机协作，而不仅仅是确定性的问题解决。

基于这一背景，该论文采用文献计量学与定性分析方法进行了研究。首先，从Scopus和Web of Science数据库中遴选出826篇文献，利用R语言和VOSviewer对文献计量指标（如产出、被引频次、合作网络、关键词共现）进行了分析。然后选取被引次数最多且方法学上较为严谨的50项研究进行定性评审，重点关注了技术、教学法和方法论三个维度。

二、研究贡献

该论文自述，与纯粹的描述性文献计量图谱不同，其研究贡献体现在三个方面：

首先，它不仅识别了研究产出模式，还揭示了该领域中的概念转变，特别是从以算法为中心的应用（如机器学习、虚拟现实/增强现实）向生成式AI和AI素养框架的转变。这一转变反映了STEM教育从技术实施到对教学和评估的认识论反思的范式转变。

其次，通过定性分析50项被引用最多的研究，解释了获得较高引用影响力的原因，包括：提出了可扩展的教学模式，重新定义了生成式AI时代下的评估可靠性，或提出了能够连接技术能力与伦理素养的AI素养框架。

第三，提出了一项以纵向验证、评估重构、AI素养整合以及在代表性不足地区进行情境适应为核心的前瞻性研究议程。因此，其贡献不仅在于梳理该领域现状，更在于为下一发展阶段的构建提供了框架。

三、研究发现

1.论文数量和累计被引次数近十年上均呈现持续且指数级增长趋势

从年发文数量来看，2016年以来一直呈现上升趋势。其中2016-2019年间，研究产出较为平稳（每年4-30篇论文），反映出AI通过学习分析、智能辅导和自适应编程环境开始应用于教育领域的探索阶段。

然而，从2020年起，该领域进入持续扩张期：2020年发表37篇，2021年为70篇，2022年达96篇，2023年增长至134篇，2024年更增至244篇，到2025年论文也已有176篇，表明该领域在这一时期末仍保持持续增长态势。

从被引次数来看，年度被引次数从2016年的72次跃升至2023年的4383次，在不到十年的时间里实现了超过6000%的增长（图2）。被引曲线呈现出三个特征鲜明的阶段：

初始阶段（2016–2018年）——逐步积累（72–806次引用），与STEM环境中智能辅导和计算学习的开创性研究相关；

巩固阶段（2019–2021年）——引用量持续增长，至2021年达到2390次，反映出机器学习、深度学习以及虚拟实验室在工程与科学教育中的应用已趋于成熟；

扩展阶段（2022–2023年）——2023年达到最高引用峰值，共被引4383次，主要得益于关于ChatGPT、AI素养和STEM学习环境的文章。尽管2024–2025年的年度引用量有所下降（分别为2991次和896次），但这种下降在最近时期较为常见，属于自然的引用滞后现象。

2.研究国际合作方面，美国处于高度中心化位置

美国以171篇论文、225次被引和59的总链接强度（TLS）位居该领域全球科研产出首位，成为该领域全球合作的核心枢纽。

美国与英国、德国、中国、澳大利亚和西班牙保持着密切的联系，形成了以盎格鲁-撒克逊国家和欧洲国家为主的合作核心，其中产生了被引用最多且国际影响力最大的研究。

在这一主要网络的外围是印度、沙特阿拉伯、马来西亚、墨西哥、智利、哥伦比亚和巴西等国家，尽管这些国家的联系相对较新，但已显示出日益融入该领域国际学术生产流动的趋势。

按地区分布及合作密度来看，可以分为四个主要的区域集群：

英欧核心：包括美国、英国、德国、法国、意大利和荷兰。该集群内部合作密度最高，集中了最具影响力的期刊（Q1），尤其是《Computers & Education: Artificial Intelligence》和《IEEE Access》。

亚太地区：以中国、韩国、新加坡等为主。该地区在推动机器学习与深度学习应用于STEM教育方面贡献显著，同时也促进了AI素养及沉浸式环境相关研究的发展。

欧洲-北欧网络：由西班牙、丹麦、挪威和爱尔兰牵头，其特点是专注于学习分析和教育AI伦理的合作研究。

新兴全球南方集团：由印度、沙特阿拉伯、巴基斯坦、马来西亚、墨西哥、智利、巴西和南非组成。尽管其在该领域的论文总量较低，但近年来的增长引人注目。巴西（10篇文献，1342次被引）因高被引率而突出，墨西哥（21篇文献，TLS=15）则因其与北美轴心的紧密联系而显著。

总链接强度（Total Link Strength，TLS）显示出国际合作程度的显著差异。美国（59）、英国（27）、德国（25）和中国（31）的数值最高，证实了它们作为科学合作中心的地位。相比之下，印度尼西亚、格鲁吉亚或芬兰等国家虽然在科研产出方面较为活跃（6-8篇文献），但连接度极低（TLS≤2），表明其研究活动仍处于分散状态，或主要依赖双边合作。

地区不对称也反映在引用影响上：虽然丹麦（1493次引用）、巴西（1342次引用）和美国（225次引用）因较高的引用次数而突出，但其他高产国家（中国、德国、韩国）的影响力却较为温和，这可能归因于其出版物主题分散以及技术导向的特点。

3.论文中共现频率最高的五个术语依次为AI、计算思维、机器学习、工程教育和计算机科学教育

这一领域的术语聚焦于工程教育、计算思维与机器学习算法的交叉点，表明这是一个高度跨学科的领域。数据科学、教育数据挖掘、学习分析和评估等术语的频繁出现，表明AI在STEM环境中的教育分析和学习自动化评估中的广泛使用。

从研究主题来看，可以分为5个集群：

AI与教育分析——该集群融合了AI、机器学习、深度学习、数据挖掘、学习分析和评估等术语。该研究集群专注于利用预测模型和监督算法来分析学生表现和个性化学习。其高连接性（TLS>50）使其成为该领域主导的方法核心。

工程与计算机科学教育——该集群包括工程教育、计算机科学教育、STEM教育、编程、编码和机器人技术。该集群聚焦于将AI融入工程师和科学家的培养过程，强调计算思维作为一项跨领域核心能力的重要性，其主要导向为课程设计与教学方法。

AI素养与伦理——该集群由AI素养、AI教育、伦理、批判性思维、自我效能感和教育创新等术语组成。它体现了该领域的以人为本的维度，着重于培养批判性与伦理能力，以负责任地使用AI，特别是在教师培训和K-12教育环境中。

新兴技术与沉浸式学习——该集群包括增强现实、虚拟现实、游戏化、基于游戏的学习、数字教育和个性化学习。该研究集群探索AI与沉浸式或游戏化体验的融合，将学习个性化与自适应虚拟环境的设计相结合。

生成式AI与新方法论——该集群包括ChatGPT、生成式AI、大语言模型和提示工程等术语。该研究集群最为新颖，体现了生成式AI作为STEM教育新范式的兴起，其中涌现出关于生成式AI素养、AI辅助学习以及基于语言模型的教学设计等新兴研究方向。

4.高被引文章不仅表明其受欢迎程度，也代表该领域研究的转折点

该论文通过定性研究发现，某些研究被高频次引用，不仅表明其受欢迎程度，更标志着该领域概念上的转折点。例如，Cooper（2023）的论文《Examining science education in ChatGPT: an exploratory study of generative artificial intelligence》之所以被广泛引用，是因为他将生成式AI定位为一种认知伙伴，而非简单的工具，引发了有关作者身份、知识权威性和评估公正性等关键问题的讨论。

同样，Yilmaz和Karaoglan Yilmaz（2023）的论文《The effect of generative artificial intelligence (AI)-based tool use on students' computational thinking skills, programming self-efficacy and motivation》通过实证研究证明生成式AI工具对计算思维和编程自我效能感的可测量影响，为教学方式的变革提供了可量化的证据，因而产生了重要影响。

从教学法的角度来看，被引用最多的研究主要评估四种类型的成果：学业表现与概念掌握程度、计算思维与STEM能力、对AI的态度、接受度和自我效能感；情感体验与学习参与。在被引用最多的研究中，学业表现的提升通常较为适度但具有统计学意义，尤其是在有支持性框架的AI环境中。计算思维能力的提高与数据驱动推理的明确教学指导相关，而不仅仅是接触AI工具。态度方面的结果表明，感知到的有用性和自我效能感在促进采纳方面起中介作用，尤其在教师群体中更为明显。在沉浸式和游戏化的情境中，情感参与度有所提升，但需要结构化的反思才能转化为持久的学习成效。这些发现表明，AI的有效性取决于教学设计，而不仅仅取决于技术的先进程度。

在技术层面，被引用最多的50项研究显示了以下技术的广泛应用：深度神经网络和监督式机器学习，应用于成绩预测、学生分类、资源推荐和自动评估；VR/AR 环境和混合系统，旨在提供工程、自然科学和复杂现象模拟方面的沉浸式体验；聊天机器人和对话助手，从用于教授编程的机器人（例如Python-bot），到将ChatGPT作为虚拟导师或工具来讨论物理和数学概念的特定应用。

在许多情况下，重点在于模型的技术能力（如准确性、分类指标、稳健性），其次是这些工具与精心设计的教学流程的整合。然而，一些较新的研究将对模型的严谨描述与对学生学习体验的影响分析相结合，显示出技术层面与教学层面正逐步趋于融合。

在方法论上，这些研究结合了准实验设计、案例研究、混合方法以及感知调查。在实验室环境或特定的编程、物理或工程课程中，常采用小规模或中等规模群体的前后测设计。另外，方法上也有一些日益增强的努力，包括：记录教育干预措施；详细报告所使用的AI技术特性；采用可靠的指标来评估模型性能和学生学习效果。然而，当前的研究方法还存在一些局限性，包括：缺乏纵向研究，这使得难以评估人工智能对STEM学习轨迹的持续影响；样本本地化缺乏代表性，通常来自单一机构，参与者多为积极主动的学生或技术条件优越的人群；尽管拉丁美洲和发展中地区已出现一些新兴研究，但全球南方的教育情境和基础设施受限的学校现实仍被严重忽视；在预测和分类模型中，对偏见和风险的透明度较低，而伦理影响或教育公平等问题也极少被讨论。

总体而言，对50篇被引次数最多的文献进行的定性分析表明，AI在STEM教育中的应用的重点已从传统沉浸式和分析技术转向生成模型和人工智能素养。并且这些研究普遍认为，这些技术能够提升学习效果、学习动机以及获取个性化资源的途径，但也警示其影响取决于：将它们整合起来的教学设计；AI与数字伦理方面的教师培训；以及解决公平、透明和可持续性问题的能力。

因此，这些研究文献不仅体现了某些研究方向（如虚拟现实/增强现实、学习分析、用于预测的机器学习）的成熟，也显示出一些新领域的兴起，例如工程与科学领域中的ChatGPT、AI素养，以及对将教学和评估过程委托给智能系统所带来局限性与风险的批判性反思。

四、研究趋势

该论文指出，未来的研究应超越描述性和横断面研究的方法，转向更具稳健性和情境敏感性的研究设计。特别是，有三个优先发展方向尤为突出：

首先，需要开展纵向实验设计，以评估AI支持的学习环境对认知发展、学习轨迹和决策过程的持续影响。

其次，必须更加重视AI在南方国家背景下的实施，因为那里的基础设施限制和数字不平等需要具备可扩展性和适应性的解决方案。

第三，在生成式AI的背景下，重新设计评估框架变得至关重要。未来的研究应开发并验证以推理过程、批判性思维以及人机交互为重点，而非仅关注最终输出结果的评价模型。

五、实践建议

该论文就AI在STEM教育中的应用提出了具体的实践策略和实践框架。其中在实践策略方面，提出四点：

１.评估方式的重新设计：从基于成果的评价（最终答案）转向基于过程的评价（推理步骤、反思性论证、迭代草稿）。

２.AI透明化作业：明确允许使用AI，但要求记录提示词，并对AI生成的解答与学生自主完成的解答进行严格比较。

３.教学纳入批判性AI素养模块：涵盖大语言模型的幻觉、偏见、数据局限性和伦理风险等方面的教学内容。

４.开展混合式人机教学法：将AI定位为支架而非替代品，强调学生与工具之间的元认知对话。

５.注重口头与实践评估：增加使用口头答辩、项目式任务和情境化问题解决，以降低学术不端的风险。

在实践框架方面，围绕四个关键维度构建：

１.教学一致性：AI工具必须融入结构化的教学设计中（例如支架式教学、项目式学习），确保技术服务于学习目标，而非取代学习目标。

２.AI素养培养：学生和教师应具备理解AI系统的能力，包括其局限性、偏见以及伦理影响。

３.评估重构：评价模式应转向以过程为导向的方法，强调推理、反思以及人与AI的交互，而非最终输出。

４.情境适应：实施过程中必须考虑机构基础设施、数字接入以及社会文化因素，尤其是在代表性不足的地区。

资料

← 上一篇：AI 预测真的靠谱吗下一篇：掌握AI Agent：三个小时从零到一搭建智能体 →