标签

黄斌,姚丹 | AIGC技术融入编程课程的实效性研究综述

发布时间:2026-06-22 07:20阅读:2

E1

导 读

作者简介:

黄斌(1981—)男,陕西西安人,西华师范大学教育学院副教授,主要从事教育技术学基本理论研究。

姚丹(2001—)女,四川达州人,西华师范大学教育学院硕士研究生,主要从事人工智能教育研究。

内容摘要:

编程教学面临缺乏即时反馈、个性化指导不足等挑战,生成式人工智能(GenAI)作为一种新兴技术,为破解上述难题提供了可能。本文基于22项实证研究,采用元分析方法评估GenAI在编程教学中的应用效果。整体效应分析结果显示,GenAI在编程教学中的应用效果呈现中度显著水平,具体来看,对计算思维有高度显著影响,对编程技能和自我效能感有中度显著影响,对学习动机、情感态度和学习成绩没有显著影响。调节效应分析结果显示,GenAI在编程教学中的应用效果会受到学习阶段、编程基础、学习方式、实验周期、编程语言和GenAI角色的影响。据此,对GenAI应用于编程教学提出如下建议:聚焦编程教学目标,实施阶段化持续的教学干预,整合学习方式构建自适应学习路径,明确角色与任务定位,建立多元化与过程性并重的评价机制,强化规范引导与伦理教育培训。

关键词:

生成式人工智能;编程教学;应用效果;元分析

E2

正 文

一、引言

教育部于2024年启动人工智能赋能教育行动,将实施教育系统人工智能大模型应用示范行动列为重点举措。生成式人工智能(generative artificial intelligence,GenAI)作为人工智能的一个分支,凭借超强的自然语言理解、跨模态内容生成和长链推理能力,从教、学、育3个维度推动教育的系统性变革。在教育数字化转型的背景下,智能时代的编程教育被赋予培养学生创新能力、服务创新型国家与科技强国建设的重要使命。然而,编程教学常受限于一对多的课堂结构,难以实现针对性强的个性化教学。GenAI在代码生成、错误诊断和即时反馈等方面的应用,为突破编程教学的局限提供了可能。虽然GenAI应用于编程教学的前景广阔,但学界对其在编程教学中的应用效果尚未形成一致结论。

部分研究指出,GenAI的应用对编程教学具有促进作用。W.X.Yan等在人机协作的编程课堂中发现,学生在与GenAI的持续互动中能够提升元认知能力和自我调节学习能力。屈玉玮等在编程教学改革中发现,DeepSeek驱动的教学模式能够提升学生的课堂参与度和教学满意度,为编程教学提供新的教学范式。另有部分研究指出,GenAI在编程教学中的应用效果具有个体差异和教学情境依赖性。K.Nguyen在芬兰高校的调查中发现,学生普遍认可ChatGPT能够有效解释技术领域的复杂概念,辅助完成学业任务,但也有学生担忧其会影响其批判性思维和独立解决问题的能力。B.X.Ma等在Python课程实验中发现,ChatGPT能够快速响应问题、帮助调试、提供代码示例和解释,但对基础编程课程提供的解决方案超出课程范围,不是最佳方案。还有部分研究指出,GenAI的应用对编程教学不具有促进作用。R.Choudhuri等在软件工程课程的对照实验中发现,ChatGPT组学生的学习效率和自我效能感与传统组无显著差异,且ChatGPT回答的不稳定性和不透明性容易使学生产生挫败感。Y.K.Xue等在CS1入门编程课程中发现,一旦开始使用ChatGPT,学生探索其他传统教育资源的倾向会大幅度下降,更倾向于仅依赖ChatGPT,而这种依赖不能保证学业水平的提升。

综上,GenAI在编程教学中的应用效果存在争议,说明GenAI应用于编程教学的价值有待进一步验证,需要通过元分析对不同条件下的实证结果进行量化整合,并明确以下问题:在编程教学中实施GenAI教学干预是否能够提升应用效果?GenAI在编程教学中的应用效果在不同维度上表现如何?GenAI生成式人工智能在编程教学中的应用效果会受到哪些变量的影响?

二、研究设计

(一)研究方法与工具

本研究采用元分析方法。元分析是对分析的分析,把单个研究的分析结果进行统计分析,以整合研究结果得出定量结论。与传统综述相比,元分析能够减少研究者主观判断造成的偏倚,从而保证结果的科学性与客观性。元分析常用的工具有RevMan、Stata、R语言和CMA。CMA具有操作界面友好、无需编程等优点,能够处理多种类型的数据输入,并支持发表偏倚检验、异质性检验和亚组分析,故使用CMA 3.0作为数据分析软件。

(二)文献检索与纳入

中文文献分别以“生成式人工智能+编程”和“生成式人工智能+程序”为主题,在中国知网数据库进行检索。以“programming education OR coding education OR computer science education OR data programming OR learning to program”AND“generative AI OR genAI OR chatGPT OR code generation”为主题,在Web of Science数据库进行检索。时间范围为2022—2025年,获得相关文献1 326篇(中文文献133篇,英文文献1 193篇)。本研究制定如下文献纳入标准:(1)研究主题必须聚焦GenAI在编程教学中的应用。(2)研究类型必须采用实验研究或准实验研究,设置实验组和对照组或采用前测—后测设计,并以GenAI教学干预作为实验处理条件。(3)研究结果必须提供计算效应量的数据,包括样本量、均值和标准差。(4)研究对象必须指向在校学生,包括小学生、中学生和大学生。经此标准筛选后,最终纳入文献22篇。

(三)文献编码

本研究旨在探索生成式人工智能在编程教学中的应用效果,因此自变量为实施GenAI教学干预,因变量为应用效果。参考A.Rovshenov等的编程教育研究分析框架,将应用效果分为计算思维、编程技能、学习成绩、自我效能感、学习动机、情感态度6个维度。计算思维指运用计算机科学的基础概念进行问题求解、系统设计以及人类行为理解等涵盖计算机科学广度的一系列思维活动,包括创造力、协同力、算法思维、批判性思维和解决问题的能力;编程技能指能够使用编程语言创建、测试和维护软件的能力,包括代码编写、代码质量、调试技巧和算法设计;学习成绩指通过作业、测验、考试等评估方式所取得的成果;自我效能感指对自身完成编程任务的信心;学习动机指激发编程学习的内在心理机制;情感态度指对编程本身及学习过程的感受,包括焦虑、心流体验和技术采用态度。

参考现有GenAI相关元分析在解释研究结果异质性时,将学习阶段、学习方式、实验周期和角色设定作为可操作的调节变量进行编码,并开展调节效应分析,同时结合编程基础的认知差异和编程语言的门槛差异可能会影响GenAI支持下的学习路径与效果,本研究将学习阶段、编程基础、学习方式、实验周期、编程语言和GenAI角色作为调节变量,以揭示不同教学情境下GenAI的应用效果。学习阶段分为中小学和大学。编程基础指是否具备计算机编程的相关知识。学习方式按照学习的组织形式分为个人学习和小组学习。实验周期指实验开展的时长,分为不足1个月、1~3个月和3个月以上。编程语言分为入门教学语言(包括Python、PHP和Scratch,这类语言具有解释执行、低门槛和高可视化的特点,能够帮助学生快速上手编程)、工程教学语言(包括Java和C#,这类语言强调跨平台工程能力,适用于项目开发,能够培养学生模块化设计能力)和系统教学语言(包括C和C++,这类语言关注计算机底层逻辑,相对其他语言较难掌握,能够帮助学生构建系统思维)。GenAI角色指GenAI在教学干预中扮演的角色,分为学习伙伴(GenAI提供对话和答疑,承担陪伴和互动功能)、教学助理(GenAI在互动的基础上提供结构化的教学支持,包括提供教学资源和即时反馈等)和个人导师(GenAI根据学生能力与学习进度规划学习路径,实施个性化动态指导)。

对22篇文献编码后,共获得41个效应量(K=41),总样本量为2 118名学生,纳入研究的单项样本量范围为38~234名学生。

三、数据分析

(一)效应量指标的选取

在元分析中,效应量指标的选取取决于原始研究的数据类型。对于计量资料,常用的效应量指标有加权均数差(WMD)和标准化均数差(SMD)。本研究所纳入的数据以样本量、均值和标准差的形式呈现,故采用标准化均数差作为效应量指标,其常见形式包括Cohen's d、Glass'sΔ和Hedges's g。考虑到不同研究间样本量差异可能导致效应值(ES)计算的误差,最终选取Hedges's g作为效应值,以获得更准确的结果。

(二)发表偏倚检验

发表偏倚指具有统计学显著意义的阳性结果比无显著意义的阴性结果发表的可能性大,导致某些研究的发表被压制,从而影响元分析的有效性。检验发表偏倚的方法主要有漏斗图、Egger线性回归和失安全系数。漏斗图是常见的直观识别发表偏倚的方法,针对连续性变量可引入Egger线性回归加以验证,并辅以失安全系数来考察结果的稳健程度。本研究采用上述3种方法来综合评估发表偏倚的情况。大部分研究分布于中心线两侧,初步判断发表偏倚的可能性较小。Egger线性回归检验结果显示p=0.136>0.050,没有发现显著的发表偏倚。失安全系数检验结果显示,需要额外加入1 148项无效研究才能使结果不显著。根据R.Rosenthal提出的衡量标准,本研究的失安全系数1 148远大于120(5×n+10)。综上,纳入文献的发表偏倚风险较低,分析结果可靠,样本数据可用于进一步研究。

(三)异质性检验

在元分析中,检验异质性的方法主要有I2统计量、Q统计量、Galbraith图法和L'Abbe 图法。I2统计量和Q统计量属于定量检验方法,可用于综合评估异质性程度与是否显著。I2统计量检验结果显示I2= 90.88%(当I2≥75%时,异质性程度高),说明将近91.00%的异质性