深度解读|多智能体课堂中学习者与AI的交互机制：驱动因材施教与弥合学业差异

发布时间：2026-07-04 22:38阅读：2

一、研究概况与研究问题

1.发表信息：Hao等，Computers & Education，241（2026），Article 105472。

2.研究情境：真实大学课程，持续两个月、覆盖六个连续模块。

3.研究设计：单组前测—后测，结合对话编码、序列分析与学习结果比较。

4.样本：305人注册，131人完成全部课程；完成者平均年龄20.06岁，女性占30.53%。

以往研究常把教育AI视为单一“教师”“助教”或“同伴”，重点比较成绩和态度，却难以解释学生如何在多个AI角色之间选择、切换和调度。本文因此把问题推进到互动过程：不同先验知识学生会形成怎样的对话路径，这些路径又如何关联学习增益、动机与技术接受。

RQ1.学生与多个AI智能体互动时，会出现哪些典型行为模式？

RQ2.高、低先验知识学生的互动模式有何不同？

RQ3.这些互动模式与学习增益之间有何联系？

二、MAIC多智能体学习环境

MAIC（Massive AI-empowered Course）不是在课程旁边增加一个问答机器人，而是以角色分工重构课堂互动。

角色

核心功能

AI教师

讲授、答疑、给出方向，并调节学习进程与情绪。

AI助教

维持秩序、组织活动并提供操作提示。

四类AI同伴

激发者引出观点，提问者追问质疑，思考者深入分析，记录者总结重点。

后台分析智能体

依据课堂情境和学习状态安排节奏及角色出场。

课程与分组课程内容涵盖通用人工智能、大模型、多模态智能、自主智能体、AI安全与伦理等。以前测成绩划分先验知识：前30%为高组（39人），后30%为低组（38人），中间组用于结果比较。

三、数据、编码与分析方法

数据包括60题前后测、六次模块测验、学习动机量表、UTAUT2技术接受量表，以及75,896条系统记录。其中19,365条被识别为互动数据。

1. 学生—AI行为编码

角色

代码

行为类别

AI教师

TB1—TB5

提问、回答、给出方向、监控进程、调节情绪

学生/AI同伴

SB1—SB7

提问、回应、提出观点、协商确认、监控进程、管理参与者、分享情绪

2. LLM辅助编码

研究采用“人工建构框架—人工编码基准样本—模型试编码—修订提示词—再次验证—全量编码—人工复核”的流程。专家编码一致性为0.92；初始人机一致性约0.81，优化后超过0.92，最终专家与机器一致性达到0.97。其价值不在于让模型替代研究者，而在于由人类负责概念与裁决、模型负责扩大编码规模。

3. 分析方法

描述统计与行为转移分析：识别各角色主要行为及常见前后衔接。

滞后序列分析（LSA）：判断哪些转移显著高于随机水平。

配对样本t检验、ANOVA/ANCOVA：比较前后测及不同先验知识组。

线性混合模型：分析六次模块测验中的学习轨迹，同时控制测验难度与个体差异。

四、结果一：互动数量与角色分工

共记录75,896条消息，其中19,365条属于互动；学生发言4,005条，占互动数据的20.68%。

学生行为以提问为主（48.19%），其次为监控调节（14.09%）和主动提出观点（13.84%）。

AI教师主要回答问题（52.51%）；AI同伴主要提出观点（36.86%）、提问（20.59%）和协商观点（19.03%）。

互动随课程推进下降：前两个模块每人约6条消息，后期约3.6—3.7条。互动减少不等同于投入下降。

图4六个课程模块中不同角色的平均互动次数

读图要点 AI同伴发言最多，因为学生一次发言可能同时触发多个AI角色回应。该图呈现互动数量变化，不能单独说明学习质量。

结果二：互动从“一问一答”走向多角色接续

行为转移热力图显示，学生提问后，AI教师与AI同伴通常都会回应；学生提出观点后，AI角色会继续补充、评价或追问。多智能体课堂因此形成“学生发起—多个AI角色回应—学生继续确认或调节”的结构。

前缀

角色

重点代码

真实学生

SB1提问；SB3提出观点；SB4协商确认；SB5调节进度；SB6点名智能体

ASB

AI同伴

代码含义与SB基本对应

AI教师

TB1提问；TB2回答；TB3给方向；TB4监控；TB5鼓励

AInstr

AI课程讲授

课件与讲解等教学输入

图5不同角色之间行为转移频数的热力图

读图要点纵轴From是前一个行为，横轴To是随后行为；红色越深表示出现次数越多。该图反映频数，不代表转移显著，也不能据此推断因果。

结果三：两种核心互动机制

模式

典型过程

主要对象与功能

知识共建

提问或提出观点 → AI解释、补充、追问 → 学生确认并继续提问

低先验知识学生更常见；用于概念澄清和理解深化

共调节

监控进度、要求暂停/继续、点名特定智能体 → AI调整课堂进程

高先验知识学生更常见；用于节奏控制和资源调度

图6全体学生显著互动序列的滞后序列分析

关键理解图5显示“哪些转移常见”，图6只保留显著高于随机水平的稳定路径。知识共建体现多轮解释与确认；共调节体现学生开始管理学习节奏和智能体网络。互动多不等于学习深，关键是AI被安排在何种认知与调节活动中。

结果四：先验知识改变学生使用AI的方式

高先验知识组发送消息更多（M=35.76 vs. 14.47，p=.006），多轮对话也更多（p=.005）。

低组以提问、协商和确认观点为主，主要把AI当作知识解释与理解确认工具。

高组更常提出观点、监控进程、管理智能体和表达情绪，更像多智能体课堂的组织者。

互动序列的中心不同：低组突出SB4“协商与确认”，高组突出SB5“监控与调节”。

图7高、低先验知识学生的行为比例

读图要点低组提问占55.3%，高组为45.2%；高组在主动提出观点和调节行为上的比例更高。堆积柱展示组内行为比例，不代表发言总数。

结果五：两组互动路径的结构差异

图8高、低先验知识学生与AI智能体的滞后序列分析对比

核心差异上图（高组）网络更密，SB5“监控和调节进度”连接多条路径，显示较强的共调节。下图（低组）网络较简洁，SB4“协商和确认观点”更突出，依赖解释和认知支架。路径更多不代表学习效果必然更好；高组互动更丰富，但可测学习增益更小。

结果六：学习增益主要来自低先验知识学生

整体成绩由前测M=6.45提高至后测M=6.77，差异小幅但显著（p=.013）。

低组平均增益+1.88，中组+0.36，高组−1.09，组间差异显著（p<.001）。

线性混合模型显示，低组每次模块测验平均增加0.23分（p=.008）；中、高组的增长斜率均显著更慢。

高组的下降不能简单理解为系统导致退步，还可能受到天花板效应、回归均值、课程挑战不足和测量波动影响。

图9不同先验知识组的前后测变化

结论成绩差距缩小主要来自低基础学生进步更多，而不是所有学生获得同等提升。低组通过提问、解释和确认获得更匹配的即时支架；高组可能缺少足够挑战。

五、这篇文章证明了什么，尚未证明什么

可以较有把握地说

不能据此直接说

学生与多个AI角色形成了可识别的行为转移模式。

多智能体系统一定优于单智能体或传统教学。

高、低先验知识学生的互动数量和序列存在差异。

高互动频率必然带来更高学习增益。

低先验知识学生在该课程中的可测增益更大。

多智能体系统已被因果证明可以缩小教育差距。

LLM可在严格人工校验下辅助大规模编码。

大模型可以不经验证地替代人工质性分析。

六、可直接借鉴的研究框架

“过程—差异—结果—机制”框架过程：编码提问、答案索取、观点生成、证据核验、反驳、协商确认与进度调节。差异：按先验知识、自我效能、AI素养或依赖水平分组。结果：比较知识增益、批判性思维、创造力、认知负荷与任务质量。机制：利用LSA、过程挖掘、转移网络、序列聚类或混合效应模型解释行为如何连接个体差异与学习结果。

七、总体评价

这是一篇研究场景和方法都较有启发性的文章。它把多智能体教育研究从“系统展示”推进到“互动机制分析”，并说明不同学生不会以同一种方式使用AI。真正有价值的结论不是“互动越多越好”，而是学生是否仍保留问题界定、证据判断和学习调节的主动权。标题中的“reducing performance gaps”需要谨慎理解：低先验知识学生获得更大增益与差距缩小相一致，但由于缺少严格对照和存在较高流失，文章提供的是过程 evidence 与初步结果 evidence，而不是充分的因果证明。

← 上一篇：小扎千亿押注AI,开源神话为何走向破灭下一篇：AI浪潮中的职业生存法则 →