人工智能时代学习评价的转型：从技术防范到真实素养培育

发布时间：2026-05-15 07:13阅读：13

吕云震

中央财经大学国家财经战略研究院副教授

高等教育研究所研究员、博士

宋楚楚

中央财经大学国家财经战略研究院

【摘要】大型语言模型系统生成的文本质量较高，导致机器输出与人类写作在许多情境下难以区分。当下的主要应对方式是实施技术检测，这在哲学层面存在缺陷，在伦理层面问题重重，在教育层面适得其反。人工智能技术发展也催生了本体论危机，这动摇了高等教育赖以存在的概念根基。人工智能挑战的不只是学术诚信制度，更是学习与评价的本质内核。真正的解决之道不在技术层面，而在教育范式层面，需要从根本上转向以苏格拉底方法、弗莱雷批判教育学与巴赫金对话理论为基础的对话教学模式。大学生学习评价必须超越过时的防范“作弊”范式，走向真实性评价，聚焦培养对话能力、辩证判断和有效协作等算法无法复现的独属于人类的特质。

【关键词】人工智能；学习评价；AI检测；对话教学；评价改革

引用该文献：吕云震,宋楚楚.走向真实性评价：人工智能时代大学生学习评价的再思考[J].教育评论,2026(04):3-11.

大型语言模型出现后，学术体系发生根本性颠覆。这种模型系统生成的文本质量较高，导致机器输出与人类写作在许多情境下难以区分。［1］人工智能（Artificial Intelligence，以下简称AI）技术发展也催生了本体论危机，动摇了高等教育赖以存在的根基。它挑战的不只是学术诚信制度，更是学习与评价的本质内核。当前教育界的应对措施几乎完全集中在预防与检测上，将AI视为需要抵御的外部威胁，这种思路实际是将表象误认为根源。对于AI的恐慌，本质上揭示了高等教育一个根本假设的动摇：我们从未真正确定学生提交的作业能够真实反映其学习成果。然而，将此单纯视为一场作弊危机，实则同时错判了挑战与机遇。教育评价理念需要从“甄别诊断”转向“素养发展追踪”，评价主体要从“教师主导”转向“人机共生型评价共同体”。［2］当前围绕学术诚信的讨论聚焦于查处违规行为，其视线始终局限于学生行为，而非高校自身的实践模式。这种思路追问的是如何维系现有体系，而非反思这些体系是否真正服务于教育目标。更本质的问题在于：当高水平的文本生成能力唾手可得时，我们应当如何重新定义能体现学习成效的核心证据，而非仅仅纠结于如何检测学生是否使用了AI。

一

对AI技术解决方案的哲学批判

教育界对生成式人工智能的制度化应对，仅仅聚焦于单一技术解决方案，即AI检测工具。推广此类产品的公司宣称，通过算法分析可识别AI生成文本，将其工具自诩为学术诚信的守护者。［3］这种技术转向实则承载着关于学习本质、信任机制及师生关系内核的哲学立场。然而，现行检测范式存在深层次理论缺陷，不仅收效甚微，而且对教育实践产生实质性危害。

（一）AI检测的理论性缺陷

AI检测工具基于一个根本假设，即机器生成文本与人类创作文本具有本质区别。然而，随着大型语言模型趋近完美再现人类表达方式的设计目标，这一假设受到的质疑日增，检测机制也因而陷入根本性悖论。当大型语言模型持续优化时，人机文本的统计结果差距趋近于零，使可靠检测从技术挑战转向理论层面的不可能。［4］

当前检测方法主要依赖“困惑度”（perplexity）等统计指标，该指标通过量化文本中词汇选择的可预测性判断文本属性。较低的困惑度分值表明语言模式更具可预测性，从而触发算法对机器创作的怀疑。［5］这种方法折射出对人类表达哲学性的有限认知——它将人类交流的丰富性与多样性压缩为单一的统计量，隐性地赋予某种特定语言形式在复杂程度方面的特权，同时贬损其他形式。本质上，困惑度指标是对“真实”人类写作采取了一种具有规范的判断，其预设真正的人类表达必须包含不可预测性、复杂性及对既定模式的偏离。这种假设无法涵盖人类语言表达的巨大多样性，这种多样性在教育背景、文化语境、认知风格和交际目的等维度都存在显著差异。清晰直白的表述可能体现教学智慧而非机器生成，晦涩冗长的文字或许也只是个体思维混乱的表现，与人类真实性没有必然关联。

当前的检测范式误解了当代文本生产的本质。现代写作日益依赖多样化技术中介，从拼写检查、语法工具到翻译软件，乃至当下的人工智能助手。“纯粹”人类创作与技术辅助之间的边界一直都具有流动性，并且正在加速消融。AI检测工具试图监管这个已丧失实质意义的边界，在已经形成人机混合创作的现状中，强行推行二元区隔。若认定人类写作不通过任何技术中介这一事实已经不复存在，当前的检测方式在概念性上的矛盾就会暴露无遗——所有文本创作都不可避免通过技术中介实现，并在语言规约的形塑与制约表达中完成。

（二）算法判断的伦理困境

AI检测工具的应用引发了深远的伦理关切，其影响远超技术准确性的范畴。AI依据自动化判断机制运作，基于不透明的算法流程对学术诚信做出具有高风险的判定。被指控使用AI的学生往往无从理解指控依据，更无力进行有效抗辩。算法摇身成为“法官”，尽管其统计计算存在根本上的不可靠性，但是被披上了制度权威的外衣。

研究表明，AI检测工具对特定群体存在系统性偏见。非母语者因常使用更直白的词汇和简化的句法结构，其文本被算法误判为AI产出的比例显著偏高。针对该人群的研究记录显示，误报率超过60%，部分检测器甚至将非母语者的写作样本几乎全部标记为机器生成。［6］这种偏见同样波及思维较为发散的学生，因为他们的写作模式多数偏离传统规范的写作模式。

这些偏见绝非单纯的技术故障，而是检测系统底层架构的必然产物。通过基于特定数据集训练的统计模型定义“正常”的人类写作，这样的工具不可避免地固化并放大了既存的语言权力结构。所有文本被衡量的基准，本质上折射的是那些享有顶级教育资源与文化资本者的写作模式。AI检测工具将语言差异转化为学术嫌疑，由此沦为了不平等再生产的工具。

这种伦理上的影响程度远超普通个案。高校将学术诚信的裁决外包于算法，实则是在推卸其应把学生作为复杂个体来深度对话的教育责任。理解学生的学习过程、看见学生的成长、帮助学生应对具体挑战等精细化的教育工作，被非黑即白的算法判决替代。这不仅意味着教学失职，而且是教育伦理的沦丧。算法裁决的制度扼杀了学生两项基本权利，即（关于学术不端）无罪推定的权利以及就学业成果作有效主张的权利。

（三）失信的教育方式

人工智能监控模式催生了腐蚀性的教育文化，从根本上动摇了教育根基。当高校部署AI检测工具时，其传递的核心讯息是系统性的信任崩塌。学生被异化为待监控的潜在作弊者，而非需被培育的学习主体。这种对抗性叙事以猜忌取代协作、用监控扼杀对话，［7］导致教育关系异化。研究早已证实，信任是深度学习的先决条件。只有在提供心理安全感的环境中，学生才会愿意承担智力上的风险，探索不熟悉的领域，并形成真实的学术表达。监视范式系统性地侵蚀了这种安全感，学生普遍反馈写作焦虑加剧，尤其是那些语言模式容易触发算法误判的群体。当学生意识到自身的学习成果处于算法评判之下时，为避免误判风险，他们可能刻意回避创造性或非常规表达，从而强化趋同行为。这种检测产生的结果是鼓励顺从而非批判性思维、催生畏惧而非胆识，与教育理应培养的品格背道而驰。［8］

（四）技术检测引发的“猫鼠游戏”

追求技术检测引发了一场高校无法取胜的“猫鼠游戏”。检测技术的每次升级，都会催生相应的规避手段。学生开始使用AI改写工具、刻意添加错误、混合人工与机器生成的文本，这些策略让检测系统难以招架。［9］与此同时，大型语言模型持续进化，日益逼近完美的人类表达模式。那些销售AI检测工具的公司，往往也在开发使检测成为必要流程的AI系统，从这场不断升级的对抗双方中同时获利。

这场“猫鼠游戏”消耗着本可用于真正教育创新的高校资源。高校斥资购买昂贵的AI检测软件授权，培训教师使用系统，并建立处理指控的行政流程。这些资源本可以用于缩小班级规模、支持创新教学方式的专业发展，或是引进用于促进而非监督学习的技术。其机会成本不仅体现在财务支出，而且包括从教育核心任务中转移的智力与情感投入。执着于提升AI检测精度，实则是治标不治本。这种做法维护了一个已然失效的学习评价体系，忽视了AI时代必需的教育变革。AI检测模式在理论、伦理及教育实践层面的失效，要求我们必须从根本上重新思考教育应如何应对AI。高校不应一味强化监控，而需认识到这一挑战并非技术问题，而是理念层面的根本抉择。

二

对学习与知识本质的再思考

技术解决方案在应对AI挑战时的失败，迫使我们重新回归对学习与知识本质的思考。既然检测技术已步入哲学上的“死胡同”，那就需要重拾将体现理解成效的证据定位于动态意义建构过程，而非静态产出的教学传统。这种回归不是怀旧，而是教育领域的一种革命，需借助对话传统，构建无法被算法替代的评价实践。

（一）将知识视为确证的信念

苏格拉底方法不仅仅是一种教学技巧，还提供了理解知识本质的认识论框架。苏格拉底指出，真正的理解不能简化为拥有正确答案，知识要求人们具备阐明理由、回应质疑并通过持续探究完善观点的能力。［10］这种将知识视为“确证的真信念”的理念，将评价重点从衡量信息记忆转向评判推理过程本身。

该方法通过一种可称为“生产性解构”的方式展开。苏格拉底式教师不直接提供答案，而是通过“诘问法”，即通过驳斥过程进行质疑，揭示学生初始观点的缺陷。［11］学生由此发现，他们看似牢固的理解实则建立在未经检验的假设之上。这种认知失衡促使他们展开更深层次的探索。这种不适感至关重要，它是从表面认知迈向真正理解的关键转折。在此过程中，知识展现出其本质：它并非可供传递的商品，而是需要培养的能力。

这种方法在人工智能时代尤为重要，它所针对的是人类独有的核心能力。大型语言模型可以生成哲学问题的合理答案，甚至能借助海量文本资源给出精妙回复，但它无法做到觉察自身立场的矛盾之处并通过对话重构认知。机器能产出文字，但不会思考。苏格拉底方法正是通过对话中那些磕绊往复、时而痛苦的思维梳理过程，让思考变得可见。

当代认知科学证实了这一古老的洞见。关于学习的研究表明：挣扎与错误并非理解的障碍，而是其内在组成部分。［12］流畅地给出正确答案可能源于深刻理解，也可能只是浅层记忆。唯有通过对话，学生知识结构的真实样貌才能显现。那些体现真实思考的迟疑、自我修正和顿悟瞬间，既无法被模拟，也无法被替代。

（二）将对话作为自由实践的形式

保罗·弗莱雷（Paulo Freire）对传统教育的批判超越方法论层面，直指嵌入常规教学中的权力结构。他提出的“灌输式教育”（banking concept）隐喻，深刻揭示了传统教育将知识视为可被动存入学生体内的商品这一本质。［13］这种模式的反对话本质，不仅体现在减少讨论环节，还在于否定了学生作为具有思考与创造能力的主体应享有的人格尊严。

“灌输式教育”易被人工智能替代，是其内在结构的必然结果。当教育沦为信息传递的过程，当学生被定位为知识的接收器而非创造者时，任何足够精密的信息处理器都能胜任学生这一角色。“灌输式教育”通过训练学生的被动性与顺从性，教导学生接受而非质疑、记忆而非分析、顺从而非开拓其他可能性。相反，提问式教育培养学生的批判意识。［14］

弗莱雷提出的教育范式将学习重新构想为对现实世界的共同探索。教师与学生转化为共同探究者，携手解读并剖析他们所处的世界。这种方法要求践行弗莱雷所称的“蕴含爱意的行动”，即真正认同并滋养每个人与生俱来的创造能力。这要求教师不将自己视作知识的唯一拥有者，而是同学生一并成为探索中的伙伴。教师的权威要从掌握学科知识转向对批判性探究的引导。

弗莱雷倡导的对话不只是言语交流，更具有变革力量。参与者并非简单交换既定观点，而是共同构建新的认知。这一过程无法被外包或自动化，因为它根植于参与者独特的经历、视角和具体情境。［15］当学生分析自身所处的社会现实，将抽象概念与生活经验相联系，或构想不同的未来图景时，他们正是在进行无法被替代的意义创造活动。这种知识生成具有的具体性和情境性，使其能够抵御任何形式的标准化或替代的可能。

（三）思想是主体间的共同创造

米哈伊尔·巴赫金（Michael Bakhtin）的语言哲学为苏格拉底和弗莱雷的实践智慧提供了理论深度。在巴赫金看来，意识本身即诞生于对话。思想并非先在内心成型而后向外表达，相反，它是在言说者之间的互动空间中逐渐成型的。［16］每一段言说既是对先前话语的回应，也期待着未来的应答。意义并不栖居于词语本身，而存在于不同视角之间的动态交锋。这一重构对学习评价具有根本性启示：如果思维本质上是对话性的，那么孤立地评价个体产物其实是对知识本质的根本误解。

罗宾·亚历山大（Robin Alexander）的对话教学框架将巴赫金理论转化为课堂实践。他提出的五项原则不仅描绘了教学方法，而且构建了一个学习生态系统。在对话课堂中，知识通过多元声音的交织而涌现，学生在彼此贡献上持续建构、质疑并延伸观点，共同达成任何个体无法单独实现的认知理解。这五项原则包括集体性（师生共同面对学习任务）、互惠性（相互倾听、分享观点）、支持性（在信任环境中自由表达思想）、累积性（在彼此贡献基础上持续深化）和目的性（讨论始终指向明确的教学目标）。［17］其中，累积性原则尤为关键。在对话教学中，交流随时间逐步深化，每次对话都为理解增添层次与细节，而这种时间维度无法压缩或加速。AI或许可瞬间生成精妙回应，但无法参与真正学习共同体特有的、缓慢积累建立共识的过程。课堂由此成为独特的认知场域，在这里，知识不是被传递或提取，而是通过持续互动被协作建构。通过持续的互动协作构建，每个学生的贡献都融汇成改造所有参与者的集体智慧工程。支持性原则要求关注学习的社会情感维度。只有在信任环境中，学生才敢于尝试不成熟观点、暴露困惑，从而调整立场。这种信任源自持续的互动，来自对彼此不完整理解的尊重以及在困境中的相互鼓励。任何算法都无法创建或参与这张支撑深度学习的关系网络。这充分证明，学习的社会情感维度与认知过程本就不可分割。

（四）AI时代对话式教学的哲学根基与评价重构

苏格拉底、弗莱雷、巴赫金与亚历山大都将真正的学习定位为过程而非结果。他们理解的教育不是信息传递而是心智转化，不是个人成就而是社会建构。这种共识不仅为应对AI提供了实践方案，而且标志着学习理念与评价方式的哲学革命。

当学生在阐释思路、回应突发提问、在他人观点基础上构建自己的观点时，他们正在调动人类独有的能力。这些能力仅能通过具身化、社会性、历时性的对话过程显现。觉察困惑、实时修正理解、将抽象概念与个人经验相联结……这些不仅是学生待培养的技能，而且是人类意识的根本特质，无法由机器代劳。因此，表达过程应成为学习评价的核心环节。

当学习评价聚焦于对话过程，AI生成的产物就失去价值。学生可用AI准备讨论、激发初始想法或厘清概念，但这些应用是强化而非取代学习。AI成为辅助准备的工具而非替代品，是思维的跳板而非终点。当教育聚焦于机器无法企及的领域，即人类特有的协同意义创造活动时，AI的威胁便会自然消解。

对话式教学法也面临若干需要审慎思考的理论挑战。对集体知识建构的强调，引发了对个体能动性与责任归属的质疑：若理解始终通过群体互动产生，教育者该如何评价个体学习成效？协作过程与个体评价之间的矛盾，在多数对话理论中仍未得到完善解决。然而，这种矛盾或许揭示的并非对话式教学法的缺陷，而是个体化学习评价模式本身存在的根本问题。

这些批判并非否定对话式教学，而是要求在实施过程中秉持更加审慎的态度。对话式教学需要教育者开辟更加多元的参与路径，认可不同形态的知识建构方式，并警惕不平等现象的延续。本文探讨的哲学基础不仅提供了抽象的理想愿景，而且为监控范式提供了具体的替代方案。当学习被理解为构建意义的对话过程，而非个体化的文本生产过程，教育就能突破对AI检测的无谓执着，核心问题将从“这是学生亲笔所写吗”转向“学生能运用这些内容进行思考吗”。这一重构使学习评价从“猫鼠游戏”转变为对认知发展的真实关注，其现实意义更加深远。这意味着教育者要不断更新教学技巧，从根本上重新构想人工智能时代教与学的本质内涵。

三

AI时代大学生学习评价的范式重构

AI给教育带来危机的同时，也蕴含着机遇。最初高校本能地转向监控与检测，这种做法已被证明不仅无效，而且危害甚大。AI检测工具在多个层面都是失败的：技术上，它不可靠且持续存在误判；伦理上，它对边缘化群体存在系统性偏见；教学上，它制造了侵蚀教育本意的对立关系。［18］这些失败并非通过改进算法就能修补的边缘缺陷，而是监控范式本身固有的根本性缺陷。

AI检测方法的失败在于其误解了问题的本质。挑战并非在于学生通过先进的文本生成工具以替代学习，这类工具不过是让那些在理念上本就薄弱的学习评价实践暴露其脆弱性，带回家的论文、无人监考的作业、脱离语境的练习，这些形式向来容易被替代。协同作弊、代笔及其他形式的学术不端行为早已有之。AI改变的并非替代的可能性，而是其普及程度与精密程度。正确的应对方式不是通过技术监控维系已然失效的学习评价方法，而是承认它们的过时并转向更有力的替代方案。有学者系统反思了AI时代学习评价面临的三大现实困境，即评价理念易陷于知识本位、评价方式常落入结果导向、评价支持更关注防范作弊，并指出以技术防范为核心的应对思路恰恰遮蔽了评价改革的根本方向。［19］

从苏格拉底方法到弗莱雷的批判教育学，再到当代的对话式教学，这些跨越不同世纪与语境发展起来的真知灼见，共同指向一个在当下显得尤为相关的原则，即真正的学习体现在智力参与的过程之中，而非光鲜的成品。当苏格拉底诘问对话者时，他寻求的不是正确答案，而是思考和提问的能力。当弗莱雷倡导提问式教育时，他视学生为学习的主体而非客体。当巴赫金将意识理论转化为对话性时，他将意义定位于不同视角之间的互动，而非个体心智。

这一哲学基础带来的实践影响是深远的。学习评价必须从评判提交的“制品”转向观察智识过程。［20］这一转向的评价形式多样，但统合于真实性评价理论之下。如，口试检验的是实时思考能力，协作批注使阅读过程可视化，视频演示能捕捉具身化的理解。真实性评价要求学生在具体情境中应用知识。这些方法的共同特点是要求学生不仅展示拥有知识的状态，而且展现运用知识的能力，通过聚焦那些无法被代劳的能力，使“替代”变得无关紧要。回应意外提问、在与他人想法的碰撞中构建新知、将抽象概念与生活经验相联系、在不确定性与复杂性中实时应对……这些能力是无法被AI替代的人类特质。

学习评价的转变为AI在教育过程中的角色重构创造了条件。在专注于成品的灌输式教育中，AI主要充当作弊工具。在专注于过程展示的对话模式中，AI则成为认知伙伴，学生可以利用AI生成不同视角、识别知识缺口、演练论点、探索概念领域。这项给教育带来危机的技术，由此被整合进教育目的之中。然而，这种整合需要发展新的素养。教师和学生必须学会批判性地评价AI的输出，认识其局限与偏见，并理解统计上的合理性与真正理解之间的区别。

实现这一愿景亟须进行高校评价转型。对话式教学法比传统方法需要更多资源，需要小班化教学、娴熟的引导技巧以及大量的教师发展投入，抵制当代高等教育常常优先考虑的标准化与可扩展性，挑战那些为效率而非真实性而设计的评价实践。继续沿用已被AI淘汰的学习评价方法是行不通的。问题不在于高校是否会转型，而在于其转型过程是否足够深思熟虑、目标明确。对可扩展性的需求、对个体作者身份的假定、将写作等同于思维的等式，这些都反映了教育史上特定阶段的产物，而非永恒的真理。它们的瓦解创造了空间，让我们既能重拾关于学习的古老智慧，又能发展适合当代现实的新实践。这不是怀旧，而是创造性的综合，是借助哲学传统应对技术冲击。

注：参考文献已省略，如有需要请阅读原文。

← 上一篇：田渊栋新创RSI获6.5亿融资，谷歌英伟达AMD领投下一篇：2026年人工智能+行业全景与发展趋势 →