AI 让大学倒退2400年:苏格拉底式口试回归
在埃及神话里,发明之神透特把文字交给法老塔木斯,信誓旦旦地认为这是一份“福礼”:它能稳固记忆,也能让智慧更容易被传播。
塔木斯却当场拒绝。他认为文字并不会真正让人记住,只会制造“记忆”的幻象,等同于把遗忘变成同谋。
学了文字的人看起来学识渊博,讲起话来也很顺,但其内里往往空空如也,因为他们读到的只是别人的观点,而不是自己反复咀嚼、真正形成的理解。
这段情节是苏格拉底转述给斐德罗听的。苏格拉底本人终生拒绝把思想写下来,他的哲学实践始终发生在口头追问中,发生在对话、反驳、再追问的来回循环里。
两千多年以后,苏格拉底的“幽灵”用一种有点滑稽的方式重新回到大学校园。
康奈尔大学的生物医学工程教授 Chris Schaffer 要求学生提交书面作业之后,还要再参加一场持续 20 分钟的线下面对面口头答辩。他的理由很直白:「有AI,你根本没法靠口试蒙混过关。」
塔木斯当年对文字的担忧,如今被放大到他恐怕连梦里都想不到的规模,并且得到了“兑现”。
最近,《教育周刊》报道了一项针对约一千三百个美国学区的数据分析:研究发现,大约五分之一的学生与生成式人工智能的互动,牵涉到作弊、自残、欺凌以及其他不良行为。
学生们交上来的书面材料堪称完美:措辞顺畅、结构工整,像教材示范一样标准。可当教授随口追问某个细节时,现场气氛会立刻凝固。有人盯着桌面沉默,有人反复吞吞吐吐地说「这个……我觉得……」,接着声音就越来越轻。
皮尤研究中心的调查显示,超过一半的青少年已经把AI用进了学习,约10%的受访者称几乎所有作业都依赖AI来完成。
卡内基梅隆大学、麻省理工学院、加州大学洛杉矶分校和牛津大学的研究团队组织了一组随机对照实验,共有 1222 名参与者,任务包括数学推理与阅读理解。
结果表明:只要使用AI 10到15分钟,就足以在可测量的层面侵蚀人的坚持性。等AI被移除后,借助过它的人在同类任务上的表现会明显更差,也更容易在中途放弃。
研究者尤其点到了“坚持性”。坚持性是技能成长的根基,也是长期学习最有力的预测指标之一。AI能在短期内帮人跨过障碍,却也在不经意间磨损一种让人真正进步的能力:面对困难不松手的能力。
人工智能会削弱无辅助时的表现与持续投入
塔木斯担心的是,文字只会让人拥有“记忆的外壳”。而现在的状况更进一步:AI让人甚至不必维持这种外壳。答案变得随手可得,理解是否到位似乎无关紧要——只要打开对话框,一切就会重新“出现”。
苏格拉底的做法并不把重心放在答案上。它更像是在逼问中让一个人意识到:自己其实并不清楚某件事,然后真正开始思考。
他的弟子柏拉图把这种方法称作“助产术”,意思是把知识从人的内部“生长”出来,而不是从外部灌进现成的结论。
还有一个曾经被忽视的事实:口试一度是大学教育的常规样态。
过去,学生会被要求用辩论的方式捍卫自己的知识。到了19世纪,书面考试成为主流,并不是因为它更有效率,而是因为它更容易规模化:可以覆盖更多人、便于远程实施、还方便保留记录。当招生人数扩张到工业级规模时,没人能逐个当面追问,于是纸上的文字就成了替代品。
更有意思的是:人类发明了AI,AI又突破了书面考试;于是,人类又回过头来,用2400年前苏格拉底的办法来回应AI。
Schaffer 的课程只有 70 名学生,助教分担了一部分面谈工作。所有人的书面作业不再单独打分,整个考核的关键改为口试。他说这样做的目的,是「推动」学生真正把作业完成到足以讲清楚的程度。
帕诺斯·伊佩罗蒂斯教授于 2026 年 3 月 4 日在纽约大学斯特恩商学院的课程里,与 AI oral agent 展开对话 🔗 https://apnews.com/article/college-oral-exam-ai-chatgpt-77954a19f5304bfc6e76dc92d4bef3ad)
康奈尔大学的教学创新中心已把 Schaffer 的案例收录进新的“口头评估工作坊”。其他参与者还包括一位宗教研究教授,使用 30 分钟的“期末对话”替代传统考试;另外还有一门工程学课在 180 人规模里,为每位学生安排 4 分钟模拟面试。
规模是一个真实的难题。佐治亚理工学院的研究者指出:口试在研究层面已经有充分证据支持,它能提升学生对知识的理解深度、批判性思维与表达能力,但人工口试几乎无法实现规模化。
当一位教授面对 600 名学生时,即便加上助教也很难做到。而AI则让“可规模化的口试”在技术上变成可能。这个团队研发的系统,名字叫“苏格拉底之心”。
用AI来拦截AI作弊,本质上像是一场“魔法对轰”;可现实就是这么荒诞。
从技术角度看,口试作为应对策略几乎没有明显漏洞。
你无法把 Claude 带到现场替你即兴回答,追问不必太深,学生真正的理解水平就会很快暴露出来。
但我仍有一丝疑问:它不在口试本身,而在于我们对口试赋予的期待。
我们似乎默认,只要考核形式足够“严格”,学习就一定会真正发生。然而,这个设想并不完全经得起检验。
考核形式的调整只能修补某一种行为层面的偏差,却无法触及驱动偏差的底层结构——那是一套让学生更在意分数、而非更在意理解的系统。
GPA会影响奖学金,奖学金会影响留学申请,留学申请又决定职业起点。在这条链条里,「你究竟学懂了吗?」是一个昂贵的问题。很多人回答它之前,必须先回答另一个更现实的问题:「这门课的成绩会不会影响我的未来?」
如果根源不变,只堵住一个口子,漏洞就会换个地方再冒出来。
口试本质上也是对即兴表达能力的检验,而“表演水平”并不总等同于“理解深度”。有些人因为在一对一追问场景里天生更从容,并不是他们懂得更多,而是他们更不怯场、能更快组织语言、擅长临场应对。也有些人其实真正理解了内容,可压力一来就容易崩掉,说不出完整的句子。
斯坦福大学的研究者明确反对在学校大范围使用AI检测工具,原因在于这类工具的准确率波动很大;误判会对无辜学生造成严重后果,并在校园里制造弥漫的不信任氛围。
口试没有同样的误判风险,但它也存在另一种隐患:口试衡量的是“你能否在压力下把理解即兴讲出来”,而这并不等同于“你是否真的理解了”。
也许更关键的问题并不在考核形式,而在于我们从来没有认真想过:学习这件事,究竟应该带给一个人什么?
有研究者希望这项讨论能推动整个领域去重新思考——不只是优化“在有AI时,人们能做什么”,还要关注“在没有AI时,人们能做什么”。
图源:纽约客
这一代学生正在为一个他们尚看不清轮廓的未来做准备。我们反复告诉他们批判性思维很重要、坚持性很重要、独立思考很重要。道理当然都成立,但我们却很少真正停下来问他们:你觉得自己到底在学什么?这些东西将来你用得上吗?
也许,这才更接近真正的苏格拉底问法。别再急着追问“作业是不是自己写的”,而要追问“你为什么来到这门课”。
塔木斯拒绝文字,是因为他担心一种替代性的错觉:人们看上去有了智慧的样子,却失去了智慧的实质。
今天的教育者担忧的,同样也是这件事的当下版本。但苏格拉底当年的抵制,并没有阻止文字成为文明的基石,也没有阻止它与人类的智识生活长出新的共生关系。
AI是否也会被“驯化”?这个答案仍然未知。当AI把完美的表面变得廉价,教育就不得不面对一个被搁置太久的追问:什么才算真正学会了?
我想,它肯定不会是AI能输出的那种成果,不是一篇结构工整的文字报告。
它更可能是这样:当有人当面追问时,你能从自己真实经历过的思考中调出一些属于你自己的东西。哪怕不够完整,哪怕需要停顿,哪怕措辞笨拙。
那个停顿——“我想一想”的时刻——以及那种略显笨拙的表达,才是学习确实发生过的痕迹。
在苏格拉底的广场上,大概也充满着类似的停顿。
参考:https://www.adn.com/nation-world/2026/04/22/perfect-homework-blank-stares-why-colleges-are-turning-to-oral-exams-to-combat-ai/