标签

五款主流AI挑战高考作文:豆包以56分领先,揭示“真情实感”才是关键

发布时间:2026-06-10 01:42来源:微信阅读:3

2026年6月7日深夜。

高考语文科目结束仅数小时,一场未经官方批准的“特殊考核”在武汉秘密展开。

五款中国最具影响力的AI大模型——豆包、元宝、DeepSeek、千问、ChatGPT——被邀请进入“考场”,限时完成2026年全国I卷的作文题目。

命题者是人,监考者是人,评分者也是人——武汉市六中原语文教师黄德灿,曾长期担任湖北省高考阅卷作文组组长。

这并非AI公司的宣传噱头,而是一次以最传统方式探索AI能力边界的严肃实验。

成绩揭晓后,全场沉默了数秒。

豆包以56分位居榜首。元宝紧随其后。DeepSeek位列第三。千问和ChatGPT则排名靠后。

56分,满分60。在高考作文评分体系中,这属于“二类文上段”——表现尚可,但距离顶尖仍有差距。

真正令人深思的,并非分数本身,而是黄德灿老师在点评时所说的那句话——

“AI不是人,考生有情感。”

这句话,或许比任何技术评估都更值得深入探讨。

先看成绩。

豆包凭借《从“远方”到“当下”:一个词的成长叙事》获得第一。黄德灿老师的评价颇为审慎——他认为豆包在感性、理性、人性三个层面表现最佳。

感性,意味着素材鲜活、文采斐然。理性,意味着具备质疑思辨能力,能透过表象看本质。人性,意味着对人性有深刻的挖掘与认识。

这并非空洞的赞美。在高考作文的评分准则中,这三个维度恰好对应着一篇“优秀作文”的核心要素。豆包能同时在这三方面获得阅卷组长的认可,说明它确实“表现优异”。

但“优异”似乎已是极限。

黄老师未给任何一篇AI作文评定为“一类文”。56分为最高分,其余四篇分数更低。没有满分,没有一类文,甚至没有接近满分的作品。

这说明什么?说明在“工整”“规范”“逻辑清晰”这些AI擅长的领域,它确实做到了。但在“惊艳”“独特”“令人读后陷入沉思”这些方面,却无一成功。

如果说豆包“模拟”出了真情实感,那么DeepSeek就是“模拟到一半就露馅了”。

黄老师对DeepSeek的评价颇为有趣,先扬后抑,用词克制却直击要害——

优点:“情感真挚、结构完整、时代气息浓厚。”缺点:“大学毕业之后的素材显得虚假。”

“虚假”这个评价分量极重。

不是“不够生动”,不是“略显平淡”,不是“尚需改进”。一位在高考阅卷领域深耕二十余年的资深教师,用“虚假”来评价AI的写作——这几乎是最严厉的批评。

但这一批评精准得令人无法辩驳。

DeepSeek的作文《故乡与我同变》呈现了一个从“逃离”到“回归”再到“共建”的心理轨迹。前半部分确实动人,因为它描绘的是“离开故乡”的体验——这在无数AI训练数据中都有素材,AI可以“拼凑”出看似真实的情感。

但写到“大学毕业之后”的段落时,问题出现了。

因为大学毕业后的生活经历——工作的迷茫、社会关系的复杂、与父母关系的微妙变化——这些是需要真正经历过才能书写的内容。AI没有“生活过”,它只能“编造”,而阅卷老师一眼就能分辨“编造”与“真实”的差异。

这并非DeepSeek独有的问题。黄老师指出,除豆包外,其他AI作文普遍存在“仅提及一个表象材料就开始阐述大道理”的缺陷。

“共性鲜明,个性平庸”——这八个字,是对当前AI写作能力最精准的评判。

这次测评,与其说是测试AI的写作能力,不如说是帮助我们认清人类写作中哪些方面是不可替代的。

我将黄老师的点评,结合我对写作教育的理解,总结为AI永远无法合成的三项核心能力:

AI的“记忆”并非真正的记忆,而是数据。它可以在训练数据中找到关于“雨天”“离别”“火车站”的无数描述片段,然后“拼凑”出一段看似真实的文字。但拼凑≠经历。

当一个真正经历过“高考前夜与父亲在阳台枯坐一整晚”的人书写这段经历时,他写下的不是“文字”,而是“温度”——那种空气中的沉默、远处传来的蝉鸣、父亲手中烟头的明灭。

AI可以写出类似场景的文字,但它永远无法体会那种沉默的滋味。

豆包的作文之所以胜出,是因为它“模拟”了一个人的认知转变过程——从“向往远方”到“发现远方就在脚下”。这个转变是算法推导出来的,结构完整,逻辑通顺。

但一个人从“叛逆”走到“理解”,中间经历的不是逻辑推导,而是真实的挣扎、妥协、以及最终的无奈接受。这种“转变的重量”,只有真正生活过的人才能书写。

AI可以写出“转变”的形式,却无法写出“转变”的重量。

真正的高分高考作文,往往带有一点“冒险”的特质——作者可能在结构上做了一个反常规的尝试,在观点上提出了一个“可能引发争议”的判断,在语言上用了一个“不太规范但恰到好处”的表达。

这种冒险,源于一个人的判断力和勇气——他清楚这样写存在风险,但他相信阅卷老师能理解他的意图。

AI天生规避风险。它会选择最安全的表达、最中庸的观点、最工整的结构。因为AI的训练目标就是“生成概率最高的输出”——而“最高概率”与“最有价值”,从来不是同一回事。

这次AI作文PK给所有关注教育的家长,上了一堂非常直观的“写作教育课”。我的建议是:

别再让孩子死记硬背万能素材了。AI比任何素材库都更万能。

真正该做的是:鼓励孩子记录真实的、微小的、有温度的生活片段——食堂阿姨多给的一勺菜、雨天公交车上陌生人递来的纸巾、与父母争吵后独自在阳台吹风的那个夜晚、考砸了之后不敢回家的那种脚步……

这些东西,AI无法书写。但阅卷老师最想看到的,正是这些。

黄老师所说的“透过现象看本质”,考的不是文采,而是思考力。

从今天开始,陪孩子讨论新闻时多问一句:“你觉得这件事的反面是什么?”陪孩子看电影后多聊一句:“如果换一个结局会怎样?”

思考力,是AI目前最大的短板,也是人类最大的优势。

56分是AI的天花板。但你的孩子写的可能不够工整、不够漂亮,却可能带着一种AI永远无法复制的“东西”——

他/她是真的经历了那些事,真的有过那些想法,真的流过那些眼泪。

这些东西落在纸上,可能不够60分,但一定是“活的”。

这次五款AI同写高考作文的实验,最有价值的结论不是“谁能胜出”,而是——

AI越强大,人类写作的“不可替代性”就越清晰。

AI可以帮我们查资料、列提纲、润色语言。但它无法帮我们经历人生、形成判断、和这个世界建立真实的情感连接。

那些东西,只有你自己能写。

而高考作文——这个被无数人吐槽“形式化”“套路化”的考试——恰恰在这次AI PK中被证明:它考的,从来都不是“写得工整不工整”。

它考的是:你是不是一个有真实感受、有独立思考、有表达勇气的人。

AI暂时做不到。

所以,你的孩子还需要认真学写作。不是学怎么模仿AI的工整,而是学怎么写出AI写不出的“真实”。