五款主流AI挑战高考作文：豆包以56分领先，揭示“真情实感”才是关键

发布时间：2026-06-10 01:42阅读：21

2026年6月7日深夜。

高考语文科目结束仅数小时，一场未经官方批准的“特殊考核”在武汉秘密展开。

五款中国最具影响力的AI大模型——豆包、元宝、DeepSeek、千问、ChatGPT——被邀请进入“考场”，限时完成2026年全国I卷的作文题目。

命题者是人，监考者是人，评分者也是人——武汉市六中原语文教师黄德灿，曾长期担任湖北省高考阅卷作文组组长。

这并非AI公司的宣传噱头，而是一次以最传统方式探索AI能力边界的严肃实验。

成绩揭晓后，全场沉默了数秒。

豆包以56分位居榜首。元宝紧随其后。DeepSeek位列第三。千问和ChatGPT则排名靠后。

56分，满分60。在高考作文评分体系中，这属于“二类文上段”——表现尚可，但距离顶尖仍有差距。

真正令人深思的，并非分数本身，而是黄德灿老师在点评时所说的那句话——

“AI不是人，考生有情感。”

这句话，或许比任何技术评估都更值得深入探讨。

先看成绩。

豆包凭借《从“远方”到“当下”：一个词的成长叙事》获得第一。黄德灿老师的评价颇为审慎——他认为豆包在感性、理性、人性三个层面表现最佳。

感性，意味着素材鲜活、文采斐然。理性，意味着具备质疑思辨能力，能透过表象看本质。人性，意味着对人性有深刻的挖掘与认识。

这并非空洞的赞美。在高考作文的评分准则中，这三个维度恰好对应着一篇“优秀作文”的核心要素。豆包能同时在这三方面获得阅卷组长的认可，说明它确实“表现优异”。

但“优异”似乎已是极限。

黄老师未给任何一篇AI作文评定为“一类文”。56分为最高分，其余四篇分数更低。没有满分，没有一类文，甚至没有接近满分的作品。

这说明什么？说明在“工整”“规范”“逻辑清晰”这些AI擅长的领域，它确实做到了。但在“惊艳”“独特”“令人读后陷入沉思”这些方面，却无一成功。

如果说豆包“模拟”出了真情实感，那么DeepSeek就是“模拟到一半就露馅了”。

黄老师对DeepSeek的评价颇为有趣，先扬后抑，用词克制却直击要害——

优点：“情感真挚、结构完整、时代气息浓厚。”缺点：“大学毕业之后的素材显得虚假。”

“虚假”这个评价分量极重。

不是“不够生动”，不是“略显平淡”，不是“尚需改进”。一位在高考阅卷领域深耕二十余年的资深教师，用“虚假”来评价AI的写作——这几乎是最严厉的批评。

但这一批评精准得令人无法辩驳。

DeepSeek的作文《故乡与我同变》呈现了一个从“逃离”到“回归”再到“共建”的心理轨迹。前半部分确实动人，因为它描绘的是“离开故乡”的体验——这在无数AI训练数据中都有素材，AI可以“拼凑”出看似真实的情感。

但写到“大学毕业之后”的段落时，问题出现了。

因为大学毕业后的生活经历——工作的迷茫、社会关系的复杂、与父母关系的微妙变化——这些是需要真正经历过才能书写的内容。AI没有“生活过”，它只能“编造”，而阅卷老师一眼就能分辨“编造”与“真实”的差异。

这并非DeepSeek独有的问题。黄老师指出，除豆包外，其他AI作文普遍存在“仅提及一个表象材料就开始阐述大道理”的缺陷。

“共性鲜明，个性平庸”——这八个字，是对当前AI写作能力最精准的评判。

这次测评，与其说是测试AI的写作能力，不如说是帮助我们认清人类写作中哪些方面是不可替代的。

我将黄老师的点评，结合我对写作教育的理解，总结为AI永远无法合成的三项核心能力：

AI的“记忆”并非真正的记忆，而是数据。它可以在训练数据中找到关于“雨天”“离别”“火车站”的无数描述片段，然后“拼凑”出一段看似真实的文字。但拼凑≠经历。

当一个真正经历过“高考前夜与父亲在阳台枯坐一整晚”的人书写这段经历时，他写下的不是“文字”，而是“温度”——那种空气中的沉默、远处传来的蝉鸣、父亲手中烟头的明灭。

AI可以写出类似场景的文字，但它永远无法体会那种沉默的滋味。

豆包的作文之所以胜出，是因为它“模拟”了一个人的认知转变过程——从“向往远方”到“发现远方就在脚下”。这个转变是算法推导出来的，结构完整，逻辑通顺。

但一个人从“叛逆”走到“理解”，中间经历的不是逻辑推导，而是真实的挣扎、妥协、以及最终的无奈接受。这种“转变的重量”，只有真正生活过的人才能书写。

AI可以写出“转变”的形式，却无法写出“转变”的重量。

真正的高分高考作文，往往带有一点“冒险”的特质——作者可能在结构上做了一个反常规的尝试，在观点上提出了一个“可能引发争议”的判断，在语言上用了一个“不太规范但恰到好处”的表达。

这种冒险，源于一个人的判断力和勇气——他清楚这样写存在风险，但他相信阅卷老师能理解他的意图。

AI天生规避风险。它会选择最安全的表达、最中庸的观点、最工整的结构。因为AI的训练目标就是“生成概率最高的输出”——而“最高概率”与“最有价值”，从来不是同一回事。

这次AI作文PK给所有关注教育的家长，上了一堂非常直观的“写作教育课”。我的建议是：

别再让孩子死记硬背万能素材了。AI比任何素材库都更万能。

真正该做的是：鼓励孩子记录真实的、微小的、有温度的生活片段——食堂阿姨多给的一勺菜、雨天公交车上陌生人递来的纸巾、与父母争吵后独自在阳台吹风的那个夜晚、考砸了之后不敢回家的那种脚步……

这些东西，AI无法书写。但阅卷老师最想看到的，正是这些。

黄老师所说的“透过现象看本质”，考的不是文采，而是思考力。

从今天开始，陪孩子讨论新闻时多问一句：“你觉得这件事的反面是什么？”陪孩子看电影后多聊一句：“如果换一个结局会怎样？”

思考力，是AI目前最大的短板，也是人类最大的优势。

56分是AI的天花板。但你的孩子写的可能不够工整、不够漂亮，却可能带着一种AI永远无法复制的“东西”——

他/她是真的经历了那些事，真的有过那些想法，真的流过那些眼泪。

这些东西落在纸上，可能不够60分，但一定是“活的”。

这次五款AI同写高考作文的实验，最有价值的结论不是“谁能胜出”，而是——

AI越强大，人类写作的“不可替代性”就越清晰。

AI可以帮我们查资料、列提纲、润色语言。但它无法帮我们经历人生、形成判断、和这个世界建立真实的情感连接。

那些东西，只有你自己能写。

而高考作文——这个被无数人吐槽“形式化”“套路化”的考试——恰恰在这次AI PK中被证明：它考的，从来都不是“写得工整不工整”。

它考的是：你是不是一个有真实感受、有独立思考、有表达勇气的人。

AI暂时做不到。

所以，你的孩子还需要认真学写作。不是学怎么模仿AI的工整，而是学怎么写出AI写不出的“真实”。

← 上一篇：独立开发周记:ChatTCP AI诊断功能上线,智能分析TCP数据包成为现实下一篇：为何AI助手难以落地业务 →