标签

AI 挑战高考命题:十次迭代后的反思与试卷发布

发布时间:2026-06-27 22:57阅读:2

📖 这是《让 AI 学透高考命题规律,帮我出了一套物理卷》的后续篇章。依然是一次实验,远未成熟,写下这些想法与同行探讨,期待批评指正。

👉完整的试卷和参考答案(第 10 版最终稿)附在文末。

不久前我写过一篇散记,讲述自己如何利用 AI 生成物理试卷。文章发出后,评论区有教师提问:能否把试卷也公开看看?

说来有些惭愧——那份试卷我当时并未公开,老实说,那套题目确实让我眼前一亮,因为它能自动生成插图,所以上一篇推送中我展示了不少图片,但那套卷子偏向基础,与高考差距甚远,我总感觉还能做得更出色。

这条留言我一直牢记在心。我想:不如重新制作一份,于是,我与 AI 较上了劲,结果一纠缠,就纠缠了十个版本。

我没有把真题原文丢给它让它“照搬照抄”——那既无价值,也不可靠。我采取的是另一种方式:将近五年公开的江苏物理卷逐题拆解,反向提炼它反复出现的命题模式,整理成一份“范式库”,在出卷之前先输入给它。

▲ 逆向分析五年江苏卷总结的命题模式,出卷前先输入给它

第一版出炉时,乍看还挺像样。可一旦与真题并列逐题对比,就暴露了不足。于是有了第二版、第三版……每一版,我都只问它一句尖锐的问题:“诚实地说,这版与真实高考差距在哪里?”

起初,我俩都聚焦在一个字上:深。压轴题越挖越艰深。直到有一次我换了个角度提问——“你别只比较深度,比比覆盖面,高考考查的那些知识点你都涵盖到了吗?”这一对比才发现:为了深挖压轴题,我不知不觉中挤压掉了一些考点,深度,是以牺牲广度换来的。一份优秀试卷的难点在于:深度和广度如同跷跷板,必须同时压住两端。

这里要先阐明一件事:这十个版本,我没有手动修改过任何一处。每次调整,都是把意见提给它、让它重新生成。我没有亲手画过一张图、没有在 Word 里移动过一个文本框、没有改动过一个答案——全部工作,都是它完成的。

仅凭感觉判断“像不像”太过虚无。我索性依照《中国高考评价体系》的思路,把“一份试卷该与真题比较什么”拆解为命题质量八个维度,分四类——底线(科学性、规范性)、效度(内容效度、结构效度)、测量学(难度、区分度)、导向与公平,逐项评分。

▲ 八维评估:第10版对标高考真题(满分 10 = 真题水平)

结果定格在8.1:科学性、规范性这两条底线基本满分;但真正的弱点,是区分度和结构效度——说白了就是“中档题无法区分学生水平”“有些题还在考查记忆、而非考查素养”,而这恰恰是与高考差距最显著的地方。

别看打了 8.1——那是它自己衡量自己,分数这东西,自我评估,天然偏高。真正把它和高考卷放在一起比较,尤其那道压轴题,差距大得让我心里没底:它能算对、能自圆其说,可就是不“凌厉”,缺少那种让你做到一半卡住、又豁然开朗的设计。

打磨了十遍还差这么远,我逐渐意识到:问题恐怕不在某一题,而在“出卷的方法”本身。我一直是“一个人 + 一个 AI,来回打磨”。可真实高考是一整个命题组:有人专门攻克压轴题、有人紧盯覆盖面、有人充当“考生”试做查找漏洞、有人负责终审。我一个人既当命题人又当审稿人,眼界和精力都有上限。

所以我现在最大的困惑是:是否该换个方法——让多个 AI 分工协作来出卷?一个专攻压轴题、一个紧盯覆盖面、一个扮演“高考评审”专门挑刺、一个死磕数值和配图,让它们互相挑刺、来回博弈,而不是我一个人和一个 AI 死磕。这条路是否可行,我也没有想透彻,还得继续探索,也特别想听听同行的见解。

说了这么多,把整份试卷和答案都公开,供你评判、也欢迎批评。但公开之前,我最想强调的是这一点——

下面你看到的每一张图、整张试卷的排版、答案里每一步解析和每一张解题图,都是 AI 一条指令直接生成的“原貌”。我没有手动画过一张图(没打开过几何画板)、没有自己排过一行版(没在 Word 里移动过一个文本框)、没有改动过一个答案。十个版本改变的只是“出哪道题、难到什么程度”,每次也都是让它重新生成——一个像素、一个标点,我都没动手。这份“原生”程度,说实话我自己也震惊了。

📄 试卷

前两页按“左栏→右栏”阅读;压轴题单独一整页。

▲ 第1页·左栏 — 卷头 + 单选 1–4

▲ 第1页·右栏 — 单选 5–9

▲ 第2页·左栏 — 单选 10–11、实验题

▲ 第2页·右栏 — 计算 13–16

▲ 第3页 — 压轴 16(磁谱仪方向聚焦,独占一页)

✅ 参考答案及解析 · 共 5 页

逐题分析、配解题图,按“能让学生拿着自学”的标准生成——同样一处未改。

▲ 答案 第 1 页

▲ 答案 第 2 页

▲ 答案 第 3 页

▲ 答案 第 4 页

▲ 答案 第 5 页

好不好用由你判断,更欢迎在评论区批评、聊聊你的办法。👇