2026四月末AI能否解原创高中题？实测三款主流模型，豆包表现最佳

发布时间：2026-05-04 18:41阅读：9

无论是学生还是人工智能，敷衍了事永远比不上脚踏实地

文/Logo作者

本次测试的选手包括：豆包（专家版）、千问（3.5思考版）和ChatGPT（5.4thinking版）。它们代表了不同的主流大模型：国内C端用户霸主、企业级AI专家以及被视为标杆的闭源巨头。（开源DeepseekV4仍不支持图像识别）

然而对于学生而言，这其实没那么复杂。他们不关心参数或架构，也不关心谁在发布会上故事讲得好，或者指标登了几个榜首。真正重要的是一件事：哪款AI更适合实际应用。

这正是本次测试旨在回答的问题。

不过，我们不能直接使用高考题来测试谁的准确率更高，因为厂商很可能会针对这些题目进行处理，导致测试结果不再是模型的真实能力，而是厂商是否已经为这些题目做好了准备。

因此，本次测试选择了一些更新的模拟考试题和原创题，以避开以往著名的试卷，看看这些模型在没有题库答案解析的情况下表现如何。

共选择了六套试卷：4月14日的高三佛山二模数学和物理选择题、4月济南二模、4月初上海教师原创数学题、2月底广东前四联考、4月初北京名师原创数学题。至于为什么不包括文科和主观大题，因为这只是该专题的第一篇文章，之后将针对文科和大题，从思路质量、回答质量和引导水平等方面进行评估，敬请期待。

话不多说，开始测试。

对比

第一场是上周的佛山二模数学和物理试卷，挑战结果如图所示。

在测试开始前，笔者在心里对它们进行了大致排名：GPT > 千问 > 豆包，因为根据权威榜单，千问经常是国产AI的领头羊，而豆包比较下沉，可万万没想到，在首次测试中豆包表现最佳，而千问表现最差。

为什么屡次刷榜的千问会掉到后面，而豆包为什么能一下子冲到前面？是单纯的模型能力波动吗？

模型定位

带着这个疑问，笔者继续测试，结果大致相似，这种差异不再只是偶然波动，开始呈现一定的稳定性，笔者逐渐产生了一个猜想：这背后可能不是模型能力本身的问题，而是与几款产品各自服务的用户和竞争方向有关：

千问这些年更侧重企业服务能力，很多资源和优化方向更偏向To B场景：强调可接入性、业务适配、行业方案和企业级落地。而豆包的路径明显更偏向大众用户，面对的是更高频、更直接、更残酷的C端竞争。所以，在这种前提下，厂家对“用户侧体验”的投入重点可能天然不同。换句话说，To C产品要的是留存、活跃和体感，用户问一句，模型最好立刻给出一个像样、完整、还最好别太容易出错的答案；而To B产品很多时候先要解决的是交付、稳定、接口、成本和企业侧的复杂需求，两者本身的产品定位可能就不一样。

因此，笔者很难不得出一个结论：在面向普通用户的算力分配上，千问可能没有豆包那样“舍得”，它可能在成本、响应和能力之间做了更保守的平衡。

千问和豆包官网宣传页面中的“客户”明显指代不同

当然，需要强调一下，这些都是笔者的猜测，没有肯定的证据，而且模型能力随时会因为厂家的产品策略而改变。

题出错了？

后续测试继续。

左右滑动查看更多

做着做着，出现了新的异常。

在头部四校联考测试题的第一题中，豆包和千问几乎都是秒级给出了同一个答案B，语气相当肯定；而ChatGPT不仅思考了足足一分钟，最后还认为答案错了。于是，笔者重新解了一遍题，解出来发现，ChatGPT是对的，是答案错了。为了再次确认，笔者甚至去找了985好友再次验证，最后结论也一样：

接下来，我又在第九题的测试过程中，第一次发现千问竟然直接能够匹配上该题原题的讲解视频，且打开时并没有显示外部引用

← 上一篇：AI时代职场人护眼新对策：摆脱“电脑眼”困扰下一篇：AI壁纸：完美世界之清漪仙子 →