标签

2026四月末AI能否解原创高中题?实测三款主流模型,豆包表现最佳

发布时间:2026-05-04 18:41来源:微信阅读:5

无论是学生还是人工智能,敷衍了事永远比不上脚踏实地

文/Logo作者

本次测试的选手包括:豆包(专家版)、千问(3.5思考版)和ChatGPT(5.4thinking版)。它们代表了不同的主流大模型:国内C端用户霸主、企业级AI专家以及被视为标杆的闭源巨头。(开源DeepseekV4仍不支持图像识别)

然而对于学生而言,这其实没那么复杂。他们不关心参数或架构,也不关心谁在发布会上故事讲得好,或者指标登了几个榜首。真正重要的是一件事:哪款AI更适合实际应用。

这正是本次测试旨在回答的问题。

不过,我们不能直接使用高考题来测试谁的准确率更高,因为厂商很可能会针对这些题目进行处理,导致测试结果不再是模型的真实能力,而是厂商是否已经为这些题目做好了准备。

因此,本次测试选择了一些更新的模拟考试题和原创题,以避开以往著名的试卷,看看这些模型在没有题库答案解析的情况下表现如何。

共选择了六套试卷:4月14日的高三佛山二模数学和物理选择题、4月济南二模、4月初上海教师原创数学题、2月底广东前四联考、4月初北京名师原创数学题。至于为什么不包括文科和主观大题,因为这只是该专题的第一篇文章,之后将针对文科和大题,从思路质量、回答质量和引导水平等方面进行评估,敬请期待。

话不多说,开始测试。

对比

第一场是上周的佛山二模数学和物理试卷,挑战结果如图所示。

在测试开始前,笔者在心里对它们进行了大致排名:GPT > 千问 > 豆包,因为根据权威榜单,千问经常是国产AI的领头羊,而豆包比较下沉,可万万没想到,在首次测试中豆包表现最佳,而千问表现最差。

为什么屡次刷榜的千问会掉到后面,而豆包为什么能一下子冲到前面?是单纯的模型能力波动吗?

模型定位

带着这个疑问,笔者继续测试,结果大致相似,这种差异不再只是偶然波动,开始呈现一定的稳定性,笔者逐渐产生了一个猜想:这背后可能不是模型能力本身的问题,而是与几款产品各自服务的用户和竞争方向有关:

千问这些年更侧重企业服务能力,很多资源和优化方向更偏向To B场景:强调可接入性、业务适配、行业方案和企业级落地。而豆包的路径明显更偏向大众用户,面对的是更高频、更直接、更残酷的C端竞争。所以,在这种前提下,厂家对“用户侧体验”的投入重点可能天然不同。换句话说,To C产品要的是留存、活跃和体感,用户问一句,模型最好立刻给出一个像样、完整、还最好别太容易出错的答案;而To B产品很多时候先要解决的是交付、稳定、接口、成本和企业侧的复杂需求,两者本身的产品定位可能就不一样。

因此,笔者很难不得出一个结论:在面向普通用户的算力分配上,千问可能没有豆包那样“舍得”,它可能在成本、响应和能力之间做了更保守的平衡。

千问和豆包官网宣传页面中的“客户”明显指代不同

当然,需要强调一下,这些都是笔者的猜测,没有肯定的证据,而且模型能力随时会因为厂家的产品策略而改变。

题出错了?

后续测试继续。

左右滑动查看更多

做着做着,出现了新的异常。

在头部四校联考测试题的第一题中,豆包和千问几乎都是秒级给出了同一个答案B,语气相当肯定;而ChatGPT不仅思考了足足一分钟,最后还认为答案错了。于是,笔者重新解了一遍题,解出来发现,ChatGPT是对的,是答案错了。为了再次确认,笔者甚至去找了985好友再次验证,最后结论也一样:

接下来,我又在第九题的测试过程中,第一次发现千问竟然直接能够匹配上该题原题的讲解视频,且打开时并没有显示外部引用