GPT-5.5登顶AI智商榜：136分超越人类，这项新评测引争议

发布时间：2026-05-14 23:07阅读：12

新网站给50余款AI模型打“智商分”，引发业界激烈争辩

2026年5月13日，名为AI IQ（aiiq.org）的网站正式发布，立刻在AI领域激起千层浪[1]。

创始人Ryan Shea（Stacks联合创始人）搞了个大胆举动：将全球50多个大模型映射到人类IQ的钟形曲线上打分。

这一结果立刻在社交媒体上引发热议：

“非常有价值！比起看那些冗长的表格，这种直观的分数更能理解模型进步。” ——技术评论员 Thibaut Mélen

“纯属胡说八道。AI的能力是锯齿状的，这分数地图并非真实领土。” ——AI Deeply（AI评论账号）

两派观点针锋相对，AI IQ 究竟是创新还是误导？

GPT-5.5以136分领跑榜单，其“智力”已超越人类平均水平（100），并正式突破门萨俱乐部的130分门槛——它有资格成为门萨会员。

中国模型多集中在112-118分，处于“性价比最佳区间”——对于非高精尖任务，这些模型是更经济的选择[3]。

除智商外，AI IQ 还引入了情商（EQ）维度：

有趣的是：Opus 4.7在情商上胜出，GPT-5.5在智商上拔得头筹——这意味着不存在绝对的“全能型AI”[4]。

AI IQ 通过12个基准测试，将其划分为四个维度：

抽象推理：ARC-AGI-1/2

数学推理：FrontierMath、AIME、ProofBench

编程能力：Terminal-Bench 2.0、SWE-Bench Verified、SciCode

学术推理：Humanity’s Last Exam、GPQA Diamond

最终智商 = ¼ (IQ_抽象 + IQ_数学 + IQ_编程 + IQ_学术）

情商评分由Claude评估：存在“偏向Anthropic”的风险，AI IQ主动减去200分进行校正[5]

缺失数据处理：模型需在至少两个维度得分，缺失项会导致分数降低而非升高

天花板压缩：对已饱和的基准测试进行压缩，防止分数无限制膨胀

对企业采购方而言，最有用的不是智商排名，而是“智商vs有效成本”散点图：

对企业采购者而言：最聪明的模型未必最划算。

“非常有用。这种映射方式比看另一个巨大的表格更容易理解模型进展。” ——Thibaut Mélen

“这与我的实际体验相符。Sonnet 4.6才是真正的‘工作马’，而非 Opus 4.5。” ——X用户@ovsky

价值所在：

将复杂的模型能力可视化

提供跨厂商对比的唯一框架

为企业采购提供决策参考

“纯属胡扯。AI的能力是锯齿状的，地图不是领土。” ——AI Deeply

“IQ作为代理正在过时——我们看到的是推理密度的爆发，但不能映射到g因子。” ——@Zaya

存在的批评：

方法论不透明：校正曲线的创建方式未完全公开

锯齿状问题：AI模型在不同任务上表现差异巨大，单一分数掩盖了这一点。NYT在2026年4月曾深度报道，揭示AI“锯齿状智能”的特征——在研究生级物理上表现出色，却在儿童能完成的任务上失败[1]

数据污染：部分基准测试已被污染，分数失真

新基准冲击：ARC AGI 3新一代基准测试可能推翻现有分数[1]

“GPT-5.5在MMLU-Pro上已饱和，但ClockBench仍有50%失败率。” ——@Zaya

背景：超过50个前沿模型可用，来自至少14家厂商（中美欧）——每家厂商都发布自己的基准测试，往往“只展示好的”。

创始人背景：Ryan Shea是Stacks联合创始人，曾投资OpenSea、Lattice、Anchorage、Mercury等公司[1]。

关键数据：2023年10月，GPT-4-turbo仅有75分；2026年初，顶尖模型已达135分——30个月涨了60分。

AI IQ的出现提供了一个统一框架，让不同厂商的模型可以直接对比。

“现在人类的角色只是‘编排’？” ——@Debdoot Ghosh

如果AI IQ的数据说明了什么，那就是：知道何时用何种模型，比单纯追求最贵的模型更重要。

对于企业部署，智能路由（routing）——用昂贵模型解决难题，用廉价模型处理简单任务——不再是可选项，而是必选项。更关键的是，网站还提供IQ+EQ+有效成本的三维可视化——绿色端=高IQ+高EQ+低成本，红色端=牺牲能力或成本效率。

编排能力——知道何时用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这一点。

GPT-5.5达到136分，意味着：

AI首次正式越过“人类前2%”的门萨线（130）

视觉智商（145）甚至超越了门萨“天才区”

但这不代表“通用智能”——AI仍是“偏科生”

AI IQ并非完美的评测系统。

它存在方法论的盲点

其IQ隐喻可能具有误导性

创建者承认存在已知偏差，但也可能存在未知偏差

但其他选择——在数十个厂商特定的表格中游动，每个用不同的测试套件——更糟糕。

对于企业采购：IQ+EQ+成本的三维图表揭示了一个真相——“哪个模型最好”的答案几乎永远是“取决于任务”。

对于从业者，这意味着：编排能力——知道何时用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这一点。

AI IQ网站用136分证明了AI的“智商”超越人类，但真正重要的是我们学会了：没有最好的模型，只有最合适的模型组合。

AI IQ网站上线 - VentureBeat

GPT-5.5智商突破人类极限 - 新浪新闻

2026年AI大模型IQ和EQ排行榜 - Weste

GPT-5.5智商136拔得头筹 - 0xzx

AI IQ网站 - 官网

← 上一篇：腾讯财报AI布局加速下一篇：报名开启|AI 重塑金融格局，北大首届学生创新学社论坛重磅来袭 →