GPT-5.5登顶AI智商榜:136分超越人类,这项新评测引争议
新网站给50余款AI模型打“智商分”,引发业界激烈争辩
2026年5月13日,名为AI IQ(aiiq.org)的网站正式发布,立刻在AI领域激起千层浪[1]。
创始人Ryan Shea(Stacks联合创始人)搞了个大胆举动:将全球50多个大模型映射到人类IQ的钟形曲线上打分。
这一结果立刻在社交媒体上引发热议:
“非常有价值!比起看那些冗长的表格,这种直观的分数更能理解模型进步。” ——技术评论员 Thibaut Mélen
“纯属胡说八道。AI的能力是锯齿状的,这分数地图并非真实领土。” ——AI Deeply(AI评论账号)
两派观点针锋相对,AI IQ 究竟是创新还是误导?
GPT-5.5以136分领跑榜单,其“智力”已超越人类平均水平(100),并正式突破门萨俱乐部的130分门槛——它有资格成为门萨会员。
中国模型多集中在112-118分,处于“性价比最佳区间”——对于非高精尖任务,这些模型是更经济的选择[3]。
除智商外,AI IQ 还引入了情商(EQ)维度:
有趣的是:Opus 4.7在情商上胜出,GPT-5.5在智商上拔得头筹——这意味着不存在绝对的“全能型AI”[4]。
AI IQ 通过12个基准测试,将其划分为四个维度:
抽象推理:ARC-AGI-1/2
数学推理:FrontierMath、AIME、ProofBench
编程能力:Terminal-Bench 2.0、SWE-Bench Verified、SciCode
学术推理:Humanity’s Last Exam、GPQA Diamond
最终智商 = ¼ (IQ_抽象 + IQ_数学 + IQ_编程 + IQ_学术)
情商评分由Claude评估:存在“偏向Anthropic”的风险,AI IQ主动减去200分进行校正[5]
缺失数据处理:模型需在至少两个维度得分,缺失项会导致分数降低而非升高
天花板压缩:对已饱和的基准测试进行压缩,防止分数无限制膨胀
对企业采购方而言,最有用的不是智商排名,而是“智商vs有效成本”散点图:
对企业采购者而言:最聪明的模型未必最划算。
“非常有用。这种映射方式比看另一个巨大的表格更容易理解模型进展。” ——Thibaut Mélen
“这与我的实际体验相符。Sonnet 4.6才是真正的‘工作马’,而非 Opus 4.5。” ——X用户@ovsky
价值所在:
将复杂的模型能力可视化
提供跨厂商对比的唯一框架
为企业采购提供决策参考
“纯属胡扯。AI的能力是锯齿状的,地图不是领土。” ——AI Deeply
“IQ作为代理正在过时——我们看到的是推理密度的爆发,但不能映射到g因子。” ——@Zaya
存在的批评:
方法论不透明:校正曲线的创建方式未完全公开
锯齿状问题:AI模型在不同任务上表现差异巨大,单一分数掩盖了这一点。NYT在2026年4月曾深度报道,揭示AI“锯齿状智能”的特征——在研究生级物理上表现出色,却在儿童能完成的任务上失败[1]
数据污染:部分基准测试已被污染,分数失真
新基准冲击:ARC AGI 3新一代基准测试可能推翻现有分数[1]
“GPT-5.5在MMLU-Pro上已饱和,但ClockBench仍有50%失败率。” ——@Zaya
背景:超过50个前沿模型可用,来自至少14家厂商(中美欧)——每家厂商都发布自己的基准测试,往往“只展示好的”。
创始人背景:Ryan Shea是Stacks联合创始人,曾投资OpenSea、Lattice、Anchorage、Mercury等公司[1]。
关键数据:2023年10月,GPT-4-turbo仅有75分;2026年初,顶尖模型已达135分——30个月涨了60分。
AI IQ的出现提供了一个统一框架,让不同厂商的模型可以直接对比。
“现在人类的角色只是‘编排’?” ——@Debdoot Ghosh
如果AI IQ的数据说明了什么,那就是:知道何时用何种模型,比单纯追求最贵的模型更重要。
对于企业部署,智能路由(routing)——用昂贵模型解决难题,用廉价模型处理简单任务——不再是可选项,而是必选项。更关键的是,网站还提供IQ+EQ+有效成本的三维可视化——绿色端=高IQ+高EQ+低成本,红色端=牺牲能力或成本效率。
编排能力——知道何时用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这一点。
GPT-5.5达到136分,意味着:
AI首次正式越过“人类前2%”的门萨线(130)
视觉智商(145)甚至超越了门萨“天才区”
但这不代表“通用智能”——AI仍是“偏科生”
AI IQ并非完美的评测系统。
它存在方法论的盲点
其IQ隐喻可能具有误导性
创建者承认存在已知偏差,但也可能存在未知偏差
但其他选择——在数十个厂商特定的表格中游动,每个用不同的测试套件——更糟糕。
对于企业采购:IQ+EQ+成本的三维图表揭示了一个真相——“哪个模型最好”的答案几乎永远是“取决于任务”。
对于从业者,这意味着:编排能力——知道何时用什么模型、花多少钱——已经成为一种新的智能形式。目前还没有基准测试能衡量这一点。
AI IQ网站用136分证明了AI的“智商”超越人类,但真正重要的是我们学会了:没有最好的模型,只有最合适的模型组合。
AI IQ网站上线 - VentureBeat
GPT-5.5智商突破人类极限 - 新浪新闻
2026年AI大模型IQ和EQ排行榜 - Weste
GPT-5.5智商136拔得头筹 - 0xzx
AI IQ网站 - 官网