大模型社交智商试金石！杜克与斯坦福：Connections揭示AI心智理论致命缺陷

发布时间：2026-06-19 16:31阅读：1

本文深度剖析杜克大学&斯坦福大学合作论文《Improvisational Games as a Benchmark for Social Intelligence of AI Agents》，首次将即兴文字游戏Connections确立为AI社交智能的权威标尺。与传统纯理性评测不同，该游戏精准刺中大模型的核心软肋：推断他人认知范畴、多智能体协同博弈、实时调适社交情境。GPT-4o多智能体实测结果确凿：当下LLM推理虽臻满分，社交智能尚不及格！

大语言模型的能力疆域正持续拓展：MMLU刷题登峰造极、代码产出媲美开发者、数理推演破解竞赛难题。然而一个关键盲区长期被漠视—— AI具备卓越的个体思辨力，却匮乏人类水准的「社交智商」。

何为社交智商？并非浅层的言语往来，而是洞察他人的知识版图、预判竞争者的抉择、在合作中权衡「明晰度」与「隐匿性」，恰如《生活大爆炸》里谢尔顿折戟你画我猜：提示于己天衣无缝，搭档却茫然不解。

传统LLM评测体系（MMLU、GSM8K）仅考察单向推演，全然无力测度此种核心素养。这篇顶会论文革新性主张：即兴文字游戏Connections，乃评估AI社交智能的至上范式，为AGI的社会化素养评测树立了产业化标杆！

Connections是风靡全球的多人即兴文字竞技，规则简明却极深拷问心智理论（Theory of Mind），论文将其抽象为3人零和协作博弈：

此游戏的内核难点，亦是社交智商的真谛：线索不可过显（遭出题者截获），亦不可过隐（队友无从猜起），精确拿捏他人的认知疆界，是人类社交的天性，却是AI的困局。

论文清晰指明，既有LLM评测架构存在结构性短板，而Connections恰好补足三大层面：

博弈中AI须精通三类进阶线索技艺，缺一不可：

而此恰为当前大模型的绝对盲区：AI能够产出 flawless 线索，却无法研判「此线索队友能否领会、竞争者会否阻截」。

研究依托GPT-4o搭建3智能体闭环，检验18个各异难度英文词汇，累积逾1500轮博弈，量化指标全维覆盖：

曲线清晰昭示：初期迭代频密、解锁迟缓，后期字母解锁增速，然模型呈现反人类异常举动——明明前缀已锚定目标词汇，仍屡屡猜测生僻罕见词，揭露AI缺失「常识性社交预判」。

论文经由千轮博弈，首度量化当下大模型的社交智能短板，论断切中肯綮：

鉴于3个智能体皆基于GPT-4o，语义认知完全重合：猜题者输出的线索，出题者100%可破解，协作成功率低于10%。而人类玩家会借助专属知识、文化梗制造信息壁垒，此乃AI目前无从自发达成的。

AI可借助上下文注入角色设定（如「你是医师，采用医学术语」）达成差异化线索，却无法自发习得队友的认知疆界。人类博弈3轮即可摸清队友的知识库存，AI博弈100轮仍在随机产出线索，毫无动态适配之力。

AI能生成极精妙的语义线索，却不会进行社交权衡：要么线索过露被截获，要么过隐队友难懂，始终寻不到最优平衡。论文推演的最优线索概率公式证实：2人猜题时，线索准确率50%为最优，而AI始终在0%/100%两极震荡。

论文不止步于实验，更构建了可量化的社交智能运算框架，为后续精进供给理论基石：

此乃首个将AI社交智能数理化的框架，彻底终结「社交智能只可定性、无能定量」的行业困局。

这篇论文的价值，不在于检测AI会不会竞技，而在于重新厘定了智能的边界：

当AI可如人类一般，道出一句「唯独你懂的线索」，那方为通用智能真正的界碑。而此篇论文，正是我们迈向该目标的关键首步。

全文约2000字 | 图表数据皆源自论文原生实验聚焦AI前沿研究阐释 | 点赞收藏，获取完整实验Prompt与数据集你认为AI何时能拥有真正的「社交心智」？评论区分享你的见解！

← 上一篇：AI 浪潮下，让孩子赢在现实世界下一篇：头部企业重金争夺AI产品经理！ →