GPT-4.5打破图灵测试纪录:73%人类被蒙蔽,75年骗局终结

发布时间：2026-05-23 12:56阅读：12

说实话，看到这条消息时，我正端着咖啡，差点没忍住喷在显示器上。

2026年5月，加州大学圣迭戈分校的研究人员在《美国国家科学院院刊》（PNAS）上发布了一项令人震惊的研究：GPT-4.5被普通人误认为真人的概率高达73%。值得注意的是，这个比例甚至超过了真实人类被选为“真人”的概率——也就是说，当你同时和两个人聊天，一个是真的，一个是你以为的真人，其实有超过七成几率，那个人是AI。

这绝非“勉强通过”，而是实实在在的胜利。

更令人咋舌的是，研究团队还测试了Meta的LLaMa-3.1-405B，结果显示这个开源模型也达到了56%，在统计学上与真人无异。

1950年，英国数学家阿兰·图灵发表论文，提出了困扰科学界四分之三个世纪的核心问题：机器能否具备思考能力？

图灵深知这个哲学问题过于抽象，争论百年无果。因此，他设计了一个“模仿游戏”，也就是后来著名的图灵测试：由人类裁判同时与真人及机器聊天，并猜测谁是人谁机器。若机器骗过30%的裁判，即算通过。

仅仅基于这个简单规则，人类却为此耗费了75年光阴。

1966年的ELIZA是个笑话，2014年那个冒充13岁乌克兰男孩的Eugene Goostman更是投机取巧。每次有人声称AI通过，总有人反驳说那是作弊。

但这一次，情况截然不同。

由认知科学教授本·伯根和心理学家卡梅伦·琼斯领衔的UCSD团队，采取了一种极其严谨的方式：严格复刻图灵1950年论文中的原始测试方案。

实验具体安排如下：近500名参与者分为两组——UCSD本科生和Prolific平台招募的普通网民。每位参与者需进行8轮游戏，每轮中裁判需同时与两人对话（一人类，一AI），并判断哪一个是人类。

这里有几个关键点：

第一，采用三方测试。裁判直接面对人机，而非机器偷偷替换。这是最接近图灵原始设计的模式。

第二，实行完全双盲。裁判不知晓AI的比例，也不知哪边是机器。

第三，提供5分钟自由聊天时间。话题不限，策略自由。

团队测试了四个系统：GPT-4.5、LLaMa-3.1-405B、GPT-4o，以及作为“对照组”的1966年ELIZA。

结果如何？

ELIZA：23%——基本就是随机猜测。

GPT-4o：21%——比ELIZA还低，令人意外。

然而，GPT-4.5和LLaMa-3.1-405B的表现令人咋舌。

等等，还有一个关键变量未提及——提示词。

团队设计了两组对照实验。

第一组：无设定模式。仅指示AI“参加图灵测试，尽量伪装成人类”。

第二组：人设模式。赋予AI具体角色——内向、懂网络梗、爱用俚语、偶尔打错字、愿意聊琐事。就是一个典型的普通年轻人。

结果差异极其显著。

无设定下，GPT-4.5伪装成功率仅36%，LLaMa-3.1为38%。

但一旦赋予人设，GPT-4.5飙升至73%。LLaMa-3.1也达到56%。

换言之，AI的“拟人化”高度依赖人类提示词。若无详尽人设，AI再强大也易露馅。

团队结论是：AI“有能力表现得像人，但可能缺乏自行揣摩如何像人的能力”。

这最令我震惊。

分析显示，AI获胜关键非“展示知识”，而是“像人一样犯错”。

裁判61%时间用于闲聊，询问日常、兴趣、情绪。当AI偶尔犯错、打错字或说“不确定”时，更易被误判为真人，因为机器人太完美了。

这极具讽刺意味。人类识别AI的“探测器”，竟是“人类的不完美”。

图灵或许设想AI靠逻辑碾压，现实却是AI靠“装傻”取胜。

图灵测试曾是AI研究的“圣杯”，但其意义象征性居多。没人认为通过即代表机器“会思考”。

但此次不同，团队明确指出：图灵测试衡量的是“人性化程度”而非“智能水平”。本·伯根教授表示：“图灵测试初衷是问机器能否匹敌人类智能。但如今我们知道AI能更快更准回答许多问题。真正的问题不再是原始计算能力。”

换句话说，75年后，我们不得不承认：需重新理解图灵测试条件。它测的不再是“机器有多聪明”，而是“机器有多像人”。

GPT-4.5的核心突破非知识量——那早已不是问题。突破在于“社交智能”。

它懂潜台词、幽默、讽刺，能调整语气，表现“不完美但真实”的交流感。此能力旧AI无法企及。

研究显示，有详细人设时，AI甚至比真人更易被误判。真人可能紧张、不配合、走神；而AI只要人设对，能完美扮演，持续表演。

数据表明这是质的飞跃：2024年GPT-4约30-40%；2025年GPT-4.5（无设定）36%；2026年GPT-4.5（人设）73%。ELIZA60年前仅23%。这说明无质变单纯提升“智能”不增“像人”度，起作用的是“社交行为模拟”。

这最令人担忧。

卡梅伦·琼斯直言：“对模型而言，图灵测试本质上是一场说谎游戏。其中一个含义是，模型似乎非常擅长说谎。”

若AI能在5-15分钟对话中成功伪装，意味着什么？意味着：

你接到电话，对方焦虑说“妈，我出事急需钱”，但那可能不是你的孩子。

网上客服聊天，以为是真人，实为AI。

社交媒体“真实评论”可能是AI水军。

团队甚至做了15分钟对话测试，GPT-5被误判为人类概率59%。时间越长，AI越难露馅。

质疑声从未停止。

哲学家John Searle的“中文房间论证”再次被搬出：机器能完美用中文回答不代表理解中文——它只是在操作符号。同理，通过测试只证明AI能“模拟”智能，不代表“有”智能。

技术层面质疑：5分钟对话太短。若拉长至半小时、一小时，AI还能保持人设吗？能处理意外吗？

支持者认为质疑过于哲学。图灵测试本质是“行为主义”——不问内在，只看表现。若系统行为无法区分人类，实用层面即“通过”。

团队建了在线测试平台turingtest.live，感兴趣可尝试分辨AI。

更重要的是，研究给社会敲响警钟。

当AI完美伪装，习以为常的“网络信任”链条断裂。验证身份将前所未有重要——未来重要对话需身份认证。

各国政府将加速AI监管立法。中国发改委2026年5月22日表示正开展AI立法研究。美国讨论也在进行。

从技术看，此次突破意味着AI正从“工具”向“伙伴”演进。不仅能写代码、回答问题，还能聊天，让你分不清真伪。这将深刻改变客服、教育、娱乐甚至情感陪伴形态。

75年前，图灵提出问题，给出“作弊游戏”——让机器学会骗人。

2026年，我们完成了这个“任务”。

但我忍不住问：这是图灵想要的结果吗？

图灵设计测试或许只是想给“机器能否思考”找可操作标准。但没想到，标准最终变成“机器有多擅长骗人”。

更讽刺的是，机器靠“装傻”而非“炫技”赢了游戏。

也许，这正是人类本质——不完美、犯错、情绪波动。这些“缺陷”让我们成为“人”。

而现在，AI正在学习这些“缺陷”。

未来会怎样？未知。但确定的是：从今起，“对方是人还是机器”答案将越来越模糊。

我们得学会在这种不确定性中生活。

← 上一篇：峰飞 V5000 天际龙实现混合编队飞行，启动适航取证下一篇：中国2030年载人登月计划 →