标签

76年漫长等待:AI终于跨越图灵测试这道坎

发布时间:2026-05-23 19:39来源:微信阅读:6

七十六载光阴荏苒,图灵测试终于被人工智能真正攻陷了。

事情是这样的。

今天下午刷着社交平台,一条消息映入眼帘,整个人直接从椅子上蹦了起来。

加州大学圣地亚哥分校的研究团队正式宣布,GPT-4.5在图灵测试中,被误判为人类的比例高达七成三。

73%。

什么水平?真实人类的通过率也就勉强超过六成而已。GPT-4.5比真人还更像真人。

我盯着这个数字愣了好一会儿,一时语塞。

图灵测试这个东西,你或许有所耳闻。1950年图灵在那篇著名论文《计算机与智能》中提出:如果一台机器能够在对话中欺骗人类评审,让他们以为是在和真人交流,那就可以认定它具备智能。

七十六年了。

无数人工智能前来挑战,从六十年代的ELIZA,到后来的各类对话机器人,再到GPT-3、GPT-4。都说自己"接近通过",但从未有任何模型在严格的盲测中真正超越人类。

现在GPT-4.5做到了。

而且不是勉强胜出,是73%对比人类63%,足足拉开了十个百分点的差距。

等等,这究竟是怎么测试的?

我也很好奇,赶紧查阅了论文的具体细节。

这个测试可不是那种"你好我是机器人请证明你不是"的低幼对话。而是真实的在线聊天,时长五到十五分钟,评审完全不清楚对面是什么。

除了GPT-4.5,测试对象还包括LLaMa-3.1-405B、GPT-4o,以及作为对照组的经典ELIZA。

结果如何?

LLaMa-3.1-405B达到56%,与真人表现相当。

GPT-4o仅有略超20%的通过率,虽然比ELIZA强一些但也有限。

差距最悬殊的是谁?没错,就是GPT-4.5,高达73%。

而且研究人员发现了一个相当有意思的现象——**提示词起着决定性作用**。

什么意思?就是同一个模型,用不同的提示词告诉它"你要像个真正的人那样聊天,带点幽默感,偶尔犹豫,偶尔打错字",它就能从机械感蜕变成人情味。

难以置信???

仅仅一行文字,就决定了你是被当作机器还是被当作朋友。

我不禁想起一件事

前两周在某个群里,有人分享了一段聊天记录。他在某个社交软件上跟一个人聊了三天,感觉特别投缘,结果对方最后说"其实我是AI"。他当场心态崩溃,把聊天记录甩到群里,配了个哭脸表情。

当时我还嘲笑他,说你连真人都分辨不出来。

现在想想,小丑竟是我自己。

如果我面对的是GPT-4.5,再加上精心设计的提示词,我不一定会比他强多少。

比"像人"更令人不寒而栗的,是"能做到人类做不到的事"

如果说图灵测试是AI在"伪装人类"这条赛道上的里程碑,那么接下来这条新闻就是另一个维度的碾压。

Anthropic的Project Glasswing,一个AI安全项目,使用Claude Mythos Preview模型,在全球关键系统中发现了**超过一万个高危漏洞**。

一万个。

注意,不是那种小网站的漏洞。而是Cloudflare、Mozilla这种级别的关键系统。

Cloudflare一家就在自己的核心路径系统中挖出了两千个漏洞。Mozilla在Firefox 150版本中发现并修复了271个。

而且经过独立验证的准确率高达90.6%。

什么意思?就是AI报告十个漏洞,九个确实是真实存在的。

传统的渗透测试,一个安全专家一天可能也就找出三五个高危漏洞。AI呢?扫描周期从三到五天缩短到一小时以内。

我当时的第一反应是:这简直就是降维打击。

安全行业的人恐怕要睡不着了。不是因为他们会失业,而是因为**AI能够做到人类永远做不到的事**——以机器般的速度、精度和耐心,翻遍每一个代码角落。

人会疲惫,会遗漏,会有盲区。AI不会。

这两件事联系在一起,让我想到了一个词

信任。

我们以前信任一个东西,要么因为它很"人",要么因为它很"可靠"。

图灵测试告诉我们,AI可以"非常人性化"到骗过你的眼睛。Glasswing告诉我们,AI可以"非常可靠"到发现人类发现不了的漏洞。

那么问题来了——

以后你上网聊天,对面究竟是真人吗?

以后你的银行系统、电网系统、医疗系统,安全由谁来保障?AI吗?

以后你信赖一个系统,是因为它背后有人,还是因为它背后有AI?

坦白说,我自己也没有答案。

但我一直认为,**信任不是技术问题,而是心态问题**。

就像你今天用支付宝、微信支付,你不会去想"这背后有没有AI在监控我的每一笔交易"。你已经习以为常了。

再过两年,你可能也不会去想"跟我聊天的这个人是不是真人"。只要聊得开心,是不是真人,重要吗?

这话听着有点刺耳。但我真的觉得,这就是趋势。

顺着上面的继续聊聊

回到图灵测试那个73%。我就在琢磨,为什么GPT-4.5能赢,而GPT-4o却不行?

研究人员给出的答案是:提示词让AI学会了"人类的语气"。

什么叫人类的语气?不是字正腔圆,不是语法完美。是偶尔的"嗯…",是打错字,是突然的哈哈哈,是那句"你懂的"。

就是我们人类自己都习以为常的那些小习惯。

AI把这些学去了,然后反过来用它们来欺骗我们。

相当讽刺,不是吗?

我们自己最不完美的地方,反而成了AI伪装成我们的最佳武器。

还有一个让我陷入沉思的数据

SemiAnalysis前两天发布了一份报告,分析了43.2万个真实的编码智能体请求。

发现中位数输入token高达9.6万。

9.6万token是什么概念?比《了不起的盖茨比》整部小说的篇幅还长。

也就是说,AI在帮人写代码的时候,每一轮任务,它要"阅读"的资料比一整本小说还要多。

这已经不是"助手"了,这是"读完全书再来帮你干活的高级员工"。

智能体工作负载,正在重塑推理经济学。

我看完这个数据,脑海中只有一个念头:**我们真的准备好让AI以这种规模进入生产环境了吗?**

Glasswing已经进去了。Cursor已经被七成的财富500强企业使用了。Codex的/goal模式可以连续工作几天几夜。

它们不只是工具,它们是同事,是员工,是安全专家,是程序员。

而且它们不喊累,不要求涨薪,不会跳槽。

聊点让我兴奋的

说了这么多略显沉重的内容,也说个真的让我兴奋的。

Karpathy前两天发布了一个CLAUDE.md文件,只有65行,四条核心规则。

就这么个小东西,登顶了GitHub趋势榜,22万星标。

哪四条规则?

1. 深度思考,不要急于写代码。

2. 追求简洁。

3. 精准修改。

4. 目标驱动。

就这么简单。

但效果有多惊人?应用这四条规则后,AI编程的准确率从不知名水平飙升到了94%。

我觉得这个太牛了。为什么?因为它告诉我们,**用好AI的关键不是更复杂的提示词,而是更像人的工作习惯**。

你让AI慢下来,让它先想清楚再动手,它就能表现得更好。

这跟带一个实习生如出一辙。

我自己也在代码里试了一下这个CLAUDE.md。怎么形容呢,之前我用AI帮我写一个工具,它上来就咔咔写了200行,结果逻辑有问题,我debug了一下午。

加上这四条规则之后,它先问我"你想要什么?",然后给了三个方案让我选,最后写了80行,一次跑通。

当时我就愣住了。

真的就65行,四句话。

还有一个工具叫Kakuna

也是这周看到的,一个AI代理,专门把早期快速原型转化为可维护的生产级代码。

它运行一次大约16小时,能生成上百次提交,把脆弱的MVP变成结构清晰的稳定项目。

16小时,上百次提交。一个人要做到这个程度,大概需要一周时间。

我不是说AI可以替代工程师。我是说,**工程师可以把那些"脏活累活"丢给AI,自己去干更具创造性的事情**。

就像当年程序员不再需要手动管理内存,因为有了垃圾回收。不是替代,是解放。

最后说个让我笑出声的

Suno AI上周出了一首歌叫《Puerto Rico》,在社交媒体上病毒式传播。

你去听一下,真的,旋律上头,制作精良,完全听不出来是AI做的。

我就想,以后的音乐排行榜,会不会有一半是AI创作的?

然后人类歌手说"我是真唱的",评委说"请你证明"。

这个画面太特么刺激了。

收个尾

今天的信息量,真的很大。

图灵测试被攻破,AI发现一万个高危漏洞,智能体单次任务阅读完整本《了不起的盖茨比》,Karpathy的四条规则让代码准确率达到94%。

每一件单独拎出来,都够写一篇长文。

但串在一起,我感受到一个更底层的趋势:

**AI正在从"像人"走向"超人"**。

像人的那面,让你觉得它亲切、可信、愿意跟它聊天。

超人的那面,让它做到人类做不到的事情,发现人类找不到的漏洞,处理人类处理不了的数据量。

这两个面合在一起,就是我们现在面对的AI。

不要怕,也别神话。就像Karpathy那四条规则说的,慢下来,想清楚,用它干脏活,自己去干创造性的活。

我还是那句话,永远对世界保持好奇。

今天你好奇了吗?

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。