76年漫长等待：AI终于跨越图灵测试这道坎

发布时间：2026-05-23 19:39阅读：15

七十六载光阴荏苒，图灵测试终于被人工智能真正攻陷了。

事情是这样的。

今天下午刷着社交平台，一条消息映入眼帘，整个人直接从椅子上蹦了起来。

加州大学圣地亚哥分校的研究团队正式宣布，GPT-4.5在图灵测试中，被误判为人类的比例高达七成三。

73%。

什么水平？真实人类的通过率也就勉强超过六成而已。GPT-4.5比真人还更像真人。

我盯着这个数字愣了好一会儿，一时语塞。

图灵测试这个东西，你或许有所耳闻。1950年图灵在那篇著名论文《计算机与智能》中提出：如果一台机器能够在对话中欺骗人类评审，让他们以为是在和真人交流，那就可以认定它具备智能。

七十六年了。

无数人工智能前来挑战，从六十年代的ELIZA，到后来的各类对话机器人，再到GPT-3、GPT-4。都说自己"接近通过"，但从未有任何模型在严格的盲测中真正超越人类。

现在GPT-4.5做到了。

而且不是勉强胜出，是73%对比人类63%，足足拉开了十个百分点的差距。

等等，这究竟是怎么测试的？

我也很好奇，赶紧查阅了论文的具体细节。

这个测试可不是那种"你好我是机器人请证明你不是"的低幼对话。而是真实的在线聊天，时长五到十五分钟，评审完全不清楚对面是什么。

除了GPT-4.5，测试对象还包括LLaMa-3.1-405B、GPT-4o，以及作为对照组的经典ELIZA。

结果如何？

LLaMa-3.1-405B达到56%，与真人表现相当。

GPT-4o仅有略超20%的通过率，虽然比ELIZA强一些但也有限。

差距最悬殊的是谁？没错，就是GPT-4.5，高达73%。

而且研究人员发现了一个相当有意思的现象——**提示词起着决定性作用**。

什么意思？就是同一个模型，用不同的提示词告诉它"你要像个真正的人那样聊天，带点幽默感，偶尔犹豫，偶尔打错字"，它就能从机械感蜕变成人情味。

难以置信？？？

仅仅一行文字，就决定了你是被当作机器还是被当作朋友。

我不禁想起一件事

前两周在某个群里，有人分享了一段聊天记录。他在某个社交软件上跟一个人聊了三天，感觉特别投缘，结果对方最后说"其实我是AI"。他当场心态崩溃，把聊天记录甩到群里，配了个哭脸表情。

当时我还嘲笑他，说你连真人都分辨不出来。

现在想想，小丑竟是我自己。

如果我面对的是GPT-4.5，再加上精心设计的提示词，我不一定会比他强多少。

比"像人"更令人不寒而栗的，是"能做到人类做不到的事"

如果说图灵测试是AI在"伪装人类"这条赛道上的里程碑，那么接下来这条新闻就是另一个维度的碾压。

Anthropic的Project Glasswing，一个AI安全项目，使用Claude Mythos Preview模型，在全球关键系统中发现了**超过一万个高危漏洞**。

一万个。

注意，不是那种小网站的漏洞。而是Cloudflare、Mozilla这种级别的关键系统。

Cloudflare一家就在自己的核心路径系统中挖出了两千个漏洞。Mozilla在Firefox 150版本中发现并修复了271个。

而且经过独立验证的准确率高达90.6%。

什么意思？就是AI报告十个漏洞，九个确实是真实存在的。

传统的渗透测试，一个安全专家一天可能也就找出三五个高危漏洞。AI呢？扫描周期从三到五天缩短到一小时以内。

我当时的第一反应是：这简直就是降维打击。

安全行业的人恐怕要睡不着了。不是因为他们会失业，而是因为**AI能够做到人类永远做不到的事**——以机器般的速度、精度和耐心，翻遍每一个代码角落。

人会疲惫，会遗漏，会有盲区。AI不会。

这两件事联系在一起，让我想到了一个词

信任。

我们以前信任一个东西，要么因为它很"人"，要么因为它很"可靠"。

图灵测试告诉我们，AI可以"非常人性化"到骗过你的眼睛。Glasswing告诉我们，AI可以"非常可靠"到发现人类发现不了的漏洞。

那么问题来了——

以后你上网聊天，对面究竟是真人吗？

以后你的银行系统、电网系统、医疗系统，安全由谁来保障？AI吗？

以后你信赖一个系统，是因为它背后有人，还是因为它背后有AI？

坦白说，我自己也没有答案。

但我一直认为，**信任不是技术问题，而是心态问题**。

就像你今天用支付宝、微信支付，你不会去想"这背后有没有AI在监控我的每一笔交易"。你已经习以为常了。

再过两年，你可能也不会去想"跟我聊天的这个人是不是真人"。只要聊得开心，是不是真人，重要吗？

这话听着有点刺耳。但我真的觉得，这就是趋势。

顺着上面的继续聊聊

回到图灵测试那个73%。我就在琢磨，为什么GPT-4.5能赢，而GPT-4o却不行？

研究人员给出的答案是：提示词让AI学会了"人类的语气"。

什么叫人类的语气？不是字正腔圆，不是语法完美。是偶尔的"嗯…"，是打错字，是突然的哈哈哈，是那句"你懂的"。

就是我们人类自己都习以为常的那些小习惯。

AI把这些学去了，然后反过来用它们来欺骗我们。

相当讽刺，不是吗？

我们自己最不完美的地方，反而成了AI伪装成我们的最佳武器。

还有一个让我陷入沉思的数据

SemiAnalysis前两天发布了一份报告，分析了43.2万个真实的编码智能体请求。

发现中位数输入token高达9.6万。

9.6万token是什么概念？比《了不起的盖茨比》整部小说的篇幅还长。

也就是说，AI在帮人写代码的时候，每一轮任务，它要"阅读"的资料比一整本小说还要多。

这已经不是"助手"了，这是"读完全书再来帮你干活的高级员工"。

智能体工作负载，正在重塑推理经济学。

我看完这个数据，脑海中只有一个念头：**我们真的准备好让AI以这种规模进入生产环境了吗？**

Glasswing已经进去了。Cursor已经被七成的财富500强企业使用了。Codex的/goal模式可以连续工作几天几夜。

它们不只是工具，它们是同事，是员工，是安全专家，是程序员。

而且它们不喊累，不要求涨薪，不会跳槽。

聊点让我兴奋的

说了这么多略显沉重的内容，也说个真的让我兴奋的。

Karpathy前两天发布了一个CLAUDE.md文件，只有65行，四条核心规则。

就这么个小东西，登顶了GitHub趋势榜，22万星标。

哪四条规则？

1. 深度思考，不要急于写代码。

2. 追求简洁。

3. 精准修改。

4. 目标驱动。

就这么简单。

但效果有多惊人？应用这四条规则后，AI编程的准确率从不知名水平飙升到了94%。

我觉得这个太牛了。为什么？因为它告诉我们，**用好AI的关键不是更复杂的提示词，而是更像人的工作习惯**。

你让AI慢下来，让它先想清楚再动手，它就能表现得更好。

这跟带一个实习生如出一辙。

我自己也在代码里试了一下这个CLAUDE.md。怎么形容呢，之前我用AI帮我写一个工具，它上来就咔咔写了200行，结果逻辑有问题，我debug了一下午。

加上这四条规则之后，它先问我"你想要什么？"，然后给了三个方案让我选，最后写了80行，一次跑通。

当时我就愣住了。

真的就65行，四句话。

还有一个工具叫Kakuna

也是这周看到的，一个AI代理，专门把早期快速原型转化为可维护的生产级代码。

它运行一次大约16小时，能生成上百次提交，把脆弱的MVP变成结构清晰的稳定项目。

16小时，上百次提交。一个人要做到这个程度，大概需要一周时间。

我不是说AI可以替代工程师。我是说，**工程师可以把那些"脏活累活"丢给AI，自己去干更具创造性的事情**。

就像当年程序员不再需要手动管理内存，因为有了垃圾回收。不是替代，是解放。

最后说个让我笑出声的

Suno AI上周出了一首歌叫《Puerto Rico》，在社交媒体上病毒式传播。

你去听一下，真的，旋律上头，制作精良，完全听不出来是AI做的。

我就想，以后的音乐排行榜，会不会有一半是AI创作的？

然后人类歌手说"我是真唱的"，评委说"请你证明"。

这个画面太特么刺激了。

收个尾

今天的信息量，真的很大。

图灵测试被攻破，AI发现一万个高危漏洞，智能体单次任务阅读完整本《了不起的盖茨比》，Karpathy的四条规则让代码准确率达到94%。

每一件单独拎出来，都够写一篇长文。

但串在一起，我感受到一个更底层的趋势：

**AI正在从"像人"走向"超人"**。

像人的那面，让你觉得它亲切、可信、愿意跟它聊天。

超人的那面，让它做到人类做不到的事情，发现人类找不到的漏洞，处理人类处理不了的数据量。

这两个面合在一起，就是我们现在面对的AI。

不要怕，也别神话。就像Karpathy那四条规则说的，慢下来，想清楚，用它干脏活，自己去干创造性的活。

我还是那句话，永远对世界保持好奇。

今天你好奇了吗？

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

← 上一篇：2026人工智能创新挑战赛报名开启！全国青少年AIIC白名单赛事新增至47项下一篇：AI赋能课堂，智慧引领成长——赣州市余学敏名师工作室首场线下研修侧记 →