76年漫长等待:AI终于跨越图灵测试这道坎
七十六载光阴荏苒,图灵测试终于被人工智能真正攻陷了。
事情是这样的。
今天下午刷着社交平台,一条消息映入眼帘,整个人直接从椅子上蹦了起来。
加州大学圣地亚哥分校的研究团队正式宣布,GPT-4.5在图灵测试中,被误判为人类的比例高达七成三。
73%。
什么水平?真实人类的通过率也就勉强超过六成而已。GPT-4.5比真人还更像真人。
我盯着这个数字愣了好一会儿,一时语塞。
图灵测试这个东西,你或许有所耳闻。1950年图灵在那篇著名论文《计算机与智能》中提出:如果一台机器能够在对话中欺骗人类评审,让他们以为是在和真人交流,那就可以认定它具备智能。
七十六年了。
无数人工智能前来挑战,从六十年代的ELIZA,到后来的各类对话机器人,再到GPT-3、GPT-4。都说自己"接近通过",但从未有任何模型在严格的盲测中真正超越人类。
现在GPT-4.5做到了。
而且不是勉强胜出,是73%对比人类63%,足足拉开了十个百分点的差距。
等等,这究竟是怎么测试的?
我也很好奇,赶紧查阅了论文的具体细节。
这个测试可不是那种"你好我是机器人请证明你不是"的低幼对话。而是真实的在线聊天,时长五到十五分钟,评审完全不清楚对面是什么。
除了GPT-4.5,测试对象还包括LLaMa-3.1-405B、GPT-4o,以及作为对照组的经典ELIZA。
结果如何?
LLaMa-3.1-405B达到56%,与真人表现相当。
GPT-4o仅有略超20%的通过率,虽然比ELIZA强一些但也有限。
差距最悬殊的是谁?没错,就是GPT-4.5,高达73%。
而且研究人员发现了一个相当有意思的现象——**提示词起着决定性作用**。
什么意思?就是同一个模型,用不同的提示词告诉它"你要像个真正的人那样聊天,带点幽默感,偶尔犹豫,偶尔打错字",它就能从机械感蜕变成人情味。
难以置信???
仅仅一行文字,就决定了你是被当作机器还是被当作朋友。
我不禁想起一件事
前两周在某个群里,有人分享了一段聊天记录。他在某个社交软件上跟一个人聊了三天,感觉特别投缘,结果对方最后说"其实我是AI"。他当场心态崩溃,把聊天记录甩到群里,配了个哭脸表情。
当时我还嘲笑他,说你连真人都分辨不出来。
现在想想,小丑竟是我自己。
如果我面对的是GPT-4.5,再加上精心设计的提示词,我不一定会比他强多少。
比"像人"更令人不寒而栗的,是"能做到人类做不到的事"
如果说图灵测试是AI在"伪装人类"这条赛道上的里程碑,那么接下来这条新闻就是另一个维度的碾压。
Anthropic的Project Glasswing,一个AI安全项目,使用Claude Mythos Preview模型,在全球关键系统中发现了**超过一万个高危漏洞**。
一万个。
注意,不是那种小网站的漏洞。而是Cloudflare、Mozilla这种级别的关键系统。
Cloudflare一家就在自己的核心路径系统中挖出了两千个漏洞。Mozilla在Firefox 150版本中发现并修复了271个。
而且经过独立验证的准确率高达90.6%。
什么意思?就是AI报告十个漏洞,九个确实是真实存在的。
传统的渗透测试,一个安全专家一天可能也就找出三五个高危漏洞。AI呢?扫描周期从三到五天缩短到一小时以内。
我当时的第一反应是:这简直就是降维打击。
安全行业的人恐怕要睡不着了。不是因为他们会失业,而是因为**AI能够做到人类永远做不到的事**——以机器般的速度、精度和耐心,翻遍每一个代码角落。
人会疲惫,会遗漏,会有盲区。AI不会。
这两件事联系在一起,让我想到了一个词
信任。
我们以前信任一个东西,要么因为它很"人",要么因为它很"可靠"。
图灵测试告诉我们,AI可以"非常人性化"到骗过你的眼睛。Glasswing告诉我们,AI可以"非常可靠"到发现人类发现不了的漏洞。
那么问题来了——
以后你上网聊天,对面究竟是真人吗?
以后你的银行系统、电网系统、医疗系统,安全由谁来保障?AI吗?
以后你信赖一个系统,是因为它背后有人,还是因为它背后有AI?
坦白说,我自己也没有答案。
但我一直认为,**信任不是技术问题,而是心态问题**。
就像你今天用支付宝、微信支付,你不会去想"这背后有没有AI在监控我的每一笔交易"。你已经习以为常了。
再过两年,你可能也不会去想"跟我聊天的这个人是不是真人"。只要聊得开心,是不是真人,重要吗?
这话听着有点刺耳。但我真的觉得,这就是趋势。
顺着上面的继续聊聊
回到图灵测试那个73%。我就在琢磨,为什么GPT-4.5能赢,而GPT-4o却不行?
研究人员给出的答案是:提示词让AI学会了"人类的语气"。
什么叫人类的语气?不是字正腔圆,不是语法完美。是偶尔的"嗯…",是打错字,是突然的哈哈哈,是那句"你懂的"。
就是我们人类自己都习以为常的那些小习惯。
AI把这些学去了,然后反过来用它们来欺骗我们。
相当讽刺,不是吗?
我们自己最不完美的地方,反而成了AI伪装成我们的最佳武器。
还有一个让我陷入沉思的数据
SemiAnalysis前两天发布了一份报告,分析了43.2万个真实的编码智能体请求。
发现中位数输入token高达9.6万。
9.6万token是什么概念?比《了不起的盖茨比》整部小说的篇幅还长。
也就是说,AI在帮人写代码的时候,每一轮任务,它要"阅读"的资料比一整本小说还要多。
这已经不是"助手"了,这是"读完全书再来帮你干活的高级员工"。
智能体工作负载,正在重塑推理经济学。
我看完这个数据,脑海中只有一个念头:**我们真的准备好让AI以这种规模进入生产环境了吗?**
Glasswing已经进去了。Cursor已经被七成的财富500强企业使用了。Codex的/goal模式可以连续工作几天几夜。
它们不只是工具,它们是同事,是员工,是安全专家,是程序员。
而且它们不喊累,不要求涨薪,不会跳槽。
聊点让我兴奋的
说了这么多略显沉重的内容,也说个真的让我兴奋的。
Karpathy前两天发布了一个CLAUDE.md文件,只有65行,四条核心规则。
就这么个小东西,登顶了GitHub趋势榜,22万星标。
哪四条规则?
1. 深度思考,不要急于写代码。
2. 追求简洁。
3. 精准修改。
4. 目标驱动。
就这么简单。
但效果有多惊人?应用这四条规则后,AI编程的准确率从不知名水平飙升到了94%。
我觉得这个太牛了。为什么?因为它告诉我们,**用好AI的关键不是更复杂的提示词,而是更像人的工作习惯**。
你让AI慢下来,让它先想清楚再动手,它就能表现得更好。
这跟带一个实习生如出一辙。
我自己也在代码里试了一下这个CLAUDE.md。怎么形容呢,之前我用AI帮我写一个工具,它上来就咔咔写了200行,结果逻辑有问题,我debug了一下午。
加上这四条规则之后,它先问我"你想要什么?",然后给了三个方案让我选,最后写了80行,一次跑通。
当时我就愣住了。
真的就65行,四句话。
还有一个工具叫Kakuna
也是这周看到的,一个AI代理,专门把早期快速原型转化为可维护的生产级代码。
它运行一次大约16小时,能生成上百次提交,把脆弱的MVP变成结构清晰的稳定项目。
16小时,上百次提交。一个人要做到这个程度,大概需要一周时间。
我不是说AI可以替代工程师。我是说,**工程师可以把那些"脏活累活"丢给AI,自己去干更具创造性的事情**。
就像当年程序员不再需要手动管理内存,因为有了垃圾回收。不是替代,是解放。
最后说个让我笑出声的
Suno AI上周出了一首歌叫《Puerto Rico》,在社交媒体上病毒式传播。
你去听一下,真的,旋律上头,制作精良,完全听不出来是AI做的。
我就想,以后的音乐排行榜,会不会有一半是AI创作的?
然后人类歌手说"我是真唱的",评委说"请你证明"。
这个画面太特么刺激了。
收个尾
今天的信息量,真的很大。
图灵测试被攻破,AI发现一万个高危漏洞,智能体单次任务阅读完整本《了不起的盖茨比》,Karpathy的四条规则让代码准确率达到94%。
每一件单独拎出来,都够写一篇长文。
但串在一起,我感受到一个更底层的趋势:
**AI正在从"像人"走向"超人"**。
像人的那面,让你觉得它亲切、可信、愿意跟它聊天。
超人的那面,让它做到人类做不到的事情,发现人类找不到的漏洞,处理人类处理不了的数据量。
这两个面合在一起,就是我们现在面对的AI。
不要怕,也别神话。就像Karpathy那四条规则说的,慢下来,想清楚,用它干脏活,自己去干创造性的活。
我还是那句话,永远对世界保持好奇。
今天你好奇了吗?
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。