标签

AI的真实水平究竟如何

发布时间:2026-05-22 22:21来源:微信阅读:8

——数学、图灵测试与一个替你干活的幽灵

近期,三件大事接连发生。

OpenAI的模型攻克了一道困扰数学界八十年的难题,菲尔兹奖得主称赞其论文质量极高。GPT-4.5在图灵测试中,有73%的评委误以为它是真人,胜过人类自己。Google推出了Gemini Spark,一个全天候为你服务的AI助手——你只需下达指令,查邮件、比价、订票、安排日程,其余琐事全由它搞定。

单看每条新闻都足以登头条,但凑在一起感觉却不同:AI似乎在多个维度上同时跨越了一个临界点。

· · ·

▎一

先说数学新闻,别被“AI又赢了”四个字轻描淡写带过。

1946年,匈牙利数学家埃尔德什提出:在纸上撒n个点,最多有几对点距离为1?你可以试着排一排,9个点8对,3x3方阵12对。更多点呢?更复杂的排列呢?埃尔德什猜了个上限,增长极慢。八十年来,所有排列都印证他的猜想。全世界的离散几何学家都信了,讨论重点变成了“怎么证明他是对的”。结果一个聊天机器人说:他错了。

OpenAI用代数数论工具,拆解了这道几何题,构造出全新排列,证明点对数量可以超过上限。普林斯顿数学家后来量化了这个“多出来”的量,虽小但性质变了——从“几乎不增长”变为“确实在增长”。有趣的是它的解题思路。AI没在几何框架里死磕,而是从代数数论(几乎不相关的分支)搬来工具,像用化学修水管。多伦多大学数学家雅各布·齐默尔曼说:“AI有个优势——它能在更凶险的水域游更久而不被淹没。”它未必比人聪明,但它不怕。

· · ·

▎二

再看图灵测试。1950年,图灵设想:如果人分不出机器和人,机器就算有智能。七十五年来,无人通过。加州大学圣迭戈分校科学家复刻实验:一人对两对象,五分钟后判谁是人。GPT-4.5赢了,73%评委误判它是真人,胜过人类自己。赢法出人意料。评委认“真人”最大依据是对方有多“笨”——打错字、用俚语、说话不经大脑、偶尔不知常识。不加“犯傻设定”的GPT-4.5,胜率暴跌到36%。同一模型,装傻才赢。实验负责人本·伯根说:“这些特征跟图灵设想的逻辑推理智能完全不同。”图灵以为通过测试意味着机器像人一样“聪明”,结果机器通过的方式是扮成有缺陷的人。比“完美”更像人的,偏偏是“不完美”。AI已经开始理解“人是什么样”了,包括弱点。

· · ·

▎三

前两条是前沿突破,第三条已进生活。5月20日,Google在I/O发布Gemini Spark。区别很简单:聊天机器人是你问它答,Spark是你定方向它跑全程。演示中,有人让Spark规划周末家庭露营,预算2000美元,适合5岁孩子,考虑天气。Spark自动完成:查天气、搜营地、比价、预订、搜装备、生成清单、下单、协调日程、输出行程。全程15分钟,人没动一下。这不是PPT,当天就能用。Google还推出Daily Brief,汇总邮件日历待办,按优先级推送。79%企业用AI agent,但仅2%全面部署。55%管理者担心犯错。保险公司用AI消80%文书,但理赔还是人做。TD银行房贷预审从15小时缩到3分钟,签字还是人。AI能干活,人还在决定哪些敢让它干。

· · ·

▎四

你可能觉得是“别人家的事”。但数据显示:2026年,78%家庭每天用AI设备,大多数人没意识到。好用的AI都是隐身的。打车派单背后是AI算最优,导航预测差不超过1分钟,背后是AI实时更新拥堵,刷短视频精准推送背后是AI分析停留毫秒。近一点:AI医疗诊断准确率超95%,每年救25万命。实时翻译耳机支持100+语言,AI反欺诈每秒分析数百万笔,去年拦下400亿损失。知识工作者因AI自动化找回近40%工作时间。自动驾驶城市事故降40%。AI已经在那了,只是好用的AI像电力一样隐身,你不会每天想“我在用电力”,也不会想“我在用AI”。

· · ·

▎五

写文时,几条线交织:智力上,它能解80年难题,走人类不敢走的路;社交上,它通过图灵测试,秘诀是“像人一样犯错”;行动上,从“回答问题”变“替你做事”,你一句它跑全程;渗透上,已成基础设施,你在用却感觉不到。一句话总结:它已从“你需要学习的工具”变成“你需要决定做什么的搭档”。工具是“你问它答”,搭档是“你定方向它跑全程”。我们正站在切换点上。问题早不是“AI能不能做到”,而是——你准备好让它做了吗?

万物语法 用科学解释你日常里那些想不通的事 本文事实