AI的真实水平究竟如何

发布时间：2026-05-22 22:21阅读：13

——数学、图灵测试与一个替你干活的幽灵

近期，三件大事接连发生。

OpenAI的模型攻克了一道困扰数学界八十年的难题，菲尔兹奖得主称赞其论文质量极高。GPT-4.5在图灵测试中，有73%的评委误以为它是真人，胜过人类自己。Google推出了Gemini Spark，一个全天候为你服务的AI助手——你只需下达指令，查邮件、比价、订票、安排日程，其余琐事全由它搞定。

单看每条新闻都足以登头条，但凑在一起感觉却不同：AI似乎在多个维度上同时跨越了一个临界点。

· · ·

▎一

先说数学新闻，别被“AI又赢了”四个字轻描淡写带过。

1946年，匈牙利数学家埃尔德什提出：在纸上撒n个点，最多有几对点距离为1？你可以试着排一排，9个点8对，3x3方阵12对。更多点呢？更复杂的排列呢？埃尔德什猜了个上限，增长极慢。八十年来，所有排列都印证他的猜想。全世界的离散几何学家都信了，讨论重点变成了“怎么证明他是对的”。结果一个聊天机器人说：他错了。

OpenAI用代数数论工具，拆解了这道几何题，构造出全新排列，证明点对数量可以超过上限。普林斯顿数学家后来量化了这个“多出来”的量，虽小但性质变了——从“几乎不增长”变为“确实在增长”。有趣的是它的解题思路。AI没在几何框架里死磕，而是从代数数论（几乎不相关的分支）搬来工具，像用化学修水管。多伦多大学数学家雅各布·齐默尔曼说：“AI有个优势——它能在更凶险的水域游更久而不被淹没。”它未必比人聪明，但它不怕。

· · ·

▎二

再看图灵测试。1950年，图灵设想：如果人分不出机器和人，机器就算有智能。七十五年来，无人通过。加州大学圣迭戈分校科学家复刻实验：一人对两对象，五分钟后判谁是人。GPT-4.5赢了，73%评委误判它是真人，胜过人类自己。赢法出人意料。评委认“真人”最大依据是对方有多“笨”——打错字、用俚语、说话不经大脑、偶尔不知常识。不加“犯傻设定”的GPT-4.5，胜率暴跌到36%。同一模型，装傻才赢。实验负责人本·伯根说：“这些特征跟图灵设想的逻辑推理智能完全不同。”图灵以为通过测试意味着机器像人一样“聪明”，结果机器通过的方式是扮成有缺陷的人。比“完美”更像人的，偏偏是“不完美”。AI已经开始理解“人是什么样”了，包括弱点。

· · ·

▎三

前两条是前沿突破，第三条已进生活。5月20日，Google在I/O发布Gemini Spark。区别很简单：聊天机器人是你问它答，Spark是你定方向它跑全程。演示中，有人让Spark规划周末家庭露营，预算2000美元，适合5岁孩子，考虑天气。Spark自动完成：查天气、搜营地、比价、预订、搜装备、生成清单、下单、协调日程、输出行程。全程15分钟，人没动一下。这不是PPT，当天就能用。Google还推出Daily Brief，汇总邮件日历待办，按优先级推送。79%企业用AI agent，但仅2%全面部署。55%管理者担心犯错。保险公司用AI消80%文书，但理赔还是人做。TD银行房贷预审从15小时缩到3分钟，签字还是人。AI能干活，人还在决定哪些敢让它干。

· · ·

▎四

你可能觉得是“别人家的事”。但数据显示：2026年，78%家庭每天用AI设备，大多数人没意识到。好用的AI都是隐身的。打车派单背后是AI算最优，导航预测差不超过1分钟，背后是AI实时更新拥堵，刷短视频精准推送背后是AI分析停留毫秒。近一点：AI医疗诊断准确率超95%，每年救25万命。实时翻译耳机支持100+语言，AI反欺诈每秒分析数百万笔，去年拦下400亿损失。知识工作者因AI自动化找回近40%工作时间。自动驾驶城市事故降40%。AI已经在那了，只是好用的AI像电力一样隐身，你不会每天想“我在用电力”，也不会想“我在用AI”。

· · ·

▎五

写文时，几条线交织：智力上，它能解80年难题，走人类不敢走的路；社交上，它通过图灵测试，秘诀是“像人一样犯错”；行动上，从“回答问题”变“替你做事”，你一句它跑全程；渗透上，已成基础设施，你在用却感觉不到。一句话总结：它已从“你需要学习的工具”变成“你需要决定做什么的搭档”。工具是“你问它答”，搭档是“你定方向它跑全程”。我们正站在切换点上。问题早不是“AI能不能做到”，而是——你准备好让它做了吗？

万物语法用科学解释你日常里那些想不通的事本文事实

← 上一篇：开放·共创——泽尔人工智能首届具身智能研讨会圆满落幕下一篇：AI资本赛道上的三条分岔路 →