标签

AI能力认知的巨大鸿沟:为何有人视其为神,有人却视其为蠢?

发布时间:2026-04-11 16:55来源:微信阅读:8

前 OpenAI 联合创始人、特斯拉前 AI 总监 Andrej Karpathy 近日发文,试图解构这一怪象:为何同一种技术,评价却天差地别?有人觉得它连简单问题都答不上,有人却惊叹它能搞定数周的复杂编程。

这种认知差距日益扩大,Karpathy 认为背后有深层逻辑。

Karpathy 首先指出版本层级的问题。很多人对 AI 的印象还停留在旧版免费 ChatGPT,这些糟糕体验导致误判。他们看过模型“幻觉”、答非所问的段子,比如语音模式回答“开车还是走路去洗车店”这种常识题时的翻车。

问题在于,这些免费、过时的模型根本无法代表 2026 年新一代智能体的真实水平。尤其是 OpenAI Codex 和 Claude Code 等前沿系统,表现已与一年前判若云泥。

这就好比用诺基亚来评价今天的智能手机——你的基准线已经过时了。

即便付费 200 美元使用顶级模型,体验也可能天差地别,因为 AI 的进步极不均衡。

在搜索、写作、日常建议等常见领域,AI 进步不明显。但在编程、数学、科研等高技术领域,提升却是“令人震惊的”。

原因何在?Karpathy 归纳为两点:一是技术验证性。编程有明确的对错标准(单元测试),适合强化学习;而写作好坏难量化,处于劣势。

二是商业价值驱动。在 B2B 场景,编程、数学能直接变现,因此 AI 公司会集中资源优化这些领域。

基于此,用户分裂为两派:一是怀疑者,用过免费版或日常写作,认为炒作过头;二是“AI精神病患者”,付费使用高级工具进行编码、科研,认为飞跃惊人。

对于后者,看着 AI 连续工作数小时重构代码库或发现漏洞,体验极其震撼,认知远超前者。

评论区数据显示,编程相关查询仅占 ChatGPT 消息的 4%,但非工作查询超 73%。另一图表显示,AI 工具调用中软件工程占比近半。

怀疑者准确描述了大部分领域的现状,却忽略了技术领域翻天覆地的变化。

Karpathy 用对比总结这种分裂:“免费版语音模式在短视频里答错蠢问题,而顶级付费 Codex 模型能连续工作一小时重构整个代码库或利用漏洞。”

看似矛盾实则真实,反映了能力发展的不均衡和场景差异。

Karpathy 提出一个关键问题:面对如此巨大的认知鸿沟,我们该如何有效讨论?

对政策制定者、投资者和教育者而言,理解这种鸿沟至关重要。

AI 既有令人震惊的能力,也有平平表现,它是高度场景化的。

这种不均衡会持续。能验证、高价值的领域将获得最多资源;主观、低价值的领域可能停滞。

当群体基于完全不同的体验对话时,他们其实是在谈论两个不同的“AI”。

作者简介:Andrej Karpathy 是 AI 专家,曾任特斯拉 AI 总监、OpenAI 科学家,现专注教育与研究,擅长揭示技术背后的深层逻辑。