AI能力认知的巨大鸿沟：为何有人视其为神，有人却视其为蠢？

发布时间：2026-04-11 16:55阅读：13

前 OpenAI 联合创始人、特斯拉前 AI 总监 Andrej Karpathy 近日发文，试图解构这一怪象：为何同一种技术，评价却天差地别？有人觉得它连简单问题都答不上，有人却惊叹它能搞定数周的复杂编程。

这种认知差距日益扩大，Karpathy 认为背后有深层逻辑。

Karpathy 首先指出版本层级的问题。很多人对 AI 的印象还停留在旧版免费 ChatGPT，这些糟糕体验导致误判。他们看过模型“幻觉”、答非所问的段子，比如语音模式回答“开车还是走路去洗车店”这种常识题时的翻车。

问题在于，这些免费、过时的模型根本无法代表 2026 年新一代智能体的真实水平。尤其是 OpenAI Codex 和 Claude Code 等前沿系统，表现已与一年前判若云泥。

这就好比用诺基亚来评价今天的智能手机——你的基准线已经过时了。

即便付费 200 美元使用顶级模型，体验也可能天差地别，因为 AI 的进步极不均衡。

在搜索、写作、日常建议等常见领域，AI 进步不明显。但在编程、数学、科研等高技术领域，提升却是“令人震惊的”。

原因何在？Karpathy 归纳为两点：一是技术验证性。编程有明确的对错标准（单元测试），适合强化学习；而写作好坏难量化，处于劣势。

二是商业价值驱动。在 B2B 场景，编程、数学能直接变现，因此 AI 公司会集中资源优化这些领域。

基于此，用户分裂为两派：一是怀疑者，用过免费版或日常写作，认为炒作过头；二是“AI精神病患者”，付费使用高级工具进行编码、科研，认为飞跃惊人。

对于后者，看着 AI 连续工作数小时重构代码库或发现漏洞，体验极其震撼，认知远超前者。

评论区数据显示，编程相关查询仅占 ChatGPT 消息的 4%，但非工作查询超 73%。另一图表显示，AI 工具调用中软件工程占比近半。

怀疑者准确描述了大部分领域的现状，却忽略了技术领域翻天覆地的变化。

Karpathy 用对比总结这种分裂：“免费版语音模式在短视频里答错蠢问题，而顶级付费 Codex 模型能连续工作一小时重构整个代码库或利用漏洞。”

看似矛盾实则真实，反映了能力发展的不均衡和场景差异。

Karpathy 提出一个关键问题：面对如此巨大的认知鸿沟，我们该如何有效讨论？

对政策制定者、投资者和教育者而言，理解这种鸿沟至关重要。

AI 既有令人震惊的能力，也有平平表现，它是高度场景化的。

这种不均衡会持续。能验证、高价值的领域将获得最多资源；主观、低价值的领域可能停滞。

当群体基于完全不同的体验对话时，他们其实是在谈论两个不同的“AI”。

作者简介：Andrej Karpathy 是 AI 专家，曾任特斯拉 AI 总监、OpenAI 科学家，现专注教育与研究，擅长揭示技术背后的深层逻辑。