AI领域的全能奇才：Andrej Karpathy的崛起之路

发布时间：2026-03-28 20:59阅读：32

2023年5月，微软Build大会如期举行。

Andrej Karpathy登台，用整整一小时深入解析了一个主题：GPT是什么，如何训练，又该如何应用。

这场技术演讲视频上传YouTube后，短短72小时内播放量突破百万。这不是娱乐内容，也不是八卦爆料，而是一场纯粹的技术分享。观众中既有硅谷顶尖工程师，也有《财富》500强企业的CTO，还有刚入门的学生和毫无技术背景的创业者。所有人都在关注这个视频，因为它将“GPT究竟是什么”解释得最为透彻。

这就是Karpathy的影响力——无需炒作，无需包装，只要他发声，整个行业都会倾听。

但更值得探讨的问题是：他是谁？他又为何能拥有如此强大的号召力？

WHO IS KARPATHY

联合创始人之一，与Sam Altman和马斯克共同创立了改变世界的OpenAI。

特斯拉AI总监，直接向马斯克汇报，主导Autopilot和FSD的神经网络架构。

CS231n，斯坦福大学最具影响力的深度学习课程，培养了一代AI工程师。

Software 2.0，一篇文章彻底改变了行业对AI的认知。

nanoGPT，仅用300行代码让全球第一次真正理解了GPT。

Vibe Coding，一条推文定义了AI时代的新编程模式，席卷全球。

TIME100，2024年入选《时代》杂志AI领域百大影响力人物。

这份履历足以让人望尘莫及。但真正让他与众不同的，并非这些头衔，而是他身上一种极为罕见的特质：

他是这个时代极少数同时具备“顶级研究能力”“顶级工程能力”和“顶级表达能力”的人。大多数人只能拥有其中一项。Hinton是顶级研究者，推动了深度学习的历史进程，但他不擅长工程。马斯克是顶级工程驱动者，但他并不从事研究。许多人兼具研究和工程能力，却完全无法清晰表达，写出来的东西只有同行能看懂。而Karpathy三者兼备，在全球AI圈几乎找不到第二个。

今天我们就来聊聊这位AI界的传奇人物。

1986年，Andrej Karpathy出生在捷克斯洛伐克的布拉迪斯拉发——如今斯洛伐克的首都，一座位于多瑙河畔的小城。

15岁时，他随家人移民至加拿大多伦多。语言不通，文化陌生，一个东欧少年来到了北美城市。

他找到了自己的方式：魔方。

2006年，还在读高中的他在YouTube上开设了一个频道，网名badmephisto，专注于录制魔方教学视频。那时YouTube刚刚起步，他的视频画质粗糙，但讲解清晰，步骤分明，毫不跳跃。其中一个视频被当时最年轻的魔方世界纪录保持者Feliks Zemdegs奉为入门圣经，反复观看。这个频道至今已累计超过900万次播放。

一个移民少年，通过教学视频找到了与世界连接的方式。二十年后，他仍在做同样的事情——只是魔方变成了神经网络，观众从几万人扩展到了几千万人。

进入多伦多大学后，Karpathy选择了计算机科学和物理学双学位。在这里，他遇到了改变他一生的人。

Geoffrey Hinton——后来获得诺贝尔物理学奖、被称为“AI教父”的人——当时正在多伦多大学一间不起眼的实验室里，执着地训练神经网络。这在2008年前后是一件几乎被整个AI主流学界嘲笑的事情：支持向量机才是正道，神经网络早已被认为无用，Hinton不过是个固执的老头在死磕一条死路。

Karpathy碰巧坐在了Hinton旁边。

“那是一种运气，”他后来回忆道，“你恰好在正确的时间，坐在了正确的人旁边。”

他被Hinton的工作深深吸引。不是因为那个人，而是因为那个问题：机器能否像人类一样理解世界？随后，他前往不列颠哥伦比亚大学攻读硕士，最终进入斯坦福大学，师从李飞飞攻读博士，专注于计算机视觉与自然语言理解的交叉领域。

2012年，Hinton的团队利用深度神经网络参加ImageNet竞赛，将错误率从26%降至15%，远远甩开第二名。整个AI领域的地壳开始震动。Karpathy正站在这一震动的核心。

2015年，Karpathy在斯坦福开设了一门课程：CS231n，卷积神经网络与计算机视觉。

第一年，150名学生。第二年，750名学生。课程规模增长了5倍，但这仅仅是斯坦福内部的数据。

他将所有课程视频上传到YouTube，全部免费开放。来自印度的工程师在看，来自巴西的研究生在看，来自中国的程序员在看，来自非洲的自学者在看。这门课成为了全球AI工程师的共同入门记忆。

CS231n 影响力

150，2015年首届学生数

750，2017年选课人数

数千万，YouTube 全球观看次数

有一个细节值得一提：Karpathy开设CS231n时，他还只是一个在读博士生，并非斯坦福的正式教授。一个博士生，教出了一门影响全球数千万人的课程。

他为什么能把深度学习讲得如此出色？

并不是因为他懂得更多——在斯坦福，比他知识渊博的教授有很多。而是因为他拥有一种罕见的能力：他总能精准捕捉到“不懂这件事的人会在哪里卡住”。他能够感知学习者的困惑点，并将其拆解得清清楚楚。

这种能力，与他少年时期教魔方的本能如出一辙。

2015年12月，Karpathy博士毕业同年，OpenAI在旧金山成立。

马斯克亲眼目睹谷歌以6.5亿美元收购DeepMind，心中的警报彻底拉响。他联合Sam Altman，决定创立一家研究AGI但不以盈利为目标的公司——不是因为这在商业上合理，而是因为他们相信，如果不这样做，AGI可能会落入某家商业公司的控制，后果可能是灾难性的。

最初只有6位核心成员。Karpathy是其中之一，与Ilya Sutskever、Greg Brockman一起，成为OpenAI的联合创始人。承诺出资10亿美元，尽管实际到位的资金远未达到。

在OpenAI的两年间，Karpathy完成了一件比任何论文都更具深远影响的事——他写了一篇文章。

2017年，他在Medium上发表了《Software 2.0》。

文章的核心观点，在今天看来几乎是常识，但在2017年却是一个颠覆性的思维框架：

SOFTWARE 2.0 核心论点

1.0，人类编写代码 → 计算机执行规则。程序员用if-else、for循环告诉机器每一步怎么做。

2.0，人类提供数据和目标 → 神经网络自行学习规则。程序员不再编写规则，而是收集数据、设计训练目标，让模型自己找到解决方案。

这不是AI的一个分支，而是软件开发的整体范式转变。

这篇文章发布当天便被转发数万次，黄仁勋和Sam Altman都公开引用过这一框架。它彻底改变了无数工程师和CEO对AI的理解方式——不再把AI当作工具，而是将其视为新的编程语言。

时至今日，《Software 2.0》仍然是AI领域被引用最多的非学术文章之一。

但在OpenAI内部，Karpathy实际上是一个“少数派”。

2016-2017年，整个AI圈最热门的方向是强化学习——让AI玩Atari游戏、下围棋、玩星际争霸，通过游戏胜负来训练智能。OpenAI大力押注这条路线，DeepMind的AlphaGo刚刚击败了人类围棋世界冠军，整个行业都在跟进。

Karpathy对此持怀疑态度。

“我一直对游戏能否通往AGI持怀疑态度。你需要的是像会计师那样能在真实世界工作的系统，我看不出打游戏如何能实现这一点。” —— Karpathy，Dwarkesh Podcast，2025

他在OpenAI的项目，是打造一个能够用键盘和鼠标操作真实电脑界面的AI——不是玩游戏，而是像人类一样工作。这个想法在2016年过于超前，未能推进。

八年后，这件事有了一个新名字：AI Agent。Anthropic的Claude Computer Use，OpenAI的Operator，争相发布的正是他2016年想做的东西。

2017年，马斯克亲自致电Karpathy，邀请他出任特斯拉AI与Autopilot视觉总监，直接向马斯克汇报。

能让马斯克这样做的并不多。马斯克不缺钱，特斯拉也不缺AI人才。他之所以亲自出马，是因为他知道Karpathy是罕见的“三位一体”——能做研究，能构建系统，还能带领团队。

Karpathy被一个想法打动了，他后来用一句话描述：

“路上有数百万双眼睛。这是这个星球上最好的数据集。” —— Karpathy谈为何加入特斯拉

这个判断，直接挑战了当时整个自动驾驶行业的共识。

2017年，业界的“标准答案”是：自动驾驶必须使用激光雷达（LiDAR）。Waymo用，Uber用，通用的Cruise也用，每套成本高达数万美元。激光雷达能提供精确的三维空间信息，被认为是安全的唯一保障。

Karpathy和马斯克持完全相反的立场：人类开车靠的是眼睛，机器也应该靠摄像头。纯视觉方案，才是终极方向。

这个判断在当时被嘲笑了许多年。几乎所有自动驾驶专家都认为马斯克和Karpathy在胡说。

在特斯拉，Karpathy主导构建了一套名为Data Engine的系统。

它的运作逻辑如下：当一辆特斯拉在某种路况下做出了错误判断——比如未能识别出一个特殊角度的停车标志——这个“失误场景”会被自动标记，上传到服务器，加入下一轮训练数据，反向优化模型。然后更新推送至全球所有特斯拉，让所有车辆都不再犯同样的错误。

数百万辆车，同时充当数据采集员、测试员和训练数据源。

← 上一篇：AI一天，人间已十年，停更的这几天，我把自己活成了‘AI神经病’ 下一篇：AI落地，云鲸启航 →