标签

AI领域的全能奇才:Andrej Karpathy的崛起之路

发布时间:2026-03-28 20:59来源:微信阅读:12

2023年5月,微软Build大会如期举行。

Andrej Karpathy登台,用整整一小时深入解析了一个主题:GPT是什么,如何训练,又该如何应用。

这场技术演讲视频上传YouTube后,短短72小时内播放量突破百万。这不是娱乐内容,也不是八卦爆料,而是一场纯粹的技术分享。观众中既有硅谷顶尖工程师,也有《财富》500强企业的CTO,还有刚入门的学生和毫无技术背景的创业者。所有人都在关注这个视频,因为它将“GPT究竟是什么”解释得最为透彻。

这就是Karpathy的影响力——无需炒作,无需包装,只要他发声,整个行业都会倾听。

但更值得探讨的问题是:他是谁?他又为何能拥有如此强大的号召力?

WHO IS KARPATHY

联合创始人之一,与Sam Altman和马斯克共同创立了改变世界的OpenAI。

特斯拉AI总监,直接向马斯克汇报,主导Autopilot和FSD的神经网络架构。

CS231n,斯坦福大学最具影响力的深度学习课程,培养了一代AI工程师。

Software 2.0,一篇文章彻底改变了行业对AI的认知。

nanoGPT,仅用300行代码让全球第一次真正理解了GPT。

Vibe Coding,一条推文定义了AI时代的新编程模式,席卷全球。

TIME100,2024年入选《时代》杂志AI领域百大影响力人物。

这份履历足以让人望尘莫及。但真正让他与众不同的,并非这些头衔,而是他身上一种极为罕见的特质:

他是这个时代极少数同时具备“顶级研究能力”“顶级工程能力”和“顶级表达能力”的人。大多数人只能拥有其中一项。Hinton是顶级研究者,推动了深度学习的历史进程,但他不擅长工程。马斯克是顶级工程驱动者,但他并不从事研究。许多人兼具研究和工程能力,却完全无法清晰表达,写出来的东西只有同行能看懂。而Karpathy三者兼备,在全球AI圈几乎找不到第二个。

今天我们就来聊聊这位AI界的传奇人物。

1986年,Andrej Karpathy出生在捷克斯洛伐克的布拉迪斯拉发——如今斯洛伐克的首都,一座位于多瑙河畔的小城。

15岁时,他随家人移民至加拿大多伦多。语言不通,文化陌生,一个东欧少年来到了北美城市。

他找到了自己的方式:魔方。

2006年,还在读高中的他在YouTube上开设了一个频道,网名badmephisto,专注于录制魔方教学视频。那时YouTube刚刚起步,他的视频画质粗糙,但讲解清晰,步骤分明,毫不跳跃。其中一个视频被当时最年轻的魔方世界纪录保持者Feliks Zemdegs奉为入门圣经,反复观看。这个频道至今已累计超过900万次播放。

一个移民少年,通过教学视频找到了与世界连接的方式。二十年后,他仍在做同样的事情——只是魔方变成了神经网络,观众从几万人扩展到了几千万人。

进入多伦多大学后,Karpathy选择了计算机科学和物理学双学位。在这里,他遇到了改变他一生的人。

Geoffrey Hinton——后来获得诺贝尔物理学奖、被称为“AI教父”的人——当时正在多伦多大学一间不起眼的实验室里,执着地训练神经网络。这在2008年前后是一件几乎被整个AI主流学界嘲笑的事情:支持向量机才是正道,神经网络早已被认为无用,Hinton不过是个固执的老头在死磕一条死路。

Karpathy碰巧坐在了Hinton旁边。

“那是一种运气,”他后来回忆道,“你恰好在正确的时间,坐在了正确的人旁边。”

他被Hinton的工作深深吸引。不是因为那个人,而是因为那个问题:机器能否像人类一样理解世界?随后,他前往不列颠哥伦比亚大学攻读硕士,最终进入斯坦福大学,师从李飞飞攻读博士,专注于计算机视觉与自然语言理解的交叉领域。

2012年,Hinton的团队利用深度神经网络参加ImageNet竞赛,将错误率从26%降至15%,远远甩开第二名。整个AI领域的地壳开始震动。Karpathy正站在这一震动的核心。

2015年,Karpathy在斯坦福开设了一门课程:CS231n,卷积神经网络与计算机视觉。

第一年,150名学生。第二年,750名学生。课程规模增长了5倍,但这仅仅是斯坦福内部的数据。

他将所有课程视频上传到YouTube,全部免费开放。来自印度的工程师在看,来自巴西的研究生在看,来自中国的程序员在看,来自非洲的自学者在看。这门课成为了全球AI工程师的共同入门记忆。

CS231n 影响力

150,2015年首届学生数

750,2017年选课人数

数千万,YouTube 全球观看次数

有一个细节值得一提:Karpathy开设CS231n时,他还只是一个在读博士生,并非斯坦福的正式教授。一个博士生,教出了一门影响全球数千万人的课程。

他为什么能把深度学习讲得如此出色?

并不是因为他懂得更多——在斯坦福,比他知识渊博的教授有很多。而是因为他拥有一种罕见的能力:他总能精准捕捉到“不懂这件事的人会在哪里卡住”。他能够感知学习者的困惑点,并将其拆解得清清楚楚。

这种能力,与他少年时期教魔方的本能如出一辙。

2015年12月,Karpathy博士毕业同年,OpenAI在旧金山成立。

马斯克亲眼目睹谷歌以6.5亿美元收购DeepMind,心中的警报彻底拉响。他联合Sam Altman,决定创立一家研究AGI但不以盈利为目标的公司——不是因为这在商业上合理,而是因为他们相信,如果不这样做,AGI可能会落入某家商业公司的控制,后果可能是灾难性的。

最初只有6位核心成员。Karpathy是其中之一,与Ilya Sutskever、Greg Brockman一起,成为OpenAI的联合创始人。承诺出资10亿美元,尽管实际到位的资金远未达到。

在OpenAI的两年间,Karpathy完成了一件比任何论文都更具深远影响的事——他写了一篇文章。

2017年,他在Medium上发表了《Software 2.0》。

文章的核心观点,在今天看来几乎是常识,但在2017年却是一个颠覆性的思维框架:

SOFTWARE 2.0 核心论点

1.0,人类编写代码 → 计算机执行规则。程序员用if-else、for循环告诉机器每一步怎么做。

2.0,人类提供数据和目标 → 神经网络自行学习规则。程序员不再编写规则,而是收集数据、设计训练目标,让模型自己找到解决方案。

这不是AI的一个分支,而是软件开发的整体范式转变。

这篇文章发布当天便被转发数万次,黄仁勋和Sam Altman都公开引用过这一框架。它彻底改变了无数工程师和CEO对AI的理解方式——不再把AI当作工具,而是将其视为新的编程语言。

时至今日,《Software 2.0》仍然是AI领域被引用最多的非学术文章之一。

但在OpenAI内部,Karpathy实际上是一个“少数派”。

2016-2017年,整个AI圈最热门的方向是强化学习——让AI玩Atari游戏、下围棋、玩星际争霸,通过游戏胜负来训练智能。OpenAI大力押注这条路线,DeepMind的AlphaGo刚刚击败了人类围棋世界冠军,整个行业都在跟进。

Karpathy对此持怀疑态度。

“我一直对游戏能否通往AGI持怀疑态度。你需要的是像会计师那样能在真实世界工作的系统,我看不出打游戏如何能实现这一点。” —— Karpathy,Dwarkesh Podcast,2025

他在OpenAI的项目,是打造一个能够用键盘和鼠标操作真实电脑界面的AI——不是玩游戏,而是像人类一样工作。这个想法在2016年过于超前,未能推进。

八年后,这件事有了一个新名字:AI Agent。Anthropic的Claude Computer Use,OpenAI的Operator,争相发布的正是他2016年想做的东西。

2017年,马斯克亲自致电Karpathy,邀请他出任特斯拉AI与Autopilot视觉总监,直接向马斯克汇报。

能让马斯克这样做的并不多。马斯克不缺钱,特斯拉也不缺AI人才。他之所以亲自出马,是因为他知道Karpathy是罕见的“三位一体”——能做研究,能构建系统,还能带领团队。

Karpathy被一个想法打动了,他后来用一句话描述:

“路上有数百万双眼睛。这是这个星球上最好的数据集。” —— Karpathy谈为何加入特斯拉

这个判断,直接挑战了当时整个自动驾驶行业的共识。

2017年,业界的“标准答案”是:自动驾驶必须使用激光雷达(LiDAR)。Waymo用,Uber用,通用的Cruise也用,每套成本高达数万美元。激光雷达能提供精确的三维空间信息,被认为是安全的唯一保障。

Karpathy和马斯克持完全相反的立场:人类开车靠的是眼睛,机器也应该靠摄像头。纯视觉方案,才是终极方向。

这个判断在当时被嘲笑了许多年。几乎所有自动驾驶专家都认为马斯克和Karpathy在胡说。

在特斯拉,Karpathy主导构建了一套名为Data Engine的系统。

它的运作逻辑如下:当一辆特斯拉在某种路况下做出了错误判断——比如未能识别出一个特殊角度的停车标志——这个“失误场景”会被自动标记,上传到服务器,加入下一轮训练数据,反向优化模型。然后更新推送至全球所有特斯拉,让所有车辆都不再犯同样的错误。

数百万辆车,同时充当数据采集员、测试员和训练数据源。