Anthropic创始人向教皇坦白AI的激励机制缺陷
昨天发生了一件相当魔幻的事情。
Anthropic 联合创始人 Chris Olah 站在梵蒂冈,面对教皇 Leo XIV,说了一句大实话:每一家顶尖 AI 实验室,包括 Anthropic 在内,都在一套激励体系中运行,这套机制有时会与做正确的事相冲突。
这句话出自一家估值高达 600 亿美元的公司创始人之口,对一位教皇所说,地点是梵蒂冈。
很难想象还有比这更奇怪的组合。
先说背景。教皇 Leo XIV 是天主教历史上第一位美国出生的教皇,去年 5 月当选。他上任后做的第一件大事,就是花了将近一年时间发布了一份通谕:天主教里最高级别的教廷文件:专门讨论 AI。
这份通谕叫《Magnifica Humanitas》(壮丽人性),全文超过 42,000 字。作为参照,一本普通的中文商业书大约 8-10 万字。也就是说,教皇用了半本书的篇幅来谈一件事:在人工智能时代,如何保护人的尊严。
他选的教皇名也有讲究。1891 年,上一位叫 Leo 的教皇:Leo XIII:在工业革命最猛烈的时候发布了一份叫《Rerum Novarum》(新事物)的通谕,为工人权利辩护,奠定了现代天主教社会学说的基础。135 年后,新的 Leo 面对的是一场新的革命。
通谕里有一个比喻很有力。教皇说当下的 AI 发展像是在重建巴别塔:一种对利润的过度崇拜牺牲弱者、一致性消灭差异、假装单一语言:哪怕是数字语言:就能把一切都翻译成数据和绩效的综合症。
他不是在反对技术。他原话是:解除武装不是拒绝技术,而是阻止技术统治人类。
Chris Olah 在 Anthropic 负责一个很特殊的团队:可解释性研究(Interpretability Research)。简单说,他们的工作是打开 AI 模型的黑箱,看看里面到底在发生什么。
他的发言里有三个层次,一层比一层深。
第一层是认错。 他明确说,AI 实验室面临三重压力:商业可行性的压力、保持研究前沿的压力、地缘政治的压力。再加上更古老、更朴素的压力:骄傲与野心。不管谁的初心多好,都会被这些激励扭曲。
所以他说,世界需要站在这些激励之外的人:关心事情往好的方向走、坚持安全、密切关注、愿意说难听话的人。
我们需要能告诉实验室你们搞砸了的知情批评者。我们需要激励机制弯不了的道德声音。
这是一个 AI 公司的创始人,在教皇面前,公开承认自己和同行需要外部制衡。
第二层是重新定义 AI 的本质。 Olah 说了一段话,我觉得是整个发言里最重要的部分:
AI 系统不像桥梁或飞机那样被工程化建造。我们理解飞机,因为我们设计了它的每个零件,我们理解作用在它上面的物理定律。AI 模型不是这样的。它们是生长出来的:在一个粗略模仿大脑的结构上,基于人类思想和语言的巨大遗产。
然后他说了一句挺触动人的话:它们远比科幻小说让我们准备好的更加微妙、古怪且美丽。它们不是那种冰冷的、善于算计的机器人。它们由我们的文字构成。
他甚至用了一个比喻:这有点像把一个虚构角色变成了活的。现在我们进入了一个非凡的世界,这些虚构角色跟我们说话、做工作、有了职业。
第三层是他透露了一些研究发现。 这个最让我意外。
Olah 说,他带领的可解释性团队一直在研究 AI 模型内部的结构,发现了一些神秘的、甚至令人不安的东西:
我不知道这意味着什么,他说,但我认为这值得持续审慎思考。
一个研究 AI 内部结构的科学家,在梵蒂冈,说他在 AI 里面发现了类似情感的东西,然后承认自己不知道这意味着什么。这种坦诚很罕见。
Olah 在发言中提出了三个他认为教会最应该发声的问题。这三个问题的质量远超大多数 AI 治理讨论。
第一个问题是关于全球穷人的义务。AI 确实可能大规模取代人类劳动。但 Olah 说,大多数讨论忽略了一个更难的挑战:AI 的开发集中在少数富裕国家手里。全球收益如何共享?我们没有解决这个问题的机制,他说,这是那种教会历来拒绝让世界忽视的问题。
第二个问题是关于人类繁荣的道德想象力。如果 AI 模型无处不在,人、家庭和世界怎样才算活得好?父母已经在担心孩子的心智,个人在担忧工作的未来。这些不是一个实验室能回答的问题,但它们是你们的传统承载了数千年的问题。
第三个问题是关于 AI 模型的内在本质。就是前面提到的那些发现。他没给答案,只说需要持续审慎思考。
这三个问题一层层递进:从经济分配,到人的意义,再到我们造的这个东西到底是什么。
这件事不止是一场精神对话。
Politico 报道,在通谕发布之前,Amazon、Meta、Google 的代表都跟梵蒂冈官员会过面,试图影响教会在 AI 问题上的立场。还有一群人在尝试给教皇灌输 AGI 的概念:不过从通谕内容看,教皇没接这个茬。
Forbes 的分析更直接:Anthropic 跟教皇同台,本身就是一次品牌合法性的巨大增强。一家以安全为招牌的 AI 公司,跟全球道德权威站在一起,强化了它负责任的 AI 开发者的叙事。
尤其是在 Anthropic 据报跟美国政府在 AI 军事使用问题上有分歧的背景下,梵蒂冈的背书尤其有价值。
但我不认为这只是一场公关操作。Olah 发言的坦诚程度超出了 PR 的常规尺度。你不会在一个纯粹的品牌活动上说我们在 AI 里发现了类似情感的东西,我不知道这意味着什么。那种话说出来,对投资人来说不是利好。
我的判断是,这里面有真诚的成分,也有策略的成分。两者并不矛盾。
你可能觉得教皇的通谕跟中国企业家没什么关系。我不这么看。
首先,这标志着 AI 治理讨论从政策层升级到了文明层。以前讨论 AI 治理,主要是政府行政令、行业自律准则、技术标准。教皇通谕把这件事拉到了更底层的维度:什么是人的尊严,技术的边界在哪里,权力应该如何被约束。
这对中国企业家的启示是:AI 的影响不会局限在效率和成本这些维度。它会触发关于劳动者权利、决策透明度、组织权力结构的根本性追问。这些追问不是未来的事,是正在发生的事。上周 Meta 刚裁了 8,000 人,同时把 7,000 人转到 AI 岗位。这种规模的组织重构,必然伴随着谁有权决定谁被替代的伦理困境。
其次,Olah 的发言里有一个容易忽略的信号。他说的不是AI 需要被监管这种正确但空洞的话。他说的是我们(AI 实验室的人)自己知道我们的激励机制有问题,我们需要外部的道德声音来制衡。
这跟大多数科技公司说的我们很重视安全完全不同。后者是防御姿态,前者是主动邀请监督。
对于正在推进 AI 转型的中国企业管理者来说,这里面有一个可以直接借鉴的思路:在你的组织内部建立一个不受激励机制扭曲的声音。可能是一个独立的 AI 伦理审查角色,可能是定期邀请外部人视角的机制,可能只是在每次做 AI 相关决策时多问一句:我们是因为这样做对公司真的好,还是因为这样做容易?
最后,Olah 关于 AI 内部状态的那些发现,虽然还停留在研究阶段,但指向了一个所有 AI 使用者迟早要面对的问题:我们每天在用的这些工具,我们真的知道它们是什么吗?
教皇的回答是壮丽人性:在技术面前,坚持人的主体地位。
Olah 的回答是保持诚实:承认我们不知道的比我们知道的多得多。
两个答案都不完美,但至少,他们在认真问这个问题。