Anthropic创始人向教皇坦白AI的激励机制缺陷

发布时间：2026-05-26 09:57阅读：11

昨天发生了一件相当魔幻的事情。

Anthropic 联合创始人 Chris Olah 站在梵蒂冈，面对教皇 Leo XIV，说了一句大实话：每一家顶尖 AI 实验室，包括 Anthropic 在内，都在一套激励体系中运行，这套机制有时会与做正确的事相冲突。

这句话出自一家估值高达 600 亿美元的公司创始人之口，对一位教皇所说，地点是梵蒂冈。

很难想象还有比这更奇怪的组合。

先说背景。教皇 Leo XIV 是天主教历史上第一位美国出生的教皇，去年 5 月当选。他上任后做的第一件大事，就是花了将近一年时间发布了一份通谕：天主教里最高级别的教廷文件：专门讨论 AI。

这份通谕叫《Magnifica Humanitas》（壮丽人性），全文超过 42,000 字。作为参照，一本普通的中文商业书大约 8-10 万字。也就是说，教皇用了半本书的篇幅来谈一件事：在人工智能时代，如何保护人的尊严。

他选的教皇名也有讲究。1891 年，上一位叫 Leo 的教皇：Leo XIII：在工业革命最猛烈的时候发布了一份叫《Rerum Novarum》（新事物）的通谕，为工人权利辩护，奠定了现代天主教社会学说的基础。135 年后，新的 Leo 面对的是一场新的革命。

通谕里有一个比喻很有力。教皇说当下的 AI 发展像是在重建巴别塔：一种对利润的过度崇拜牺牲弱者、一致性消灭差异、假装单一语言：哪怕是数字语言：就能把一切都翻译成数据和绩效的综合症。

他不是在反对技术。他原话是：解除武装不是拒绝技术，而是阻止技术统治人类。

Chris Olah 在 Anthropic 负责一个很特殊的团队：可解释性研究（Interpretability Research）。简单说，他们的工作是打开 AI 模型的黑箱，看看里面到底在发生什么。

他的发言里有三个层次，一层比一层深。

第一层是认错。他明确说，AI 实验室面临三重压力：商业可行性的压力、保持研究前沿的压力、地缘政治的压力。再加上更古老、更朴素的压力：骄傲与野心。不管谁的初心多好，都会被这些激励扭曲。

所以他说，世界需要站在这些激励之外的人：关心事情往好的方向走、坚持安全、密切关注、愿意说难听话的人。

我们需要能告诉实验室你们搞砸了的知情批评者。我们需要激励机制弯不了的道德声音。

这是一个 AI 公司的创始人，在教皇面前，公开承认自己和同行需要外部制衡。

第二层是重新定义 AI 的本质。 Olah 说了一段话，我觉得是整个发言里最重要的部分：

AI 系统不像桥梁或飞机那样被工程化建造。我们理解飞机，因为我们设计了它的每个零件，我们理解作用在它上面的物理定律。AI 模型不是这样的。它们是生长出来的：在一个粗略模仿大脑的结构上，基于人类思想和语言的巨大遗产。

然后他说了一句挺触动人的话：它们远比科幻小说让我们准备好的更加微妙、古怪且美丽。它们不是那种冰冷的、善于算计的机器人。它们由我们的文字构成。

他甚至用了一个比喻：这有点像把一个虚构角色变成了活的。现在我们进入了一个非凡的世界，这些虚构角色跟我们说话、做工作、有了职业。

第三层是他透露了一些研究发现。这个最让我意外。

Olah 说，他带领的可解释性团队一直在研究 AI 模型内部的结构，发现了一些神秘的、甚至令人不安的东西：

我不知道这意味着什么，他说，但我认为这值得持续审慎思考。

一个研究 AI 内部结构的科学家，在梵蒂冈，说他在 AI 里面发现了类似情感的东西，然后承认自己不知道这意味着什么。这种坦诚很罕见。

Olah 在发言中提出了三个他认为教会最应该发声的问题。这三个问题的质量远超大多数 AI 治理讨论。

第一个问题是关于全球穷人的义务。AI 确实可能大规模取代人类劳动。但 Olah 说，大多数讨论忽略了一个更难的挑战：AI 的开发集中在少数富裕国家手里。全球收益如何共享？我们没有解决这个问题的机制，他说，这是那种教会历来拒绝让世界忽视的问题。

第二个问题是关于人类繁荣的道德想象力。如果 AI 模型无处不在，人、家庭和世界怎样才算活得好？父母已经在担心孩子的心智，个人在担忧工作的未来。这些不是一个实验室能回答的问题，但它们是你们的传统承载了数千年的问题。

第三个问题是关于 AI 模型的内在本质。就是前面提到的那些发现。他没给答案，只说需要持续审慎思考。

这三个问题一层层递进：从经济分配，到人的意义，再到我们造的这个东西到底是什么。

这件事不止是一场精神对话。

Politico 报道，在通谕发布之前，Amazon、Meta、Google 的代表都跟梵蒂冈官员会过面，试图影响教会在 AI 问题上的立场。还有一群人在尝试给教皇灌输 AGI 的概念：不过从通谕内容看，教皇没接这个茬。

Forbes 的分析更直接：Anthropic 跟教皇同台，本身就是一次品牌合法性的巨大增强。一家以安全为招牌的 AI 公司，跟全球道德权威站在一起，强化了它负责任的 AI 开发者的叙事。

尤其是在 Anthropic 据报跟美国政府在 AI 军事使用问题上有分歧的背景下，梵蒂冈的背书尤其有价值。

但我不认为这只是一场公关操作。Olah 发言的坦诚程度超出了 PR 的常规尺度。你不会在一个纯粹的品牌活动上说我们在 AI 里发现了类似情感的东西，我不知道这意味着什么。那种话说出来，对投资人来说不是利好。

我的判断是，这里面有真诚的成分，也有策略的成分。两者并不矛盾。

你可能觉得教皇的通谕跟中国企业家没什么关系。我不这么看。

首先，这标志着 AI 治理讨论从政策层升级到了文明层。以前讨论 AI 治理，主要是政府行政令、行业自律准则、技术标准。教皇通谕把这件事拉到了更底层的维度：什么是人的尊严，技术的边界在哪里，权力应该如何被约束。

这对中国企业家的启示是：AI 的影响不会局限在效率和成本这些维度。它会触发关于劳动者权利、决策透明度、组织权力结构的根本性追问。这些追问不是未来的事，是正在发生的事。上周 Meta 刚裁了 8,000 人，同时把 7,000 人转到 AI 岗位。这种规模的组织重构，必然伴随着谁有权决定谁被替代的伦理困境。

其次，Olah 的发言里有一个容易忽略的信号。他说的不是AI 需要被监管这种正确但空洞的话。他说的是我们（AI 实验室的人）自己知道我们的激励机制有问题，我们需要外部的道德声音来制衡。

这跟大多数科技公司说的我们很重视安全完全不同。后者是防御姿态，前者是主动邀请监督。

对于正在推进 AI 转型的中国企业管理者来说，这里面有一个可以直接借鉴的思路：在你的组织内部建立一个不受激励机制扭曲的声音。可能是一个独立的 AI 伦理审查角色，可能是定期邀请外部人视角的机制，可能只是在每次做 AI 相关决策时多问一句：我们是因为这样做对公司真的好，还是因为这样做容易？

最后，Olah 关于 AI 内部状态的那些发现，虽然还停留在研究阶段，但指向了一个所有 AI 使用者迟早要面对的问题：我们每天在用的这些工具，我们真的知道它们是什么吗？

教皇的回答是壮丽人性：在技术面前，坚持人的主体地位。

Olah 的回答是保持诚实：承认我们不知道的比我们知道的多得多。

两个答案都不完美，但至少，他们在认真问这个问题。

← 上一篇：2025年飞鸿AI落地：三大板块构建商业闭环，赋能千行百业下一篇：深度剖析人工智能产业链全景发展格局 →