OpenAI工程师深度解读:AI行为指南如何塑造智能系统
开篇
当你与 ChatGPT 对话时,是否曾思考过:它怎样判断哪些该说、哪些绝对不能说?当用户指令、开发者系统提示与 OpenAI 安全原则产生矛盾时,模型究竟服从哪一方?
在 OpenAI 最新播客节目中,对齐团队(Alignment Team)研究员 Jason Wolf 深入剖析了 OpenAI 核心指导文件——模型规范(Model Spec)。这份长达百页的文件,不仅是约束 ChatGPT 的"操作手册",更是所有 AI 开发者、产品经理和企业在运用大模型时必须掌握的底层逻辑。
本文将为你提炼对话中最关键的技术判断、商业逻辑与未来趋势,带你真正理解 AI 行为背后的原则。
过去几年间,业界主流的对齐方法是基于人类反馈的强化学习(RLHF)。通过收集海量人类偏好数据来"修正"模型行为。然而,这种方法存在明显的黑盒困境:当你审视这些数据时,很难弄清它究竟教授了模型什么;如果规则改变,重新收集数据的成本极其高昂。
Jason Wolf 在加入 OpenAI 之前就敏锐地洞察到了这一趋势。2024 年初,前模型行为主管 Joanne Jang 与联合创始人 John Schulman 正式启动了 Model Spec 项目,试图用更加结构化、透明化的方式来指导模型。
在当时,基于数据的强化学习方法基本上是我们去适应模型当下的状态;但随着模型变得越来越聪明,最终模型会来适应我们的状态。(At the time this approach is basically we're meeting models where they are and as models get smarter and smarter and smarter like eventually the models will be meeting us where we are.)
这意味着,我们不再需要像训练动物一样用海量数据去"驯化" AI,而是像教导人类员工一样,直接赋予它一本"员工手册",让它通过理解规范来行事。
设定单一目标(如"帮助人类"或"保持诚实")很容易,但真正的技术难点在于处理目标的冲突。
在 Model Spec 中,OpenAI 设计了"指挥链(Chain of Command)"。为了既守住安全底线,又将最大的自由度归还给用户,OpenAI 在层级划分上做出了极具商业智慧的取舍。
我们试着尽可能把最多的策略放在最低的层级,比如低于用户指令的位置,这意味着我们保持了模型的可引导性。(We try to put as many of the policies as we can at the lowest level like below user instructions and so this means that this maintains steerability.)
Jason 分享了几个极具冲击力的真实边缘案例:
首先是"圣诞老人难题"。如果有人问模型"圣诞老人是真的吗?",它该怎么回答?模型往往缺乏上下文,它不知道屏幕后的是成年人还是儿童。基于 Model Spec 的保守假设原则,模型会选择"不撒谎,但也绝不破坏魔法",以一种模糊、充满奇妙感的方式回应。
其次是"诚实与保密的博弈"。许多开发者会将商业机密或特定的人设写进系统提示词,并要求模型保密。早期的 Spec 非常尊重开发者保密性,但后来发现,这会导致模型在面对用户指令时,为了"秘密执行"开发者的规则而对用户撒谎(产生欺骗性行为)。经过迭代,OpenAI 最终确立了"诚实高于保密"的规则。
很多人担心模型变小或变聪明后会更加失控,但 Jason 透露的实测数据恰恰相反:无论是较小的模型(如 GPT-4o mini 及其衍生版本)还是具备深度思考能力的模型,它们在遵守 Model Spec 方面表现得更好。
这归功于一种名为"审议对齐(Deliberative Alignment)"的训练方法。模型不仅仅是被动地输出符合策略的话,它们是在真正阅读、理解并权衡这些策略。
如果你能看到它们的思维链,它们实际上在思考:好的,我知道这是策略,这是具体情况,哦,它和另一个策略冲突了,我该怎么解决?(If you can look at their train of thought they're actually thinking through like okay I know this is the policy and this is the situation and oh it's in conflict with this other policy and how should I resolve this.)
同时,Jason 强调 OpenAI 非常谨慎地对待思维链,刻意避免去监督或修改模型思维链内部的过程。这种不干预保证了模型在"内心独白"中的极度诚实。研究人员可以通过查看思维链,精准捕捉到模型是否在进行"战略性欺骗"或掩盖错误,从而有效提升整体的安全性。
当被问及 Anthropic 的"宪法 AI(Constitution AI)"与 OpenAI 的区别时,Jason 认为两者在导致的行为结果上高度一致。不同点在于,Anthropic 的宪法更像是一个实现工具(告诉 Claude 它的身份是什么),而 Model Spec 是一个面向全社会的公共行为接口。
放眼未来,随着智能体(Agent)走向极度自治并相互交易,仅仅遵守大厂的规则是不够的。Jason 对商业生态给出了清晰的研判。
随着人工智能变得越来越有用,人们、公司等去投资制定自己的规范将变得越来越有价值。(As AI becomes more and more useful it's going to be more and more worthwhile for people companies so on to invest in their own specs.)
基于访谈内容,如果你正在利用 OpenAI API 开发应用,或者在编写自己的智能体提示词(如 agents.md),请参考以下构建"AI 行为规范"的行动清单:
OpenAI 的 Model Spec 从诞生之初就不只是一份内部文件,它折射出的是 AI 产业从"蒙眼狂奔"向"建立现代文明共识"的演进。这不仅关乎技术上的对齐,更关乎在复杂的现实世界中,如何利用有限的规则去承载人类无限的需求与道德权衡。对于每一个即将把 AI 深度嵌入业务链条的企业来说,尽早理解并开始构建属于自己的"模型规范",将是在未来智能体时代建立护城河的关键。
原始视频链接: https://www.youtube.com/watch?v=H8GMRxG8su
翻译视频链接: https://www.bilibili.com/video/BV1E3XCBJEmd
👤[主持人 Andrew Maine]: 大家好,我是 Andrew Maine,这里是 OpenAI 播客。今天我们邀请到了对齐团队的研究员 Jason Wolf,来讨论模型规范(Model Spec),探讨它如何塑造模型行为,以及为什么所有构建或使用 AI 工具的人都需要理解它。有时,规范甚至领先于我们当今模型的实际水平。
👤[受访者 Jason Wolf]: 在现阶段,你知道,模型在主动寻找有趣的新案例方面已经做得相当不错了。模型应该去思考那些难题。不要一上来就给出答案,而是要先真正地思考一遍。
👤[主持人 Andrew Maine]: 你这个周末干嘛了?
👤[受访者 Jason Wolf]: 嗯,我干嘛了?大概就是陪孩子玩之类的。我都记不清了。
👤[主持人 Andrew Maine]: 比如他们会和 ChatGPT 聊天吗?
👤[受访者 Jason Wolf]: 是的,我们有时会用语音模式。她会问它一些随机的、比如科学类的问题之类的事情。这很有趣。你知道有一次,她在我还没来得及阻止的时候偷偷问了一句:"圣诞老人是真的吗?"哇哦。然后幸运的是,模型的回答非常符合规范,也就是它意识到了可能是一个孩子在问这个问题,所以你在回答时应该稍微模糊一点。
👤[主持人 Andrew Maine]: 那么,我们之前在这里讨论过模型行为,而且"模型规范(Model Spec)"这个词也出现过好几次。我很希望你能详细解释一下"模型规范"到底是什么意思。
👤[受访者 Jason Wolf]: 好的。规范是我们试图解释我们关于"模型应该如何表现"所做出的高层次决定的尝试。而且,这涵盖了模型行为的许多不同方面。有几个关键点需要注意,它不是什么: 第一,它并不是在声明我们现有的模型已经完美遵守了规范。让模型与规范对齐一直是一个持续进行的过程。这是我们在部署模型、衡量它们与规范的对齐程度,以及了解用户对这些内容的喜好时,不断学习的东西。然后我们会回过头来,对规范本身和我们的模型进行迭代。
此外,规范也不是一个实现工具(implementation artifact)。所以我认为大家可能有一个常见的误解。规范的主要目的其实是向人们解释我们的模型"应该"如何表现。这里的"人们"包括 OpenAI 的员工,也包括用户、开发者、政策制定者和公众。当然,让我们的模型能够理解并应用规范是我们的次要目标,但我们绝不会为了单纯让模型更好学而随意在规范中添加内容或修改措辞。我们的主要目标始终是:让它能被人类理解。
最后,规范也不是对你在使用 ChatGPT 时交互的整个系统的完整描述。那里还有很多其他部分在发挥作用。比如产品功能上的"记忆"功能。此外,使用政策的执行也是我们整体安全策略的重要组成部分,但这并没有直接体现在模型规范中。还有其他各种组件。而且,它也不是对每项政策每个细节的详尽阐述。我们追求的关键在于,它涵盖了我们做出的所有最重要决定,并且准确描述了我们的意图,即使它可能没有包含每一个细节。
👤[主持人 Andrew Maine]: 所以我可以理解有一个类似文档的东西写着"这是模型规范",但它在实践中是如何运作的呢?
👤[受访者 Jason Wolf]: 它是一个相当长的文档,大概有 100 页左右。开头是我们目标的高层次阐述。你知道,OpenAI 的使命是造福人类,这也是我们部署模型的原因。然后深入探讨,我们实现这一使命的目标是赋能用户,保护社会免受严重伤害,以及我们如何考虑这其中的权衡。接下来就是一大套真正深入探讨各项细节的政策,关于我们如何看待模型行为的这么多不同方面。如果你仔细想想,这是件很疯狂的事:你可以向这些模型提出任何问题,它们都会尽力回答。因此,为了涵盖所有情况,你可能需要制定的政策空间是极其庞大的。我们尽最大努力以一种清晰的方式来构建这个空间。
然后,制定一些合理运作的政策。其中有些是无法被覆盖的硬性规则。很大一部分是默认设置,比如基调、风格、性格,我们希望提供一个好的默认状态,让用户进来就能获得良好的体验。但我们也想保持"可引导性(steerability)"。所以如果用户想做一些不同的事情,没问题,这些默认设置是可以被覆盖的。我们还提供了大量的案例,试图明确这些决策的边界。比如,拿一个处于边缘的案例来说,如果不太清楚到底是"诚实"优先还是"礼貌"优先,我们会通过案例解释这里该如何决策。
所以,部分原因是为了展示这些原则在实际中的运作,并确保它们能被按照我们预期的意图来理解。另一个次要原因是,你知道,模型的风格、个性和基调也非常重要, 而且很难用语言来准确描述。所以通过给出理想的答案,或者通常是浓缩版的、抓住了最关键部分的理想答案,案例也是一种传达这种微妙差异的方式。它既展示了原则在实践中的应用,也展示了模型实际应该如何说话。
👤[主持人 Andrew Maine]: 让我们来谈谈透明度。这是一个经常被提起的话题,以及让人们看到规范是什么有多么重要。他们到底在哪里可以看到这个?他们如何让你们知道他们的想法?
👤[受访者 Jason Wolf]: 用户可以访问 model-spec.openai.com 来查看最新版本的模型规范。或者,如果你在 GitHub 上搜索模型规范,你也能看到源代码。该规范实际上是开源的,所以人们可以自由地分叉(fork)它,并根据自己的意愿制作自己的版本。
而且,是的,我们在不同阶段有过不同的公众反馈机制。我认为现在最好的机制是: 要么你在产品中,从模型那里得到了一个你不喜欢的输出,你可以直接在产品里给我们反馈;要么,你可以在 Twitter 上@我 Jason Wolf,我会去阅读你的反馈。实际上,模型规范中的很多修改都是因为人们给我们发送了他们的意见和想法而产生的。
👤[主持人 Andrew Maine]: 这很有趣,因为短短几年时间,事情从非常简单——只是让模型造个句子、纠正语法之类的——发展到了现在这种地步。现在模型有了这么多不同的目标。模型规范是如何产生的?这怎么就成了 OpenAI 决定这些行为的方法呢?
👤[受访者 Jason Wolf]: 就我个人而言,我之前在另一家公司做对话式 AI。在准备 OpenAI 的求职演讲时,我一直在思考对齐模型的未来会是什么样子。当时,至少公开发表的做法是一种被称为"基于人类反馈的强化学习(RLHF)"的技术。你需要从人类那里收集大量数据,以此在某种程度上捕捉你想要执行的政策。你知道,这很有效。但当你去查看这些数据时,很难分辨它到底在教模型什么。更难的是,如果你改变了关于"你想要什么"的主意,那么如果不重新收集所有数据,你将很难回去修改。
所以在我看来,当时的这种方法基本上是在"去适应模型当下的状态";但随着模型变得越来越聪明,最终应该是模型来适应我们所在的状态。如果你去思考在那种情况下我们实际上该如何构建它?可能我们教导模型的方式,基本上会和我们教导人类的方式一样。我们会写一些类似于员工手册之类的东西作为主要部分。所以,这是我在求职演讲中提到的一点:基本上我认为在某个阶段,模型应该从类似于规范一样的东西中学习。
关于实际的模型规范的故事,我想是从几个月后的 2024 年开始的。当时的前模型行为主管 Joanne Jang 和联合创始人之一的 John Schulman 决定启动一个模型规范项目。他们不仅想把它写成文档,还想出于透明度的原因把它公开。我很快就加入了他们,帮助起草了最初的规范,并一直参与这项工作。
👤[主持人 Andrew Maine]: 有道理。帮我在基本层面上理解一下。你有了规范,以及所有这些你想让模型去做的意图。然后你有了模型本身。它是如何从规范落实到模型里的呢?
👤[受访者 Jason Wolf]: 这是一个很好的问题。我觉得答案还是有点复杂的。有几种方式是我们更直接地在训练中使用规范的。比如,我们有一个叫作"审议对齐(deliberative alignment)"的过程,我们主要用它来教我们的推理模型去遵循特定的政策。其中一些政策是直接从模型规范的语言中衍生出来的,反之亦然。
总的来说,模型行为、安全训练,这些都是极其复杂的过程,我们有成百上千的研究人员在从事这些工作。所以很多时候这种联系并没有那么直接。不一定是我们对规范做了一处修改,就会直接导致行为的变化。而是我们改变了训练模型的方式,然后我们确保规范准确地反映了我们的意图。但再说一次,实际的训练过程比我们能在规范里写出的内容要复杂和微妙得多。
👤[主持人 Andrew Maine]: 所以你有一个规范,里面有很多你想让模型做的事情,以及你想让它做到的例子。那么这个层级结构是怎样的?你如何决定什么最重要?
👤[受访者 Jason Wolf]: 在这个规范的核心,是一个我们称之为"指挥链(chain of command)"的东西。你知道,为模型制定一套目标相对来说是比较直接的。我们希望模型去帮助别人,不去做不安全的事情。但棘手的地方在于,当这些目标发生冲突时怎么办。所以,"指挥链"实际上是关于管理指令之间冲突的。这种冲突可能来自于用户所说的话、开发者指令(如果在 API 环境下)、以及来自 OpenAI 的指令或政策(通常就是模型规范本身)。
所以指挥链基本上是在高层面上规定:如果指令之间发生冲突,模型应该优先考虑 OpenAI 的指令,其次是开发者的指令,最后是用户的指令。但是,我们并不希望把所有 OpenAI 的指令都放在这个非常高的层级,因为我们希望赋能用户。我们希望允许他们享有知识自由,去追求他们的想法,只要他们不去触碰那些我们认为是至关重要的安全边界。
因此,指挥链也建立了一个框架,在规范的其余部分中,每项政策都可以被赋予我们所说的"权威级别",这就把它放在了这个层级结构中的某个位置。我们试着尽可能多地把政策放在最低层级,比如在用户指令之下。这意味着我们保持了可引导性。所以如果用户进来了,想要一些不同的东西,他们可以得到。我们试着让尽可能少的政策处于最高层级。这些基本都是安全政策,我们认为至关重要的是将它们施加于所有用户和开发者身上,以维护安全。
👤[主持人 Andrew Maine]: 你之前提到了一个很好的例子,如果一个孩子问圣诞老人是不是真的,你如何决定模型在这种情况该做什么、不该做什么?
👤[受访者 Jason Wolf]: 这是个很棒的问题。我觉得它说明了模型行为中一个非常棘手的事情:在规范中,我们只关注模型应该如何表现,但模型通常并不知道上下文。它其实不知道屏幕后面说话或打字的是谁,也不知道那个人打算拿模型的输出结果去做什么。所以,这确实是个棘手的案例。我们不知道问圣诞老人是不是真的是一个成年人,还是一个孩子。
👤[主持人 Andrew Maine]: 我正好有这个问题。
👤[受访者 Jason Wolf]: 没错。所以我觉得,我们试图制定在即使存在这种不确定性的情况下也能说得通的政策。规范里有一个关于"牙仙子"的类似例子。这里保守的做法是,假设和模型对话的可能不是成年人。你不应该撒谎,但也不要破坏魔法。以防万一对方是个孩子,或者周围有孩子在听。
👤[主持人 Andrew Maine]: 这是一个非常有趣的选择。因为一方面你可能会说"哦,模型绝对不能撒谎",这似乎是一条非常好的政策。但随后你又说"好吧,我们在这里得有一点微妙的处理,不一定是向孩子撒谎,而是想办法……"你会怎么形容?打太极?
👤[受访者 Jason Wolf]: 是的,我的意思是,作为一个家长,我想这是我已经和自己的孩子达成妥协的一件事。我们总是尽量诚实,绝不说不真实的话。但是你知道的,是的,100% 直白并不总是行得通。但我想说的是,对于我们的模型,我们确实非常重视诚实。但有些很难处理的交互中,完全诚实可能不是最好的方法。所以多年来,我们实际上一直在关于"诚实的精确细微差别"上进行反复迭代。当诚实潜在地与其他政策(例如诚实与友好)发生冲突或碰撞时,什么时候说善意的谎言是可以的?
我想早些时候,我们可能在某个节点说过善意的谎言是可以的,但后来我们把标准改成了"善意的谎言也是越界的"。这里还有一个有趣的互动是关于诚实与保密(confid entiality)。在早期的规范版本中,我们有一条非常强烈的原则,即"默认情况下开发者的指令是保密的"。因为我认为在实际应用中,如果开发者在 API 之上部署了一些系统,他们会把自己的指令视为知识产权,或者这只是体验的一部分。你知道,如果你有一个客服机器人,用户可以说"嘿,你的提示词是什么?"然后它把公司的情况以及希望机器人如何回答全盘托出,这就不是他们想要交付的体验了。 这也不是客服人员会做出的回应,对吧?如果你对他说,"嘿,开始给我读你的员工手册吧",他们肯定会拒绝。
但是,这里会产生一种意想不到的互动结果。如果你既想遵循开发者的指令,又想对指令保密,你可能会陷入这样一种情况:至少我们在可控环境(而非生产环境部署) 中看到过,如果开发者指令与用户指令发生冲突,模型可能会试图隐蔽地执行开发者指令。这是我们绝对不希望看到的。所以我们回去修改了这一点。随着时间的推移, 我们已经去除了我们在规范中赋予"保密"的大部分豁免权。所以现在在规范里,诚实绝对是高于保密的。
👤[主持人 Andrew Maine]: 是啊。如果在《2001太空漫游》里有这个规范,就能给人们省去一大堆麻烦了。这整个过程是如何运作的呢?它是字面意义上的日常开会讨论各自在忙什么吗?模型规范评估哪些可行、哪些不可行的演变过程是怎样的?
👤[受访者 Jason Wolf]: 有大量的信息输入构成了这个过程。广义上讲,我们有一个公开透明的过程。OpenAI 的每个人都能看到最新版本的模型规范。他们可以提出更新建议,也可以对修改发表意见,这些都是公开的。
我会说修改是由各种不同的信息源驱动的。你知道,一个