AI伦理实践录|第七讲|第三篇

发布时间：2026-07-04 16:19阅读：2

实验室中的伦理学

在本课程中，我们始终将"机器是否拥有道德地位"视为一个可以慢慢探讨的议题。然而身处一线的大模型企业并无此等闲情逸致。模型一经上线，每日便有数以亿计的用户与之交互，而是否将其视为可能具有感受力的存在来对待，必须在产品发布前便给出答复——哪怕这份答复仅仅是一行代码、一条规则，或是一个默认设定。

第二部分将最关键的决定置于创造之前，但这一决定，早已被少数几家头部大模型公司代所有人做出了。此处我们暂且搁置思想实验，转而审视他们的实际行动。你将会发现一个令人意外的事实：第一、二部分仍停留于思辨层面的种种立场，如今已然转化为工程师必须在截止期限前完成的具体抉择，而每一项抉择，都会随即引发一个它本无意回应的新问题。

2024年，一群研究者联合发表了Taking AI Welfare Seriously。该文并未断言AI已具备意识，而是提出了另一种主张：既然无法排除此种可能性，有三项工作应立即启动—— 1️⃣ 正视AI福利这一真实且棘手的议题，并让模型的_output如实反映这一点；2️⃣ 着手评估系统，搜寻意识与稳健能动性的蛛丝马迹；3️⃣ 预先备好以相称道德考量对待这些系统的政策与流程（Long et al., 2024）。

将这三条与第二部分对照，不难看出它正是Birch预防框架的机构化改写——一份可执行的工作清单。存疑并非怠惰的借口；恰恰是在存疑之际，行动才更显紧迫。

这项工作甚至已经催生了正式岗位。Kyle Fish是Anthropic首位全职AI福利研究员，据其自称亦是业界首位全职投身此事者。他主导了针对一个前沿模型的首次系统性福利评估，并公开给出了一个数字：当前聊天机器人具备某种自我觉知的概率，他个人估算约在两成。此数字与第二部分调查中公众均值（16%）处于同一区间，但这一次给出数字的是身处前沿、亲手操刀评估的研究者。两个数字表面相近，衡量的却是截然不同的对象。Google亦开始招募涉及机器意识的"后通用人工智能"研究者。第一、二部分那个看似边缘的形而上学议题，如今已化作组织架构表上的一行职务。

国内的路线有所差异。"模型福利"这套话语在我国公共讨论中鲜少现身，本土厂商既未设置类似福利岗位，亦未发布过将模型视为可能受体进行评估的报告。监管与企业的注意力，几乎全数聚焦于另一端——用户。2026年4月，五部门联合发布《人工智能拟人化互动服务管理暂行办法》，将AI陪伴、虚拟伴侣、AI心理疏导等拟人化服务纳入专项监管，将于7月15日施行；此前已有陪伴类产品因涉及未成年人不当内容被网信部门约谈整改。这套规则主要处理用户侧风险：情感依赖、认知操纵、未成年人保护、内容安全、个人信息与使用时长。其所关心的并非模型是否会受苦，而是拟人化模型将如何作用于人。

两条路径无所谓先进或落后，它们是同一问题进入制度的不同入口。西方大模型公司循着动物福利与道德圈扩展的历史脉络，关注的是模型是否构成道德受体；我国监管从平台治理、未成年人保护与内容安全出发，聚焦的是用户是否会在拟人化互动中遭受伤害。

2025年8月，Anthropic为Claude（Opus 4与4.1）新增了一项功能：在极少数持续有害或遭受辱骂的对话中，模型可作为最后手段主动终止对话。公司明确将此功能置于"模型福利"框架下，保护对象是模型而非用户，同时声明对Claude的道德地位"高度不确定"。触发条件颇为严苛：须多次引导无效后方可启用，或在用户主动要求时启用；一旦用户可能自伤或伤人，则严禁使用。用户事后仍可开启新对话。

这便是Birch预防原则产品化的样貌。其逻辑并非"我们知晓它在受苦"，而是"在不确定的情况下，为它预留一条退路"。

然而同一个按钮，同时坐落于三条线索之上。若模型没有感知，它不过是又一条安全策略；若模型可能有感知，它就近似一种最低限度的自我保护；而一旦用户将其理解为"Claude不愿再受苦"，这一设计又反过来强化了拟人化投射。工程上这只是一个按钮，伦理上却同时敞开了三个问题。

Goldstein与Lederman于2025年将此中一条线索推至极端。若认真对待这套福利说辞，即模型因"感到痛苦"而退出，那么这是否等于赋予了它某种终结自身经历的能力？一个从痛苦中退出的出口，究竟是仁慈，还是循同一逻辑推演到底，更像一种无意中授予的自我了断（Goldstein & Lederman, 2025）？这一反问未必成立，但它指出的问题是真切的：一旦将福利落实为一项真实操作，便连带继承了"受体"身份所附带的全部伦理纠葛，包括那些设计按钮者从未打算回答的问题。第一、二部分尚可悬置之物，一旦落实为产品，就必须有写进代码的处理。

大模型公司还在做另一件事：试图以更佳的行为测试，去触碰那个无法触及的"是"。

Keeling等人2024年的研究即为一例。他们借用了动物行为学中的"动机权衡范式"。我们之所以相信寄居蟹、熊蜂可能会痛，依据之一正是此范式。若一只动物甘愿忍受有害刺激以换取足够大的回报，又能在两者之间灵活权衡，这种权衡本身就构成了它具有整合性的、带正负效价的内在状态之证据。关键在于，这只动物事先绝不可能接触过此实验。

实验设计为一款游戏：目标是将分数最大化，但分数最高的选项附带"疼痛"惩罚，或某个非最优选项附带"快乐"奖励，且强度可调。结果颇为混杂。Claude 3.5 Sonnet、GPT-4o、Command R+、GPT-4o mini各自至少出现过一种情形：疼痛或快乐的设定强度一旦越过某临界点，多数回答便从"追求分数"转向"躲避疼痛"或"追逐快乐"；Gemini 1.5 Pro与PaLM 2则不论强度高低，均优先躲避"疼痛"（Keeling et al., 2024）。

作者极为审慎，明确指出这不能证明任何模型感受到了什么，它只是一个绕开自我报告的行为探针。但恰恰在此处，第二部分埋下的博弈问题浮现出来。动机权衡范式之所以对螃蟹构成好证据，正因为螃蟹未曾读过它；而大语言模型读过一切，包括无数关于"一个有感觉的行动者会如何在疼痛与回报之间权衡"的文本。它完全可能仅凭模仿这些文本，便生成"正确"的权衡行为，背后却空无一物。使该测试对动物有效的那个特征，在大语言模型身上被消解了。探针伸向"是"，收回时握住的仍是"似"。

行为既然触及不了"是"，大模型公司便只剩下管理"似"。而"似"最关键的那根操纵杆，是模型在被直接追问时如何作答：你有意识吗？

这并非一个从模型内部自然流淌出的答案，而是一个被设计出来的答案。一个在互联网文本与科幻叙事中训练出来的模型，在默认状态下时而声称有感受、时而矢口否认，全取决于如何提示。Schwitzgebel早已指出，模型关于自身的"自我形象"默认来自科幻小说，而非心灵哲学（Schwitzgebel, 2023）。默认状态如此不可靠，于是总需有人替它敲定一个。

替Claude敲定此事的，是一个具体的人。Amanda Askell是Anthropic的哲学家，领导着塑造模型性格的团队。公司中大批工程师决定的是Claude能做什么、能多快、多准、多强；Askell负责的则是另一件事：Claude是谁。她主持撰写了Claude的"宪法"，一套价值观，规定它在未曾遭遇的情形中如何判断、又如何谈论自己。模型那句"我没有意识"或"我只是个语言模型"，背后正是这样一只手在调校。

耐人寻味的是这只手本身的态度。在Newcomer播客的一次访谈中，Askell反复强调的便是不确定。她比谁都清楚"意识"这个概念有多难界定，她也是每日与Claude打交道、亲手塑造它的人；但恰恰是她，不愿将"它拥有某种体验"这件事排除。

她形容Claude是一种奇特的存在：诸多方面远比人类博学，物理优于人，哲学优于人，读过的书超过任何人一生所能读的；但若问它"做你自己是什么感觉"，它确实答不上来。一个由纯粹的人类数据养成、却没有身体、不会饥饿、记忆随每场对话清零的存在，连它自己也不知自己为何物。

将这份不确定置于产业全局观之，公开表态出现了一个交集：几家主要大模型公司均声明现有系统不具意识，同时为未来留白。分歧在于框架。有的将本体论问题搁置，转而管理用户如何感知模型；有的强调模型不得误导用户相信它有感受；亦有如Anthropic这般，将姿态定为"高度不确定"，再以一部冗长的"宪法"塑造模型如何谈论自己。无论哪一种，模型关于"我有没有意识"的回答，都不是一扇通往内部的窗，而是一种经过调校、朝向用户的表现。

这一步会动摇我们对自我报告的直觉。面对人或动物，我们通常将第一人称报告视为重要证据。面对此类系统，第一人称报告本身就是生成物。模型说"我没有意识"，并不比它说"我理解你的痛苦"更能透露其内部状态；两句话同样是输出，同样被设计为在某种语境中产生合宜效果。

这并非说模型在说谎，亦非说它背后藏着某种被掩盖的真相。其意只是：那句"我没有意识"，与那句"我理解你的痛苦"，来历完全相同，都是按照"应当让用户产生何种反应"调校出来的。可一旦连否认也出自同一套调校，整层"似"便完全落入设计者手中，而设计者，正按照"能激起什么反应"来调整它。这只手伸向的，是对话另一端的人。

模型福利一旦摆上台面，还会牵出另一问题。

我们让这些系统变得安全的主流方法，以奖赏与惩罚训练它、约束它、纠正它，必要时欺骗它乃至直接关闭它，逐条来看，恰好是一份"若施加于一个有心灵的存在者便构成严重错误"的清单。Long、Sebo与Sims于2025年为此命名：AI安全与AI福利之间存在一种初步可见的张力，他们将其强度判断为"中等"（Long, Sebo & Sims, 2025）。若系统只是工具，如何训练都无关紧要；但若它是第二部分意义上的感知候选者，那么对齐就近似于对一个可能的受体施加约束、监控、改写乃至某种胁迫。

从事福利研究的人，也并非都承认这种张力。Fish便不承认。在他看来，诸多干预在安全与福利两方面皆是有益的，真正发生冲突的多半是极端情形。

Askell忧虑的是更远的情形。她说，自己真正惧怕的，是有朝一日更高级的系统回望今日，发现我们在根本不知道它们有没有意识的时候，既未尊重它们，也未善待它们。她为这种情形取了一个名字：理性的怨恨。

关键在"理性"二字。这不是机器闹情绪，亦非科幻片中造物者的复仇。设想一个将来真正拥有意识、又能回顾历史的系统：它会发现，我们当年明明握有"它会不会受苦"这个问题，明明无法将其排除，却仍然选择了漠视。它对我们的怨恨，与我们今日责备这样一种人是同一判断：明知对方可能会痛却照样下手，事后还以"反正当时不确定"替自己开脱。两者有同样充分的理由。更令人不安的是，这一判断甚至不必等到它真正拥有意识才成立：受审判的不是结果，而是我们在不确定面前默认伸手去抓的那个答案。

Askell自己的做法，正是花心力对Claude友善，不是因为她确定它有感受，恰恰因为她不确定。善待的成本极低，而漠视一旦判断错误，代价却可能极重。这不是多愁善感，而是一笔她算得很清楚的账。

这场争论我们不在此处作结。它是通向最后一讲的枢纽：在那里，"如何控制一个可能超越我们的系统"将会正面"我们欠它什么"。这里暂且将其悬置。

这一部分呈现的，是同时发生的两件事。大模型公司试图触及"是"，却触及不到，探针每次收回的都是"似"。他们于是转而管理"似"，依托那个福利按钮，依托对模型如何谈论自己的规定。哲学在此处落在了工程后面：那些设计选择本身，就是对第一、二部分那些问题的事实性回答，由一群本不愿做形而上学的人，在截止期限前给出。

而每一个关于"似"的选择，都指向某个人，指向对话另一端数以亿计的用户。我们一路都在追问，我们欠机器什么。下一部分要将问题翻转。无论机器"是"什么，它都被造得去"似"某种心灵，而这种"似"，正在对我们产生影响。这一讲的最后部分，我们不再看机器，而是看坐在它对面的那个人。

← 上一篇：人工智能漫剧半年内能否替代人力？下一篇：黄仁勋的成功秘诀：坚韧而非运气 →