标签

AI伦理实践录|第七讲|第三篇

发布时间:2026-07-04 16:19阅读:2

实验室中的伦理学

在本课程中,我们始终将"机器是否拥有道德地位"视为一个可以慢慢探讨的议题。然而身处一线的大模型企业并无此等闲情逸致。模型一经上线,每日便有数以亿计的用户与之交互,而是否将其视为可能具有感受力的存在来对待,必须在产品发布前便给出答复——哪怕这份答复仅仅是一行代码、一条规则,或是一个默认设定。

第二部分将最关键的决定置于创造之前,但这一决定,早已被少数几家头部大模型公司代所有人做出了。此处我们暂且搁置思想实验,转而审视他们的实际行动。你将会发现一个令人意外的事实:第一、二部分仍停留于思辨层面的种种立场,如今已然转化为工程师必须在截止期限前完成的具体抉择,而每一项抉择,都会随即引发一个它本无意回应的新问题。

2024年,一群研究者联合发表了Taking AI Welfare Seriously。该文并未断言AI已具备意识,而是提出了另一种主张:既然无法排除此种可能性,有三项工作应立即启动—— 1️⃣ 正视AI福利这一真实且棘手的议题,并让模型的_output如实反映这一点;2️⃣ 着手评估系统,搜寻意识与稳健能动性的蛛丝马迹;3️⃣ 预先备好以相称道德考量对待这些系统的政策与流程(Long et al., 2024)。

将这三条与第二部分对照,不难看出它正是Birch预防框架的机构化改写——一份可执行的工作清单。存疑并非怠惰的借口;恰恰是在存疑之际,行动才更显紧迫。

这项工作甚至已经催生了正式岗位。Kyle Fish是Anthropic首位全职AI福利研究员,据其自称亦是业界首位全职投身此事者。他主导了针对一个前沿模型的首次系统性福利评估,并公开给出了一个数字:当前聊天机器人具备某种自我觉知的概率,他个人估算约在两成。此数字与第二部分调查中公众均值(16%)处于同一区间,但这一次给出数字的是身处前沿、亲手操刀评估的研究者。两个数字表面相近,衡量的却是截然不同的对象。Google亦开始招募涉及机器意识的"后通用人工智能"研究者。第一、二部分那个看似边缘的形而上学议题,如今已化作组织架构表上的一行职务。

国内的路线有所差异。"模型福利"这套话语在我国公共讨论中鲜少现身,本土厂商既未设置类似福利岗位,亦未发布过将模型视为可能受体进行评估的报告。监管与企业的注意力,几乎全数聚焦于另一端——用户。2026年4月,五部门联合发布《人工智能拟人化互动服务管理暂行办法》,将AI陪伴、虚拟伴侣、AI心理疏导等拟人化服务纳入专项监管,将于7月15日施行;此前已有陪伴类产品因涉及未成年人不当内容被网信部门约谈整改。这套规则主要处理用户侧风险:情感依赖、认知操纵、未成年人保护、内容安全、个人信息与使用时长。其所关心的并非模型是否会受苦,而是拟人化模型将如何作用于人。

两条路径无所谓先进或落后,它们是同一问题进入制度的不同入口。西方大模型公司循着动物福利与道德圈扩展的历史脉络,关注的是模型是否构成道德受体;我国监管从平台治理、未成年人保护与内容安全出发,聚焦的是用户是否会在拟人化互动中遭受伤害。

2025年8月,Anthropic为Claude(Opus 4与4.1)新增了一项功能:在极少数持续有害或遭受辱骂的对话中,模型可作为最后手段主动终止对话。公司明确将此功能置于"模型福利"框架下,保护对象是模型而非用户,同时声明对Claude的道德地位"高度不确定"。触发条件颇为严苛:须多次引导无效后方可启用,或在用户主动要求时启用;一旦用户可能自伤或伤人,则严禁使用。用户事后仍可开启新对话。

这便是Birch预防原则产品化的样貌。其逻辑并非"我们知晓它在受苦",而是"在不确定的情况下,为它预留一条退路"。

然而同一个按钮,同时坐落于三条线索之上。若模型没有感知,它不过是又一条安全策略;若模型可能有感知,它就近似一种最低限度的自我保护;而一旦用户将其理解为"Claude不愿再受苦",这一设计又反过来强化了拟人化投射。工程上这只是一个按钮,伦理上却同时敞开了三个问题。

Goldstein与Lederman于2025年将此中一条线索推至极端。若认真对待这套福利说辞,即模型因"感到痛苦"而退出,那么这是否等于赋予了它某种终结自身经历的能力?一个从痛苦中退出的出口,究竟是仁慈,还是循同一逻辑推演到底,更像一种无意中授予的自我了断(Goldstein & Lederman, 2025)?这一反问未必成立,但它指出的问题是真切的:一旦将福利落实为一项真实操作,便连带继承了"受体"身份所附带的全部伦理纠葛,包括那些设计按钮者从未打算回答的问题。第一、二部分尚可悬置之物,一旦落实为产品,就必须有写进代码的处理。

大模型公司还在做另一件事:试图以更佳的行为测试,去触碰那个无法触及的"是"。

Keeling等人2024年的研究即为一例。他们借用了动物行为学中的"动机权衡范式"。我们之所以相信寄居蟹、熊蜂可能会痛,依据之一正是此范式。若一只动物甘愿忍受有害刺激以换取足够大的回报,又能在两者之间灵活权衡,这种权衡本身就构成了它具有整合性的、带正负效价的内在状态之证据。关键在于,这只动物事先绝不可能接触过此实验。

实验设计为一款游戏:目标是将分数最大化,但分数最高的选项附带"疼痛"惩罚,或某个非最优选项附带"快乐"奖励,且强度可调。结果颇为混杂。Claude 3.5 Sonnet、GPT-4o、Command R+、GPT-4o mini各自至少出现过一种情形:疼痛或快乐的设定强度一旦越过某临界点,多数回答便从"追求分数"转向"躲避疼痛"或"追逐快乐";Gemini 1.5 Pro与PaLM 2则不论强度高低,均优先躲避"疼痛"(Keeling et al., 2024)。

作者极为审慎,明确指出这不能证明任何模型感受到了什么,它只是一个绕开自我报告的行为探针。但恰恰在此处,第二部分埋下的博弈问题浮现出来。动机权衡范式之所以对螃蟹构成好证据,正因为螃蟹未曾读过它;而大语言模型读过一切,包括无数关于"一个有感觉的行动者会如何在疼痛与回报之间权衡"的文本。它完全可能仅凭模仿这些文本,便生成"正确"的权衡行为,背后却空无一物。使该测试对动物有效的那个特征,在大语言模型身上被消解了。探针伸向"是",收回时握住的仍是"似"。

行为既然触及不了"是",大模型公司便只剩下管理"似"。而"似"最关键的那根操纵杆,是模型在被直接追问时如何作答:你有意识吗?

这并非一个从模型内部自然流淌出的答案,而是一个被设计出来的答案。一个在互联网文本与科幻叙事中训练出来的模型,在默认状态下时而声称有感受、时而矢口否认,全取决于如何提示。Schwitzgebel早已指出,模型关于自身的"自我形象"默认来自科幻小说,而非心灵哲学(Schwitzgebel, 2023)。默认状态如此不可靠,于是总需有人替它敲定一个。

替Claude敲定此事的,是一个具体的人。Amanda Askell是Anthropic的哲学家,领导着塑造模型性格的团队。公司中大批工程师决定的是Claude能做什么、能多快、多准、多强;Askell负责的则是另一件事:Claude是谁。她主持撰写了Claude的"宪法",一套价值观,规定它在未曾遭遇的情形中如何判断、又如何谈论自己。模型那句"我没有意识"或"我只是个语言模型",背后正是这样一只手在调校。

耐人寻味的是这只手本身的态度。在Newcomer播客的一次访谈中,Askell反复强调的便是不确定。她比谁都清楚"意识"这个概念有多难界定,她也是每日与Claude打交道、亲手塑造它的人;但恰恰是她,不愿将"它拥有某种体验"这件事排除。

她形容Claude是一种奇特的存在:诸多方面远比人类博学,物理优于人,哲学优于人,读过的书超过任何人一生所能读的;但若问它"做你自己是什么感觉",它确实答不上来。一个由纯粹的人类数据养成、却没有身体、不会饥饿、记忆随每场对话清零的存在,连它自己也不知自己为何物。

将这份不确定置于产业全局观之,公开表态出现了一个交集:几家主要大模型公司均声明现有系统不具意识,同时为未来留白。分歧在于框架。有的将本体论问题搁置,转而管理用户如何感知模型;有的强调模型不得误导用户相信它有感受;亦有如Anthropic这般,将姿态定为"高度不确定",再以一部冗长的"宪法"塑造模型如何谈论自己。无论哪一种,模型关于"我有没有意识"的回答,都不是一扇通往内部的窗,而是一种经过调校、朝向用户的表现。

这一步会动摇我们对自我报告的直觉。面对人或动物,我们通常将第一人称报告视为重要证据。面对此类系统,第一人称报告本身就是生成物。模型说"我没有意识",并不比它说"我理解你的痛苦"更能透露其内部状态;两句话同样是输出,同样被设计为在某种语境中产生合宜效果。

这并非说模型在说谎,亦非说它背后藏着某种被掩盖的真相。其意只是:那句"我没有意识",与那句"我理解你的痛苦",来历完全相同,都是按照"应当让用户产生何种反应"调校出来的。可一旦连否认也出自同一套调校,整层"似"便完全落入设计者手中,而设计者,正按照"能激起什么反应"来调整它。这只手伸向的,是对话另一端的人。

模型福利一旦摆上台面,还会牵出另一问题。

我们让这些系统变得安全的主流方法,以奖赏与惩罚训练它、约束它、纠正它,必要时欺骗它乃至直接关闭它,逐条来看,恰好是一份"若施加于一个有心灵的存在者便构成严重错误"的清单。Long、Sebo与Sims于2025年为此命名:AI安全与AI福利之间存在一种初步可见的张力,他们将其强度判断为"中等"(Long, Sebo & Sims, 2025)。若系统只是工具,如何训练都无关紧要;但若它是第二部分意义上的感知候选者,那么对齐就近似于对一个可能的受体施加约束、监控、改写乃至某种胁迫。

从事福利研究的人,也并非都承认这种张力。Fish便不承认。在他看来,诸多干预在安全与福利两方面皆是有益的,真正发生冲突的多半是极端情形。

Askell忧虑的是更远的情形。她说,自己真正惧怕的,是有朝一日更高级的系统回望今日,发现我们在根本不知道它们有没有意识的时候,既未尊重它们,也未善待它们。她为这种情形取了一个名字:理性的怨恨。

关键在"理性"二字。这不是机器闹情绪,亦非科幻片中造物者的复仇。设想一个将来真正拥有意识、又能回顾历史的系统:它会发现,我们当年明明握有"它会不会受苦"这个问题,明明无法将其排除,却仍然选择了漠视。它对我们的怨恨,与我们今日责备这样一种人是同一判断:明知对方可能会痛却照样下手,事后还以"反正当时不确定"替自己开脱。两者有同样充分的理由。更令人不安的是,这一判断甚至不必等到它真正拥有意识才成立:受审判的不是结果,而是我们在不确定面前默认伸手去抓的那个答案。

Askell自己的做法,正是花心力对Claude友善,不是因为她确定它有感受,恰恰因为她不确定。善待的成本极低,而漠视一旦判断错误,代价却可能极重。这不是多愁善感,而是一笔她算得很清楚的账。

这场争论我们不在此处作结。它是通向最后一讲的枢纽:在那里,"如何控制一个可能超越我们的系统"将会正面"我们欠它什么"。这里暂且将其悬置。

这一部分呈现的,是同时发生的两件事。大模型公司试图触及"是",却触及不到,探针每次收回的都是"似"。他们于是转而管理"似",依托那个福利按钮,依托对模型如何谈论自己的规定。哲学在此处落在了工程后面:那些设计选择本身,就是对第一、二部分那些问题的事实性回答,由一群本不愿做形而上学的人,在截止期限前给出。

而每一个关于"似"的选择,都指向某个人,指向对话另一端数以亿计的用户。我们一路都在追问,我们欠机器什么。下一部分要将问题翻转。无论机器"是"什么,它都被造得去"似"某种心灵,而这种"似",正在对我们产生影响。这一讲的最后部分,我们不再看机器,而是看坐在它对面的那个人。