AI风险治理的三大支柱:价值导向、核心原则与理论根基
(土:这是为参加5月9号无锡科学技术与公共政策年会准备的发言大纲,内容较为初步。)
早在机器人仅存于概念阶段、尚未成为现实的百年前,具有风险意识的人们就已开始担忧:人类所创造的究竟会不会是一个弗兰肯斯坦式的存在——由人类亲手制造却无法驾驭的怪物。1950年,当人工智能与机器人即将从概念走向现实之际,著名科幻作家兼思想家阿西莫夫提出了机器人三法则,试图化解这一"弗兰肯斯坦情结"。七八十年光阴流逝,这一情结非但没有消散,反而愈发加剧。当前的困境在于,仅为机器人和人工智能设定规则已远远不够,更根本的任务是为AI的设计、制造与使用确立规范,这便是人工智能治理的核心要义。
本轮AI浪潮兴起之初,人类便已敏锐察觉到其中的风险并积极探索治理路径。自2019年经济合作与发展组织(OECD)发布《人工智能原则》起,截至2026年4月,已形成联合国教科文组织《AI伦理建议书》、联合国《全球AI治理框架》、中国《全球人工智能治理倡议》、G7《人工智能全球治理宪章》、欧盟《AI法案》及众多AI公约。梳理归纳这些原则、框架、宪章与法案所追求的价值、遵循的基本原则,是我们审视当下、规划未来AI治理的根基所在。
价值(原则)
核心内涵
关键实践方向
1
以人为本
AI 的发展与应用应以增进人类福祉为终极目标,确保人类保持控制与决策权
人类监督机制、禁止侵犯尊严的应用(如社会评分)
2
公平与无歧视
AI 系统不应制造或放大偏见,应对不同群体公正
偏见检测与缓解、公平性审计、多样化数据
3
透明度与可解释性
AI 系统的运作、决策逻辑及影响应能被理解与追溯
系统信息透明、决策可解释(XAI)、影响评估公开
4
隐私与数据治理
全生命周期保护个人数据,遵循最小必要与知情同意原则
隐私增强技术、数据安全、知情同意机制
5
安全与稳健性
AI 系统需安全、可靠、稳定,能抵御攻击并安全失效
对抗性测试、故障安全设计、价值对齐研究
6
问责制
明确AI全生命周期中各相关方的责任,确保损害可追责、可救济
责任追溯体系、人工问责点、审计与救济机制
7
可持续发展与全球福祉
AI 应促进包容性增长,关注环境影响,助力解决全球性挑战
绿色AI(降能耗)、数字包容
(一)最突出价值:人的主体性
在上述七项价值中,"以人为本"或"人的主体性"居于最高层次。欧美文件多从人权视角出发,强调个体尊严与自由;中国则更侧重于"人类福祉"这一兼具集体性与长远性的目标。
1.人机关系:
阿西莫夫的机器人三法则:
第零法则:机器人必须保护人类的整体利益不受伤害。
第一法则:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管,除非这违反了机器人学第零定律。
第二法则:机器人必须服从人给予它的命令,当该命令与第零定律或者第一定律冲突时例外。
第三法则:机器人在不违反第零、第一、第二定律的情况下要尽可能保护自己的生存。
尽管表述方式存在差异,但都明确否定了机器具有与人类同等的尊严与权利,并强调建立人类监督机制、禁止实施侵犯尊严的应用(如社会评分)。
2.在人与自然的关系层面,现有的AI治理文件虽也涉及可持续发展,但其出发点始终是"为人之自然",即以人的长远利益为根本。这进一步巩固了人类中心主义在AI治理中的基础地位。
(二)其他价值和原则
是否存在统一的哲学基础?是否存在基本的治理框架?而非仅仅是原则的简单堆砌?
(一)国别学验证程序
1.日本学者加加美光行在国别学研究中提出了验证程序,涵盖信息公开、对话沟通与责任意识三个层面。
2.这一架构受到医疗程序的启发:1964年《赫尔辛基宣言》(全称:世界医学大会赫尔辛基宣言 —— 指导医生进行临床研究的建议)。
医生的使命是守护人类健康,临床研究必须符合伦理、尊重受试者。风险大于潜在收益时,研究不得开展。必须向受试者充分告知研究性质、目的、风险,由其自由、知情同意后方可开展。
(二)系统医学三戒
凌锋、金观涛、鲍遇海在系统医学中提出了"三戒"理念。
第一戒:医生不能因治疗导致患者死亡,或使用治疗干预增加患者死亡概率。医生必须尽可能避免过度干预。
第二戒:医生必须学习和掌握普遍疾病的知识,尽可能用所有一切被公认为是普遍有效的药物和现代设备治疗患者,即普遍疾病认知和相应干预手段的不断扩张是正当的和必需的。除非它和第一条矛盾。
第三戒:医生必须尽可能用一切手段来了解作为特殊个体的患者,认识干预如何导致其内稳态完全集的变化。除非它和第一、第二条矛盾。
(三)拟受控与受控实验
三戒的实质性架构:任何复杂的系统(如人体、医疗行为)都必须在明确的边界条件、可理解的操作机制与明确的责任归属三个维度上得到规范。医疗行为之所以可行且安全,正是因为医生清楚什么能做(边界)、如何做(机制)、谁来负责(责任)。
三戒架构的哲学基础:拟受控实验。与悬置主体的受控实验一样,加入了主体的拟受控实验也由三部分组成:受控条件集、操作方式(控制通路,way)、操控结果。
受控实验是科学可信与扩张的最基本单元;而拟受控实验则是人类文明发展的最基本单元。
这一理念具有高度的迁移价值。
AI系统的设计、开发与部署,本质上也是一种拟受控实验。它在特定的数据环境、算法架构与使用场景中运行,产生特定的输出,并对用户或社会产生影响。因此,AI治理的哲学基础,可以归结为如何规范这种拟受控实验,使其始终处于人类可控的范围之内。
基于上述哲学基础,我们提出AI治理三戒:适用范围、运作机制与结果责任三个维度。
(一)适用范围
任何AI系统都必须在明确的范围之内运行。这一范围包括四个方面:
1.平等群体无歧视要求:AI系统在设计和部署时,必须明确其适用的群体特征,并确保不对任何群体产生系统性歧视。这意味着需要在开发阶段就引入偏见检测与缓解机制。
2.全生命周期覆盖:范围不仅包括部署阶段,还应涵盖研究、设计、开发、运用、监管等全生命周期。每个阶段都有其特定的风险与控制要求。
3.风险评级与范围区分:不同AI应用具有不同的风险等级。欧盟《AI法案》将风险分为不可接受、高风险、有限风险与极小风险四类,并据此设定不同的合规要求。这是范围划分的具体实践。风险分级,是极其高明并必须实施的思想。
4.伦理约束禁区的划定:必须明确划定禁止AI进入的领域。当前全球共识包括:禁止将AI用于大规模监控、社会评分、侵犯隐私、煽动歧视等行为。这些禁区是范围的"负向边界"。
(二)运作机制
AI的设计、集成等必须是可理解与可说明的,这与AI运作"黑箱"并不矛盾。换句话说,机器有黑箱,人的行动必须可解释。
1.在明确的范围之内,AI系统的运作必须具备可理解性与可追溯性。这是透明与问责的前提。系统运作与决策逻辑的可理解性:这一要求不仅适用于"可解释AI"的技术层面,也适用于组织与管理层面。AI系统的设计文档、算法原理、数据来源、更新记录等应保持透明,供监管机构和公众查阅。
2.决策过程的可解释性:针对高风险应用场景,AI系统应能提供决策依据的合理解释,使相关方理解决策产生的逻辑与因素。这不仅是技术要求,也是法律与伦理要求。
3.影响评估的公开:AI系统投入使用前及运行期间,应定期开展影响评估,涵盖人权、公平、隐私、安全等维度,并公开评估结果,接受社会监督。
(三)结果责任
1.责任主体的明确划分:在AI系统的全生命周期中,从研发者、部署者到使用者,每个环节的责任主体都必须清晰界定。这要求建立完善的责任追溯体系。
2.损害救济机制的建立:当AI系统造成损害时,必须有明确的救济途径。这包括技术层面的故障分析、报告机制,以及法律层面的赔偿、补救措施。欧盟《AI法案》要求高风险AI系统建立事故报告机制,这正是责任追究的具体体现。
3.审计与监督体系的完善:定期对AI系统进行独立审计,评估其合规性、公平性与安全性,是确保责任落实的重要手段。审计结果应作为监管决策和公众知情的重要依据。
结语
AI治理三戒——适用范围、运作机制、结果责任——构成了一个完整的治理框架。这一框架以拟受控实验为哲学基础,吸收了系统医学三戒的合理内核,并结合AI技术的特殊性进行了创新性发展。在AI技术飞速发展的今天,我们既需要拥抱技术进步带来的机遇,也必须时刻警惕其中的风险。通过建立健全的治理体系,确保AI始终在人类可控的范围内发展,真正服务于人类的长远福祉,而非成为失控的"弗兰肯斯坦"。