AI风险治理的三大支柱：价值导向、核心原则与理论根基

发布时间：2026-05-12 23:43阅读：11

（土：这是为参加5月9号无锡科学技术与公共政策年会准备的发言大纲，内容较为初步。）

早在机器人仅存于概念阶段、尚未成为现实的百年前，具有风险意识的人们就已开始担忧：人类所创造的究竟会不会是一个弗兰肯斯坦式的存在——由人类亲手制造却无法驾驭的怪物。1950年，当人工智能与机器人即将从概念走向现实之际，著名科幻作家兼思想家阿西莫夫提出了机器人三法则，试图化解这一"弗兰肯斯坦情结"。七八十年光阴流逝，这一情结非但没有消散，反而愈发加剧。当前的困境在于，仅为机器人和人工智能设定规则已远远不够，更根本的任务是为AI的设计、制造与使用确立规范，这便是人工智能治理的核心要义。

本轮AI浪潮兴起之初，人类便已敏锐察觉到其中的风险并积极探索治理路径。自2019年经济合作与发展组织（OECD）发布《人工智能原则》起，截至2026年4月，已形成联合国教科文组织《AI伦理建议书》、联合国《全球AI治理框架》、中国《全球人工智能治理倡议》、G7《人工智能全球治理宪章》、欧盟《AI法案》及众多AI公约。梳理归纳这些原则、框架、宪章与法案所追求的价值、遵循的基本原则，是我们审视当下、规划未来AI治理的根基所在。

价值（原则）

核心内涵

关键实践方向

以人为本

AI 的发展与应用应以增进人类福祉为终极目标，确保人类保持控制与决策权

人类监督机制、禁止侵犯尊严的应用（如社会评分）

公平与无歧视

AI 系统不应制造或放大偏见，应对不同群体公正

偏见检测与缓解、公平性审计、多样化数据

透明度与可解释性

AI 系统的运作、决策逻辑及影响应能被理解与追溯

系统信息透明、决策可解释（XAI）、影响评估公开

隐私与数据治理

全生命周期保护个人数据，遵循最小必要与知情同意原则

隐私增强技术、数据安全、知情同意机制

安全与稳健性

AI 系统需安全、可靠、稳定，能抵御攻击并安全失效

对抗性测试、故障安全设计、价值对齐研究

问责制

明确AI全生命周期中各相关方的责任，确保损害可追责、可救济

责任追溯体系、人工问责点、审计与救济机制

可持续发展与全球福祉

AI 应促进包容性增长，关注环境影响，助力解决全球性挑战

绿色AI（降能耗）、数字包容

（一）最突出价值：人的主体性

在上述七项价值中，"以人为本"或"人的主体性"居于最高层次。欧美文件多从人权视角出发，强调个体尊严与自由；中国则更侧重于"人类福祉"这一兼具集体性与长远性的目标。

1.人机关系：

阿西莫夫的机器人三法则：

第零法则：机器人必须保护人类的整体利益不受伤害。

第一法则：机器人不得伤害人类个体，或者目睹人类个体将遭受危险而袖手不管，除非这违反了机器人学第零定律。

第二法则：机器人必须服从人给予它的命令，当该命令与第零定律或者第一定律冲突时例外。

第三法则：机器人在不违反第零、第一、第二定律的情况下要尽可能保护自己的生存。

尽管表述方式存在差异，但都明确否定了机器具有与人类同等的尊严与权利，并强调建立人类监督机制、禁止实施侵犯尊严的应用（如社会评分）。

2.在人与自然的关系层面，现有的AI治理文件虽也涉及可持续发展，但其出发点始终是"为人之自然"，即以人的长远利益为根本。这进一步巩固了人类中心主义在AI治理中的基础地位。

（二）其他价值和原则

是否存在统一的哲学基础？是否存在基本的治理框架？而非仅仅是原则的简单堆砌？

（一）国别学验证程序

1.日本学者加加美光行在国别学研究中提出了验证程序，涵盖信息公开、对话沟通与责任意识三个层面。

2.这一架构受到医疗程序的启发：1964年《赫尔辛基宣言》（全称：世界医学大会赫尔辛基宣言 —— 指导医生进行临床研究的建议）。

医生的使命是守护人类健康，临床研究必须符合伦理、尊重受试者。风险大于潜在收益时，研究不得开展。必须向受试者充分告知研究性质、目的、风险，由其自由、知情同意后方可开展。

（二）系统医学三戒

凌锋、金观涛、鲍遇海在系统医学中提出了"三戒"理念。

第一戒：医生不能因治疗导致患者死亡，或使用治疗干预增加患者死亡概率。医生必须尽可能避免过度干预。

第二戒：医生必须学习和掌握普遍疾病的知识，尽可能用所有一切被公认为是普遍有效的药物和现代设备治疗患者，即普遍疾病认知和相应干预手段的不断扩张是正当的和必需的。除非它和第一条矛盾。

第三戒：医生必须尽可能用一切手段来了解作为特殊个体的患者，认识干预如何导致其内稳态完全集的变化。除非它和第一、第二条矛盾。

（三）拟受控与受控实验

三戒的实质性架构：任何复杂的系统（如人体、医疗行为）都必须在明确的边界条件、可理解的操作机制与明确的责任归属三个维度上得到规范。医疗行为之所以可行且安全，正是因为医生清楚什么能做（边界）、如何做（机制）、谁来负责（责任）。

三戒架构的哲学基础：拟受控实验。与悬置主体的受控实验一样，加入了主体的拟受控实验也由三部分组成：受控条件集、操作方式（控制通路，way）、操控结果。

受控实验是科学可信与扩张的最基本单元；而拟受控实验则是人类文明发展的最基本单元。

这一理念具有高度的迁移价值。

AI系统的设计、开发与部署，本质上也是一种拟受控实验。它在特定的数据环境、算法架构与使用场景中运行，产生特定的输出，并对用户或社会产生影响。因此，AI治理的哲学基础，可以归结为如何规范这种拟受控实验，使其始终处于人类可控的范围之内。

基于上述哲学基础，我们提出AI治理三戒：适用范围、运作机制与结果责任三个维度。

（一）适用范围

任何AI系统都必须在明确的范围之内运行。这一范围包括四个方面：

1.平等群体无歧视要求：AI系统在设计和部署时，必须明确其适用的群体特征，并确保不对任何群体产生系统性歧视。这意味着需要在开发阶段就引入偏见检测与缓解机制。

2.全生命周期覆盖：范围不仅包括部署阶段，还应涵盖研究、设计、开发、运用、监管等全生命周期。每个阶段都有其特定的风险与控制要求。

3.风险评级与范围区分：不同AI应用具有不同的风险等级。欧盟《AI法案》将风险分为不可接受、高风险、有限风险与极小风险四类，并据此设定不同的合规要求。这是范围划分的具体实践。风险分级，是极其高明并必须实施的思想。

4.伦理约束禁区的划定：必须明确划定禁止AI进入的领域。当前全球共识包括：禁止将AI用于大规模监控、社会评分、侵犯隐私、煽动歧视等行为。这些禁区是范围的"负向边界"。

（二）运作机制

AI的设计、集成等必须是可理解与可说明的，这与AI运作"黑箱"并不矛盾。换句话说，机器有黑箱，人的行动必须可解释。

1.在明确的范围之内，AI系统的运作必须具备可理解性与可追溯性。这是透明与问责的前提。系统运作与决策逻辑的可理解性：这一要求不仅适用于"可解释AI"的技术层面，也适用于组织与管理层面。AI系统的设计文档、算法原理、数据来源、更新记录等应保持透明，供监管机构和公众查阅。

2.决策过程的可解释性：针对高风险应用场景，AI系统应能提供决策依据的合理解释，使相关方理解决策产生的逻辑与因素。这不仅是技术要求，也是法律与伦理要求。

3.影响评估的公开：AI系统投入使用前及运行期间，应定期开展影响评估，涵盖人权、公平、隐私、安全等维度，并公开评估结果，接受社会监督。

（三）结果责任

1.责任主体的明确划分：在AI系统的全生命周期中，从研发者、部署者到使用者，每个环节的责任主体都必须清晰界定。这要求建立完善的责任追溯体系。

2.损害救济机制的建立：当AI系统造成损害时，必须有明确的救济途径。这包括技术层面的故障分析、报告机制，以及法律层面的赔偿、补救措施。欧盟《AI法案》要求高风险AI系统建立事故报告机制，这正是责任追究的具体体现。

3.审计与监督体系的完善：定期对AI系统进行独立审计，评估其合规性、公平性与安全性，是确保责任落实的重要手段。审计结果应作为监管决策和公众知情的重要依据。

结语

AI治理三戒——适用范围、运作机制、结果责任——构成了一个完整的治理框架。这一框架以拟受控实验为哲学基础，吸收了系统医学三戒的合理内核，并结合AI技术的特殊性进行了创新性发展。在AI技术飞速发展的今天，我们既需要拥抱技术进步带来的机遇，也必须时刻警惕其中的风险。通过建立健全的治理体系，确保AI始终在人类可控的范围内发展，真正服务于人类的长远福祉，而非成为失控的"弗兰肯斯坦"。

← 上一篇：AI 时代孩子为何更迷茫？揭秘成长困境与破局之道下一篇：智能时代的红利 →