解释公平性：构建统一框架与推动负责任AI发展

发布时间：2026-05-13 11:27阅读：13

本文首次为这一新兴领域提供了统一的理论和文献综述。核心贡献是条件不变性框架：将解释公平性形式化为解释分布不依赖于保护属性（给定所有任务相关特征）的要求。所有现有的解释公平性指标都可以被视为这一条件的部分操作化。我们提出了一个七维分类法，识别了三种解释不公平的生成机制（表征驱动、解释模型失配、可行动性驱动），并提出了一个规范的六步评估工作流，以在实际中操作化解释公平性审计。本文调查了2016-2025年间超过300篇出版物，并提供了一个关于这一新兴领域的结构化理论基础。

机器学习算法已深度融入日常决策，尤其是在影响个人生活的社会敏感领域：决定谁可以获得保释、哪些患者获得额外医疗干预、贷款申请是否获批、谁被列入应聘短名单，以及个人接触到哪些社交媒体内容。模型在展现强大预测能力的同时，也带来了深刻的黑箱问题：其内部计算往往过于复杂，无法被受影响的个人、部署模型的从业者乃至负责监管的机构所理解。

这一黑箱问题催生了两个研究密集型领域。第一个是算法公平性，研究自动系统是否在不同人口群体间产生公平的结果。第二个是可解释人工智能，致力于开发使模型行为可理解、透明和可问责的方法。

尽管这两个领域各自已相当成熟，但它们的交叉点——即解释本身的公平性作为一个独立的研究对象——受到的关注相对有限。当前XAI研究中的一个常见假设是解释方法能为所有群体提供统一的信息价值，而公平性研究中的一个常见假设是偏见存在于模型的预测结果中，而不是导致这些结果的推理过程中。这两个假设现在都受到了理论和经验的挑战。多项研究已证明，SHAP和LIME可以被故意欺骗，以在看似公平的解释背后隐藏歧视性行为，这种做法被正式化为洗白。

所有这些观察都指向一个更深层的问题：程序性偏见。当一个模型仅仅因为个体的保护属性不同而对其使用不同的推理过程时，就发生了程序性偏见。

图 1：程序不公平性的假想示例：两位假想贷款申请人获得相同结果，但他们的模型解释差异显著，这表明决策标准在受保护群体间不对称地应用。该图展示了程序性偏见的核心问题：满足结果公平的模型，其推理过程可能并不公平。

本文的主要贡献包括：

先前面向偏见的指南将解释仅视为诊断结果偏见的工具，从未将其视为偏见本身

← 上一篇：AI创投局：制造业出海新机遇下一篇：智能抠图工具横向评测 →