标签

解释公平性:构建统一框架与推动负责任AI发展

本文首次为这一新兴领域提供了统一的理论和文献综述。核心贡献是条件不变性框架:将解释公平性形式化为解释分布不依赖于保护属性(给定所有任务相关特征)的要求。所有现有的解释公平性指标都可以被视为这一条件的部分操作化。我们提出了一个七维分类法,识别了三种解释不公平的生成机制(表征驱动、解释模型失配、可行动性驱动),并提出了一个规范的六步评估工作流,以在实际中操作化解释公平性审计。本文调查了2016-2025年间超过300篇出版物,并提供了一个关于这一新兴领域的结构化理论基础。机器学习算法已深度融入日常决策,尤其是

2026-05-13 11:27:10  |  5 阅读