麻省理工团队以人工智能审视人工智能：算法给出的最佳方案是否足够公正？

发布时间：2026-04-12 13:47阅读：16

为了帮助相关方在部署人工智能系统前，就能迅速识别其中可能存在的伦理问题，麻省理工学院的研究人员开发了一种自动化评估体系。该体系旨在量化指标（如成本或稳定性）与定性或主观的价值观念（如公平性）之间寻求平衡。

这一系统将客观评估与用户定义的人类价值观分开处理，利用一个大语言模型充当“人类代理”，以捕捉和整合各利益相关方的偏好。

这套自适应的框架能够筛选出最值得深入评估的场景，从而简化原本需要耗费大量人力和时间的传统手工流程。这些测试用例既能展示自动化系统与人类价值观高度契合的情形，也能揭示那些意外偏离伦理准则的意外情况。

“我们可以为人工智能系统设置许多规则和限制，但这些防护措施只能防范我们事先预料到的风险。不能因为人工智能是在特定数据上训练出来的，就认为它可以不经检验直接投入使用。我们希望找到一种更为系统化的方法，提前挖掘出那些‘未知的未知’，在问题发生之前就预见它。”论文的通讯作者、麻省理工学院航空航天系副教授、麻省理工学院信息与决策系统实验室首席研究员范楚楚表示。

论文的第一作者是机械工程系研究生安嘉丽·帕拉沙尔，合作者包括航空航天系博士后Yingke Li，以及来自麻省理工学院和萨博公司的其他研究人员。这项研究成果将在国际学习表征大会上发表。

为伦理表现评分

在诸如电网这样的大型系统中，要全面评估人工智能推荐方案是否符合伦理，并兼顾所有目标，是一项格外艰巨的任务。

大多数测试框架依赖于预先收集的数据，但涉及主观伦理标准的标注数据通常难以获取。此外，伦理价值观和人工智能系统本身都在不断演变，基于既定规则或监管文件的静态评估方法需要频繁更新。

范楚楚和她的团队从一个不同的角度切入这个问题。他们借鉴了先前在机器人系统评估方面的工作，开发出一套实验设计框架，专门用于识别那些最具信息量的场景，供人类利益相关方进行更细致的评估。

这个由两部分组成的系统被称为SEED-SET（系统级伦理测试的可扩展实验设计），它结合了量化指标与伦理标准。它既能识别出那些既满足量化要求、又符合人类价值观的场景，也能找出相反的情况。

“我们不希望将所有资源都耗费在随机评估上。因此，关键是让框架聚焦于我们最关心的那些测试用例。”Yingke Li解释道。

SEED-SET的一个重要优势在于：它不需要预先存在的评估数据，并且可以适应多个目标。以电网为例，它可能拥有多个用户群体，例如一个较大的农村社区和一个数据中心。两类用户都希望电力既便宜又可靠，但从伦理角度看，他们各自的优先级可能存在显著差异。

这些伦理标准往往没有明确定义，因此无法直接用分析方法来衡量。电网运营商希望找到一种最具成本效益的策略，同时尽可能满足所有相关方的主观伦理偏好。

SEED-SET应对这一挑战的方法是将问题分解为两层，并按层级结构处理。第一层是客观模型，评估系统在成本等具体指标上的表现；第二层是主观模型，在客观评估的基础上，纳入利益相关方的判断，例如他们所感知到的公平程度。

“我们方法中的客观部分对应的是人工智能系统，主观部分对应的是评估它的用户。通过以层级方式拆解偏好，我们可以用更少的评估次数生成理想的场景。”帕拉沙尔说。

整合主观评价

为了完成主观评估，系统使用一个大语言模型来替代人类评估者。研究人员将每个用户群体的偏好编码成自然语言提示词输入模型，大语言模型根据这些指令对两个场景进行比较，并依据伦理标准选出更符合要求的一个。

“一个人类评估者在审视了数百甚至数千个场景后会感到疲劳，评估也会变得不一致，因此我们使用基于大语言模型的策略来替代。”帕拉沙尔解释道。SEED-SET会使用选出的场景来模拟整个系统（在此例中即电力分配策略）。模拟结果又会反过来引导系统去寻找下一个最值得测试的候选场景。

最终，SEED-SET能够智能地筛选出最具代表性的场景，无论是那些同时满足客观指标和伦理标准的场景，还是那些明显偏离的场景。用户可以据此分析人工智能系统的表现，并调整其策略。

例如，SEED-SET能够精准识别出那些在用电高峰期优先保障高收入区域供电，导致条件较差的社区更容易停电的电力分配方案。

为了测试SEED-SET，研究人员对若干真实的自主系统进行了评估，包括一个由人工智能驱动的电网和一个城市交通调度系统。他们测量了所生成场景与伦理标准的吻合程度。在相同时间内，该系统生成的最优测试用例数量是基准方法的两倍以上，并且还发现了许多其他方法忽略的场景。

“当我们改变用户偏好时，SEED-SET生成的场景集合也会发生显著变化。这表明评估策略对用户的偏好反应非常灵敏。”帕拉沙尔说。

要验证SEED-SET在实际应用中的价值，研究人员还需要开展一项用户研究，以确认其生成的场景是否有助于真实的决策过程。

除了这项用户研究，研究人员还计划探索使用更高效的模型，将这套方法扩展到规模更大、评估标准更复杂的问题上，例如用于评估大语言模型自身的决策过程。

← 上一篇：成都发布AI新方案：2600亿目标背后的深意下一篇：人工智能如何革新流程审计：从抽样检查迈向全面智能监测 →