麻省理工团队以人工智能审视人工智能:算法给出的最佳方案是否足够公正?
为了帮助相关方在部署人工智能系统前,就能迅速识别其中可能存在的伦理问题,麻省理工学院的研究人员开发了一种自动化评估体系。该体系旨在量化指标(如成本或稳定性)与定性或主观的价值观念(如公平性)之间寻求平衡。
这一系统将客观评估与用户定义的人类价值观分开处理,利用一个大语言模型充当“人类代理”,以捕捉和整合各利益相关方的偏好。
这套自适应的框架能够筛选出最值得深入评估的场景,从而简化原本需要耗费大量人力和时间的传统手工流程。这些测试用例既能展示自动化系统与人类价值观高度契合的情形,也能揭示那些意外偏离伦理准则的意外情况。
“我们可以为人工智能系统设置许多规则和限制,但这些防护措施只能防范我们事先预料到的风险。不能因为人工智能是在特定数据上训练出来的,就认为它可以不经检验直接投入使用。我们希望找到一种更为系统化的方法,提前挖掘出那些‘未知的未知’,在问题发生之前就预见它。”论文的通讯作者、麻省理工学院航空航天系副教授、麻省理工学院信息与决策系统实验室首席研究员范楚楚表示。
论文的第一作者是机械工程系研究生安嘉丽·帕拉沙尔,合作者包括航空航天系博士后Yingke Li,以及来自麻省理工学院和萨博公司的其他研究人员。这项研究成果将在国际学习表征大会上发表。
为伦理表现评分
在诸如电网这样的大型系统中,要全面评估人工智能推荐方案是否符合伦理,并兼顾所有目标,是一项格外艰巨的任务。
大多数测试框架依赖于预先收集的数据,但涉及主观伦理标准的标注数据通常难以获取。此外,伦理价值观和人工智能系统本身都在不断演变,基于既定规则或监管文件的静态评估方法需要频繁更新。
范楚楚和她的团队从一个不同的角度切入这个问题。他们借鉴了先前在机器人系统评估方面的工作,开发出一套实验设计框架,专门用于识别那些最具信息量的场景,供人类利益相关方进行更细致的评估。
这个由两部分组成的系统被称为SEED-SET(系统级伦理测试的可扩展实验设计),它结合了量化指标与伦理标准。它既能识别出那些既满足量化要求、又符合人类价值观的场景,也能找出相反的情况。
“我们不希望将所有资源都耗费在随机评估上。因此,关键是让框架聚焦于我们最关心的那些测试用例。”Yingke Li解释道。
SEED-SET的一个重要优势在于:它不需要预先存在的评估数据,并且可以适应多个目标。以电网为例,它可能拥有多个用户群体,例如一个较大的农村社区和一个数据中心。两类用户都希望电力既便宜又可靠,但从伦理角度看,他们各自的优先级可能存在显著差异。
这些伦理标准往往没有明确定义,因此无法直接用分析方法来衡量。电网运营商希望找到一种最具成本效益的策略,同时尽可能满足所有相关方的主观伦理偏好。
SEED-SET应对这一挑战的方法是将问题分解为两层,并按层级结构处理。第一层是客观模型,评估系统在成本等具体指标上的表现;第二层是主观模型,在客观评估的基础上,纳入利益相关方的判断,例如他们所感知到的公平程度。
“我们方法中的客观部分对应的是人工智能系统,主观部分对应的是评估它的用户。通过以层级方式拆解偏好,我们可以用更少的评估次数生成理想的场景。”帕拉沙尔说。
整合主观评价
为了完成主观评估,系统使用一个大语言模型来替代人类评估者。研究人员将每个用户群体的偏好编码成自然语言提示词输入模型,大语言模型根据这些指令对两个场景进行比较,并依据伦理标准选出更符合要求的一个。
“一个人类评估者在审视了数百甚至数千个场景后会感到疲劳,评估也会变得不一致,因此我们使用基于大语言模型的策略来替代。”帕拉沙尔解释道。SEED-SET会使用选出的场景来模拟整个系统(在此例中即电力分配策略)。模拟结果又会反过来引导系统去寻找下一个最值得测试的候选场景。
最终,SEED-SET能够智能地筛选出最具代表性的场景,无论是那些同时满足客观指标和伦理标准的场景,还是那些明显偏离的场景。用户可以据此分析人工智能系统的表现,并调整其策略。
例如,SEED-SET能够精准识别出那些在用电高峰期优先保障高收入区域供电,导致条件较差的社区更容易停电的电力分配方案。
为了测试SEED-SET,研究人员对若干真实的自主系统进行了评估,包括一个由人工智能驱动的电网和一个城市交通调度系统。他们测量了所生成场景与伦理标准的吻合程度。在相同时间内,该系统生成的最优测试用例数量是基准方法的两倍以上,并且还发现了许多其他方法忽略的场景。
“当我们改变用户偏好时,SEED-SET生成的场景集合也会发生显著变化。这表明评估策略对用户的偏好反应非常灵敏。”帕拉沙尔说。
要验证SEED-SET在实际应用中的价值,研究人员还需要开展一项用户研究,以确认其生成的场景是否有助于真实的决策过程。
除了这项用户研究,研究人员还计划探索使用更高效的模型,将这套方法扩展到规模更大、评估标准更复杂的问题上,例如用于评估大语言模型自身的决策过程。