这就是AI偏见真的发生了 - 以及为什么它如此难以修复

偏见可以在深度学习过程的许多阶段蔓延,而计算机科学中的标准实践并非旨在检测它

转到MIT Technology Review的个人资料 麻省理工学院技术评论 BlockedUnblockFollow 2月4日

插图:科技女士;照片:Pixologicstudio /科学图片库/盖蒂

作者:Karen Hao

在过去几个月中,我们已经记录了当今绝大多数 AI应用程序是基于深度学习算法的类别,以及深度学习算法如何在数据中找到模式。我们还介绍了这些技术如何影响人们的生活:如何使雇佣,零售和安全方面的不公正永久化并且可能已经在刑事法律体系中这样做了。

但仅仅知道存在这种偏见是不够的。如果我们想要能够解决它,我们需要首先了解它产生的机制。

AI偏见如何发生

我们经常通过将其归咎于有偏见的训练数据来简化我们对AI偏差的解释。现实更加微妙:在收集数据之前以及深度学习过程的许多其他阶段 ,偏见可能会持续很长时间 。出于本讨论的目的,我们将重点关注三个关键阶段。

1.构建问题

计算机科学家在创建深度学习模型时所做的第一件事是决定他们实际想要实现的目标。例如,信用卡公司可能想要预测客户的信誉,但"信誉"是一个相当模糊的概念。为了将其转化为可以计算的东西,公司必须决定是否希望最大化其利润率或最大化已偿还的贷款数量。然后,它可以在该目标的背景下定义信誉。康奈尔大学的助理教授,专门研究机器学习公平性的Solon Barocas解释说,问题在于"这些决定是出于公平或歧视以外的各种商业原因而做出的。"如果算法发现提供次级抵押贷款是最大化利润的有效方式,那么即使不是公司的意图,也最终会引发掠夺性行为。

2.收集数据

偏见在培训数据中有两种主要方式:您收集的数据不代表现实,或者它反映了现有的偏见。第一种情况可能发生,例如,如果深度学习算法被送入比浅肤色面部更多的浅肤色面部照片。由此产生的面部识别系统在识别较暗皮肤的面部时将不可避免地更糟糕 。第二个案例正是当亚马逊发现其内部招聘工具正在解雇女性候选人时所发生的情况。因为它受过历史雇佣决定的培训,这些决定有利于男性而不是女性,所以学会了同样的事情。

3.准备数据

最后,可以在数据准备阶段引入偏差,这涉及选择您希望算法考虑哪些属性。 (这不能与问题框架阶段混淆。您可以使用相同的属性来训练模型以实现非常不同的目标,或者使用非常不同的属性来为同一目标训练模型。)在建模信誉度的情况下, "属性"可以是客户的年龄,收入或已支付贷款的数量。就亚马逊的招聘工具而言,"属性"可以是候选人的性别,教育水平或多年的经验。这就是人们通常所说的深度学习的"艺术":选择要考虑或忽略的属性会显着影响模型的预测准确性。虽然它对准确性的影响很容易衡量,但它对模型偏差的影响却并非如此。

为什么AI偏差难以修复

鉴于这种情况,减轻偏见的一些挑战可能已经很明显。在这里,我们强调四个主要的。

1.未知的未知数

在模型构建过程中引入偏差并不总是很明显,因为您可能直到很久以后才意识到数据和选择的下游影响。一旦你做到了,就很难追溯到这个偏见的来源,然后弄清楚如何摆脱它。在亚马逊的情况下,当工程师最初发现其工具正在惩罚女性候选人时,他们重新编程,以忽略明确的性别词,如"女性"。他们很快就发现,修订后的系统仍然采用含蓄的 性别化词语 - 与男性高度相关的动词,如"已执行"和"被捕获" - 并使用它来做出决定。

2.不完善的流程

首先,深度学习中的许多标准实践并未考虑偏差检测。深度学习模型在部署之前会对性能进行测试,从而创建一个似乎是抓住偏见的绝佳机会。但在实践中,测试通常看起来像这样:计算机科学家 训练 之前 随机将他们的数据分成一组实际用于训练的组,另一组 训练完成后保留用于验证。这意味着用于测试模型性能的数据与用于训练模型的数据具有相同的偏差。因此,它将无法标记偏斜或偏见的结果。

3.缺乏社会背景

同样,计算机科学家教授框架问题的方式往往与思考社会问题的最佳方式不相容。例如,在一篇新论文中 ,数据与社会研究所的博士后Andrew Selbst确定了他所谓的"可移植性陷阱"。在计算机科学中,设计一个可用于不同环境中的不同任务的系统被认为是一种好的做法。 "但这样做会忽略很多社会背景,"塞尔布斯特说。 "你不能在犹他州设计一个系统,然后直接在肯塔基州申请,因为不同的社区有不同的公平版本。或者你不能有一个系统,你申请'公平'的刑事司法结果然后适用于就业。我们认为在这些背景下的公平性是完全不同的。"

4.公平的定义

目前还不清楚缺乏偏见应该是什么样子。这在计算机科学中并非如此 - 这个问题在哲学,社会科学和法律方面有着悠久的争论历史。计算机科学的不同之处在于公平的概念必须用数学术语来定义,比如平衡预测系统的假阳性和假阴性率。但正如研究人员所发现的那样,公平性的许多不同的数学定义也是相互排斥的。例如,公平是否意味着相同比例的黑人和白人应获得高风险评估分数?或者,无论种族如何, 相同的风险水平都会产生相同的分数?同时完成这两个定义是不可能的( 这里有更深入的了解原因),所以在某些时候你必须选择一个。但是在其他领域,这个决定被理解为随着时间的推移而变化的东西,计算机科学领域有一个概念,它应该被修复。 "通过确定答案,你解决的问题看起来与社会倾向于思考这些问题的方式截然不同,"塞尔斯特说。

我们从哪里开始

如果你在旋风之旅中感受到AI偏差问题的全部范围,我也是如此。但幸运的是,一大批AI研究人员正在努力解决这个问题。他们采取了多种方法:有助于检测减轻训练数据中隐藏偏差的算法,或者减轻模型所学习的偏差 ,而不管数据质量如何;让公司对更公平的结果和讨论 负责的 过程 ,这些过程勾勒出不同的公平定义。

"在算法系统中'修复'歧视并不容易解决,"塞尔布斯特说。 "这是一个持续的过程,就像在社会的任何其他方面的歧视一样。"

查看英文原文

查看更多文章

公众号:银河系1号

联系邮箱:public@space-explore.com

(未经同意,请勿转载)