zonglinzonglin 2018-01-20
如何避免算法的偏见?
编译 | Rik R
来源 | futurism.com
在上世纪 80 年代,曾有一段时期,伦敦圣乔治医学院采用了一种高科技的方法来筛选申请者。那是一个计算机程序,被首次用来概览简历,从而做出初步筛选,每年大约要审查 2000 名候选人。该程序会分析招生记录,以了解成功申请者的特点,从而进行相应的调整,直至与招生小组的决定相匹配。
但是在学习过程中,这个程序逐渐偏向于去寻找一些其它特点,不止于良好的考试成绩和学术研究潜能。在该程序施行的 4 年后,该医院的两名医生发现,这个程序往往不去考虑候选者的学术成绩,而是直接拒绝女性申请人,以及那些没有欧洲名字的申请人。医生们还发现,每年有多达 60 名申请者由于性别或种族问题而被拒绝参加面试。该程序将性别和种族偏见纳入到了训练数据中,本质上就是被教导,妇女和外国人不是做医生的料。
30 年后的今天,我们正面临着类似的问题,但现在这种程序的内部偏见情况则更为普遍,且偏见所占决策的权重甚至更高。如今,从政府部门到医疗机构,机器学习驱动的人工智能算法已经无处不在,它们会基于历史数据来做预测,从而辅助决策。在学习数据中的模式时,它们也吸收了其中的偏见,并使其永久性地得以保留。例如,谷歌更偏向于给女性推送低薪广告;亚马逊的当日送达服务绕过了黑人街区;还有几类数码相机软件都在识别非白人用户的面孔方面感到困难。其中最鲜明的例子是 COMPAS 算法,该算法被多个州政府的执法机构用于评估被告人再犯罪的风险,据 ProPublica 的一项调查显示,黑人被错误标记为罪犯潜在分子的比例几乎是白人的 2 倍。
很难弄清楚算法中的偏见和公平,即使计算机专家也不行。其中一个原因是,算法创建过程中的细节通常被认为是专有信息,因而受其所有者的密切保护。对于更加高级的算法,其结构逻辑异常复杂,以至其创建者也不知道它们的工作方式。这就是人工智能领域中所谓的黑盒子问题:我们不能看到算法的内部,无法理解它如何做出决策。如果没有解决好这个问题,许多人所曾谴责规避的历史歧视数据,将被算法永久性地编码进人类的未来,从而摧毁我们的社会。
这些担忧曾在计算机科学界的一小部分人中被轻声低吟过几年,现在正成为这一领域的重点讨论对象。在过去的 2 年里,人工智能领域中有关公平问题的论文数量出现了巨大的增长。具备了这种公众意识,社会各方的责任感也在与日俱增。Kate Crawford 是一名微软的研究员,以及纽约大学 AI Now 机构的联合创始人,他在最近的一次演讲中问道,「是否存在一些我们不应该创建的东西呢?」
「机器学习终于迎来了它的黄金时间。如今,我们正试图使用它来达成现实世界中的数百个不同目标,」微软高级研究员 Rich Caruana 告诉 Futurism 说道,「人们有机会去部署具有危害性的算法,从长远来看,这会累加为相当大的社会影响……现在,每个人都突然间意识到,这是人工智能领域一个重要的新篇章。」
算法让我这么做
我们已经与算法磨合了很长一段时间,但是黑盒子问题似乎前所未有。早期的算法更简单而透明。其中许多仍然在使用中,例如 FICO 的信用评分算法,每一个新算法的应用都有对应的法律规定。
「人们几十年来一直在使用信用评分算法,但这些领域都有很严格的法规,且会随着这些预测算法的使用而不断对其进行调整。」Caruana 说道。这些法规能够确保预测算法可以为每一项打分提供一个对应的解释:比如你的贷款审批没有通过,原因是你的贷款余额过高,或是你的收入太低。
在其它一些领域,比如法律界和广告业,法规不会对信用评分公司所使用的晦涩算法作要求。你可能不知道自己为什么会被拒绝贷款或找不到工作,因为没有人能够强迫该算法的所有者解释其工作原理。「但我们知道,由于 [算法] 都是基于真实世界的数据来训练的,它们都会有失偏颇——因为现实世界就带有偏见,」Caruana 说道。
譬如语言,它是最明显的偏见来源之一。当算法从书面文本中进行学习时,它们会在那些经常一起出现的单词之间发现一些联系。例如它们可能会学习到,「男人之于计算机程序员正如女人之于家庭主妇。」当这一算法被用来为一份编程工作匹配合适的简历时,它将更可能选择男性而非女性。
解决诸如此类的问题相对来说比较容易,但是很多公司根本就不愿意这样做。相反,他们屏蔽了一些适当的信息以隐藏这种不一致性。如果不知道算法的细节,在许多情况下,甚至专家也无法判断其中是否存在偏见。
因为这些算法是私密的,且处于监管机构的管辖范围之外,公民几乎不可能对这些算法的创造者提起诉讼。那些曾经的诉讼者并没能走多远。2016 年,威斯康星最高法院驳回了一名男子要求审查 COMPAS 算法原理的请求;一名叫 Eric L. Loomis 的诉讼人被判处了 6 年有期徒刑,部分原因是 COMPAS 认为他具备「高风险。」Loomis 称,法官对一个不透明的算法的依赖侵犯了他的法定诉讼权益。最后此案被提交给了美国最高法院,并于 2017 年 6 月宣告诉讼失败;另有 2 位法学教授,花了一年的时间来调查各州在其刑事司法系统中如何使用评分算法。他们的调查所证实的唯一一件事是,这条信息被很好地隐藏在了保密协议的背后。
但这些公司不可能无限期地享受自由。今年 3 月,欧盟将出台相关法律,要求公司有能力就其算法的工作及决策原理向前来咨询的客户做出解释。
美国没有进行这类立法。但有迹象表明,这种趋势可能正在席卷更多的监管监督机构。2017 年 12 月,纽约议会通过了一项法案,将设立一个专项调查小组来研究城市机构所使用的算法,并探索出方法来让其算法决策过程被大众所理解。
黑盒子鉴定
无论监管机构介入与否,在算法的开发和部署中,文化的转变或许可以减少偏见算法的应用比例。随着越来越多的公司和程序员都对其算法的透明性和可解释性做了承诺,对于那些没有给出承诺的公司,一些人希望将它们公之于众,让它们失去民心。
近年来,计算能力的提高已经使人们有可能创造出准确且可解释的算法,而这一技术挑战正是开发商一直以来在努力克服。最近的研究表明,在累犯预测的准确度方面,是存在且可以创建出能够比肩 COMPAS 等黑盒子算法的可解释模型的。
「这项研究结果就摆在那儿,我们知道如何创建出非黑盒子版模型,「杜克大学计算机科学及电气和计算机工程系副教授 Cynthia Rudin 告诉 Futurism,「但要让人们注意到这项工作则有些困难。如果政府机构终止了黑盒子模型研究的赞助补贴,则或许有点帮助。如果法官们拒绝使用黑盒模型进行判决,也会有所帮助。」
其他人正在努力想出一些方法来测试算法的公平性,即在一个新算法被发布到世界之前,建立一个由检查项与平衡项所组成的系统对其进行评估。这就好比一种新药想进入市场,就必须通过临床试验。
「现在的情况是,模型的开发与部署速度太快了。康奈尔大学统计学博士生 Sarah Tan 告诉 Futurism,整个试验过程都没有适当的检查步骤,现实世界中的测试环节也缺少相应的规定。
理想的情况是,开发人员应该从他们的训练数据中清除已知的偏见,比如性别、年龄和种族,并运行内部模拟来检查他们的算法是否还有其它潜在的问题。
同时,在最终发布前,确保所有算法都经过严格的测试,有几种方法可以找出哪些算法可能会受到偏见的影响。
在最近的一篇文章中,Tan、Caruana 及其同事描述了一种新方法来理解黑盒子算法可能的工作原理。该团队基于 COMPAS 预测出的累犯的风险评分数据,创建了一个模拟黑盒子算法(比如 COMPAS)的模型。他们还基于真实世界的结果创建了另一个模型,即那些被预测为累犯的人是否真的又犯罪了。比较这两种模型,研究人员可以在不剖析算法的前提下评估该预测评分算法的准确性。比较这两个模型的输出结果之间的差异,能够找出各个变量(种族或年龄等)在一种或另一种模型中的权重。他们的研究结果与 ProPublica 和其他研究人员的发现一致,即 COMPAS 对黑人是有偏见的。
修正这种偏见可能会带来巨大的回报。如果设计得当,这些算法将会消除刑事司法、警务和社会其它领域中根深蒂固的偏见。
「如果我们真的致力于此,并成功地减少了偏见,我们就可以拥有一个良性的反馈回路,那时,事实上算法会慢慢帮助我们减少对彼此的偏见,使我们成为一个社会共同体。」Caruana 说道。