一款预测罪犯评估软件竟然存在“机器偏见”,谁该负责?


法院、银行和一些其他机构正在使用自动化数据分析系统做决策。然而最近的新闻报道称,机器也会产生偏见。ProPublica是一家非盈利新闻机构,也曾获得普利策奖;COMPAS是一款预测罪犯可能会成为再犯的风险评估软件,在它的帮助下,法官对被告和罪犯的未来情况,如保释金额、判刑等做出决策。



COMPAS曾经预测了佛罗里达州超过10000名罪犯是否会成为再犯的概率,ProPublica将该软件的预测结果与实际结果进行了比较,结果表明:当算法的预测结果与实际结果相同时,无论是对黑人和白人,算法准确率大致相同。


然而,当算法的预测结果与实际结果不相同时,算法存在偏见——一方面,黑人被算法标记为会成为再犯的风险远高于白人,而实际上这些黑人并没有成为再犯;另一方面,白人被标记为会成为再犯的风险很低,但实际上这些白人却继续犯罪。


使用像COMPAS这样的风险评估系统是否合适,不仅仅是一个种族偏见的问题。以威斯康星州的一名罪犯为例,法官在做出判决的时候使用了COMPAS,这就使该罪犯的正当程序权利受到了侵犯。然而对被告而言,COMPAS风险评估软件就是一个黑盒子,即使是专家都难以解释它给出的结果。


在司法系统之外,也存在许多这样的潜在问题。例如,基于在线人格测试,自动决策系统帮助决定一个人是否适合某项工作;信用评分算法在帮助人们得到抵押贷款、信用卡等方面也起着至关重要的作用。然而,使用像COMPAS这样的风险评估系统并不一定是坏事。在许多情况下,自动决策系统的公平性可以提高。有时候,人类的决策一样不合逻辑,有失公正,这就需要监管来使决策符合我们的正义标准。


一项研究表明,刚刚吃完饭后的法官很可能释放犯人,这可能会带来严重的后果,而自动决策系统可能会找出决策过程中的瑕疵,并解决这个问题。


但是,我们通常并不是很了解自动决策系统的工作原理,因此也不知道它们是否比人类更公正。部分原因是做决策的系统基于一定的基本假设,而即使是系统设计人员也不一定很清楚这些假设是否合理,不清楚哪些算法可能会产生偏见。即使是答案看起来很清楚,事实上可能会很复杂。立法者、法院、博学的人应该决定我们希望算法优先考虑什么。


我们应该怎样做才能更好地利用自动决策系统?民主社会需要更多的监管。AlgorithmWatch是一家旨在帮助人们理解这些系统影响的非营利倡导组织,总部位于柏林,是笔者与一名计算机科学家、一名法律哲学家和一名记者联合创办的。


我们曾经说过,大多数自动决策系统都是黑盒子,这不符合自然规律,必须终止。然而,我们的观点与许多批评者不同,因为我们恐惧的不是技术本身,而是这些技术的滥用。不仅仅是算法开发者,许多群体都会影响自动决策系统的价值判断。


COMPAS从对罪犯的问卷调查(问卷调查涉及被告的犯罪历史和对犯罪的态度)中得出该罪犯可能成为再犯的风险分数。那么,这种方式是否会产生有偏见的结果?在ProPublica的调查之后, Northpointe(开发COMPAS的公司)对ProPublica的报道进行了驳斥,该公司认为是记者误解了那些数据,三名刑事司法研究人员(其中一人来自于司法改革组织) 也认同Northpointe的观点。那么,到底谁才是正确的呢?是记者?还是这些研究人员?马克斯·普朗克软件系统研究所的网络系统研究组组长Krishna Gummadi给出了一个令人惊讶的答案:他们都是正确的。


Gummadi曾经广泛地研究了算法中的公正性问题,他表示,ProPublica和Northpointe的结果并不矛盾,不同的结果是因为它们采用了不同的公平措施。如果自动化决策系统使用恰当,刑事司法算法会向改革量刑方式、解除大规模监禁敞开一扇科学的大门。


想象一下,你正在设计一个预测哪些罪犯可能成为再犯的系统。一种选择是去优化“真阳性”,这意味着你要让系统尽可能多地识别出哪些罪犯可能会真正地成为再犯。这种优化方法存在一个问题,它往往会增加“假阳性”的数量,“假阳性”意味着会不公正地将罪犯预测为再犯。


虽然可以采取措施尽可能减少假阳性的数量,但是这经常会造成更多的“假阴性”——这意味着很可能成为再犯的罪犯没能被系统发现。提高真阳性率或降低假阳性率都是提高被称为“阳性预测值”或“PPV”的统计学方式。


ProPublica比较了黑人罪犯和白人罪犯是否会成为再犯的假阳性率和假阴性率,结果发现“算法会对黑人产生偏见”的这一观点。Northpointe则比较了不同种族的PPV,发现它们很相似。部分原因是白人和黑人的再犯率确实存在着差异,从数学角度来看,每个种族中真阳性率相似而假阴性率明显不同是可能的。


这向我们提出了一个问题,立法者、法院,博学的人们应该决定我们的算法到底应该优先解决什么问题: 是尽可能地减少罪犯的保释机会或再犯机会?为了确保公正和降低监禁的巨额社会代价,我们应该做出怎么的抉择?不管我们如何选择,基于统计的任何算法都会产生偏差,这一点不可避免。但是我们仍然可以使用这样的系统来指导人类做出更加公平、更加理智的决策。


富有争议的纽约警察局“拦截盘查”项目能够帮助我们解释一些原因。在2004年1月~2012年6月这段时间里,纽约市警方进行了多达440万次的拦截检查,这次行动允许警察可以对街上人员进行暂时扣留、质询以及搜查武器和其他违禁品。


但实际上,其中有88%的拦截检查并没有发现异常,这说明绝大多数人并没有做错什么,《纽约时报》在一篇社评中谴责了这个做法。更重要的是,在被拦截检查的案例中,83%是黑人或西班牙裔人,尽管这两种人仅占了纽约总人口的一半左右。


数据分析表明,人类偏见的案例可以使自动化决策系统在刑事司法中发挥积极作用。Anthony Flores,Christopher Lowenkamp和Kristin Bechtel这三位研究人员发现了ProPublica用来分析COMPAS的方法存在缺陷,他们担心ProPublica的误解会使我们逐渐丧失使用此技术的机会。


但是,如果我们接受了“精心设计的算法可能会使我们的生活更加公正”的观点,我们又怎么知道这样的算法是否能够被设计出来?


民主社会现在应该努力确定出他们需要从自动化决策系统获得的透明度。我们是否需要新的规定,以确保软件能够被合理监督?立法者、法官和公众应该有发言权,即通过算法优先考虑公正的措施。但是,如果算法实际上并不反映这些价值判断,谁又将被追究责任?


如果我们希望受益于算法技术的进步,这些都是我们需要回答的难题。本文作者Matthias Spielkamp是AlgorithmWatch的执行董事,AlgorithmWatch是一个倡导组织,分析自动决策的风险和机会。法院、银行和一些其他机构正在使用自动化数据分析系统做决策。然而最近的新闻报道称,机器也会产生偏见。


ProPublica是一家非盈利新闻机构,也曾获得普利策奖;COMPAS是一款预测罪犯可能会成为再犯的风险评估软件,在它的帮助下,法官对被告和罪犯的未来情况,如保释金额、判刑等做出决策。



COMPAS曾经预测了佛罗里达州超过10000名罪犯是否会成为再犯的概率,ProPublica将该软件的预测结果与实际结果进行了比较,结果表明:当算法的预测结果与实际结果相同时,无论是对黑人和白人,算法准确率大致相同。


然而,当算法的预测结果与实际结果不相同时,算法存在偏见——一方面,黑人被算法标记为会成为再犯的风险远高于白人,而实际上这些黑人并没有成为再犯;另一方面,白人被标记为会成为再犯的风险很低,但实际上这些白人却继续犯罪。


使用像COMPAS这样的风险评估系统是否合适,不仅仅是一个种族偏见的问题。以威斯康星州的一名罪犯为例,法官在做出判决的时候使用了COMPAS,这就使该罪犯的正当程序权利受到了侵犯。然而对被告而言,COMPAS风险评估软件就是一个黑盒子,即使是专家都难以解释它给出的结果。


在司法系统之外,也存在许多这样的潜在问题。例如,基于在线人格测试,自动决策系统帮助决定一个人是否适合某项工作;信用评分算法在帮助人们得到抵押贷款、信用卡等方面也起着至关重要的作用。然而,使用像COMPAS这样的风险评估系统并不一定是坏事。在许多情况下,自动决策系统的公平性可以提高。有时候,人类的决策一样不合逻辑,有失公正,这就需要监管来使决策符合我们的正义标准。


一项研究表明,刚刚吃完饭后的法官很可能释放犯人,这可能会带来严重的后果,而自动决策系统可能会找出决策过程中的瑕疵,并解决这个问题。


但是,我们通常并不是很了解自动决策系统的工作原理,因此也不知道它们是否比人类更公正。部分原因是做决策的系统基于一定的基本假设,而即使是系统设计人员也不一定很清楚这些假设是否合理,不清楚哪些算法可能会产生偏见。即使是答案看起来很清楚,事实上可能会很复杂。


立法者、法院、博学的人应该决定我们希望算法优先考虑什么。我们应该怎样做才能更好地利用自动决策系统?民主社会需要更多的监管。AlgorithmWatch是一家旨在帮助人们理解这些系统影响的非营利倡导组织,总部位于柏林,是笔者与一名计算机科学家、一名法律哲学家和一名记者联合创办的。


我们曾经说过,大多数自动决策系统都是黑盒子,这不符合自然规律,必须终止。然而,我们的观点与许多批评者不同,因为我们恐惧的不是技术本身,而是这些技术的滥用。不仅仅是算法开发者,许多群体都会影响自动决策系统的价值判断。COMPAS从对罪犯的问卷调查(问卷调查涉及被告的犯罪历史和对犯罪的态度)中得出该罪犯可能成为再犯的风险分数。那么,这种方式是否会产生有偏见的结果?


在ProPublica的调查之后, Northpointe(开发COMPAS的公司)对ProPublica的报道进行了驳斥,该公司认为是记者误解了那些数据,三名刑事司法研究人员(其中一人来自于司法改革组织) 也认同Northpointe的观点。那么,到底谁才是正确的呢?是记者?还是这些研究人员?马克斯·普朗克软件系统研究所的网络系统研究组组长Krishna Gummadi给出了一个令人惊讶的答案:他们都是正确的。


Gummadi曾经广泛地研究了算法中的公正性问题,他表示,ProPublica和Northpointe的结果并不矛盾,不同的结果是因为它们采用了不同的公平措施。


如果自动化决策系统使用恰当,刑事司法算法会向改革量刑方式、解除大规模监禁敞开一扇科学的大门。想象一下,你正在设计一个预测哪些罪犯可能成为再犯的系统。一种选择是去优化“真阳性”,这意味着你要让系统尽可能多地识别出哪些罪犯可能会真正地成为再犯。这种优化方法存在一个问题,它往往会增加“假阳性”的数量,“假阳性”意味着会不公正地将罪犯预测为再犯。


虽然可以采取措施尽可能减少假阳性的数量,但是这经常会造成更多的“假阴性”——这意味着很可能成为再犯的罪犯没能被系统发现。提高真阳性率或降低假阳性率都是提高被称为“阳性预测值”或“PPV”的统计学方式。ProPublica比较了黑人罪犯和白人罪犯是否会成为再犯的假阳性率和假阴性率,结果发现“算法会对黑人产生偏见”的这一观点。Northpointe则比较了不同种族的PPV,发现它们很相似。部分原因是白人和黑人的再犯率确实存在着差异,从数学角度来看,每个种族中真阳性率相似而假阴性率明显不同是可能的。


这向我们提出了一个问题,立法者、法院,博学的人们应该决定我们的算法到底应该优先解决什么问题: 是尽可能地减少罪犯的保释机会或再犯机会?为了确保公正和降低监禁的巨额社会代价,我们应该做出怎么的抉择?


不管我们如何选择,基于统计的任何算法都会产生偏差,这一点不可避免。但是我们仍然可以使用这样的系统来指导人类做出更加公平、更加理智的决策。


富有争议的纽约警察局“拦截盘查”项目能够帮助我们解释一些原因。在2004年1月~2012年6月这段时间里,纽约市警方进行了多达440万次的拦截检查,这次行动允许警察可以对街上人员进行暂时扣留、质询以及搜查武器和其他违禁品。


但实际上,其中有88%的拦截检查并没有发现异常,这说明绝大多数人并没有做错什么,《纽约时报》在一篇社评中谴责了这个做法。更重要的是,在被拦截检查的案例中,83%是黑人或西班牙裔人,尽管这两种人仅占了纽约总人口的一半左右。


数据分析表明,人类偏见的案例可以使自动化决策系统在刑事司法中发挥积极作用。Anthony Flores,Christopher Lowenkamp和Kristin Bechtel这三位研究人员发现了ProPublica用来分析COMPAS的方法存在缺陷,他们担心ProPublica的误解会使我们逐渐丧失使用此技术的机会。


但是,如果我们接受了“精心设计的算法可能会使我们的生活更加公正”的观点,我们又怎么知道这样的算法是否能够被设计出来?民主社会现在应该努力确定出他们需要从自动化决策系统获得的透明度。我们是否需要新的规定,以确保软件能够被合理监督?立法者、法官和公众应该有发言权,即通过算法优先考虑公正的措施。但是,如果算法实际上并不反映这些价值判断,谁又将被追究责任?


如果我们希望受益于算法技术的进步,这些都是我们需要回答的难题。本文作者Matthias Spielkamp是AlgorithmWatch的执行董事,AlgorithmWatch是一个倡导组织,分析自动决策的风险和机会。




上一篇:人工智能操控人类,并非危言耸… 下一篇:芬兰初创公司大幅提升VR显示…




推荐文章:

英特尔另辟蹊径,用硅材料打造量子计算机!深度学习模仿巴赫清唱曲,可以假乱真美空军成功测试IBM最新仿人脑芯片,以超低能耗识别俄罗斯坦克精度高达95%|独家即围棋之后,扑克又被人工智能攻陷最新量子计算机单价1500万美金成功出售,但仍遭遇科学家质疑|独家下一代AI家庭助手将拥有可视化界面