高质量和相关的数据可能是一股强大的行善力量,但有缺陷的数据只会在公平的幌子下使不平等持续下去。
在其最好的,数据科学可以以令人难以置信的方式影响全球社会。它可以努力提高海洋健康,识别和提供食品盈余,以养活饥饿,并使用手机数据在内罗毕发展地区标准化公共交通路线。
公共和私营部门的数据科学家必须了解在新应用中使用数据的潜在机会,解决潜在的伦理和偏见风险,并权衡数据监管的必要性。
在恰当地使用算法之前,有必要访问良好的数据源,并评估所有可用数据的质量。Coursera的高级数据科学家维诺德·巴克塔瓦查拉姆(Vinod Bakthavachalam)表示,在任何应用程序中使用一组数据之前,需要考虑的关键问题包括:是否存在测量误差?我是否了解数据是如何捕获的?是否有奇怪的异常值或其他异常的数字?
“即使是自己的数据是好的,如果它不对特定目的不对,则总是有可能是不可用的,”他说。
例如,您可能对消费者愿意花费超过100美元的鞋子的高质量数据,但也许在购物者传统上花费的假期收集了数据,因此不适用于预测全年购物趋势。换句话说,它可能是世界上最好的数据,但它是否是最相关的数据是完全不同的。
数据科学家还必须明白,尽管算法可以对社会产生积极差异,但有一些算法更换了一些算法,而是进一步巩固文化偏见和偏见。
机器学习算法是日常生活中最常见的数据算法之一。在电子商务网站上,它们经常被用来向消费者推荐产品,也越来越多地用于招聘或贷款决策。如果使用得当,这种算法可以通过关注预测成功的内在特征来消除种族或性别偏见,从而忽略人类倾向于喜欢与自己相似的人.
然而,如果使用不当,这些模型只是为不道德的过程提供了一个体面的表面。如果一种算法在训练数据中发现了偏差,那么它在获得新数据时就会得出有偏差的结论,因为机器学习算法不能做出最佳决策;它们做出的决定与人类“训练”它的决定是一样的。例如,如果一家公司过去只雇佣过白人男性,并使用这些数据对其招聘算法进行培训,那么这种招聘做法就会延续下去。因此,有偏见的数据会导致有偏见的结果。
为了避免这种偏见,Coursera在训练机器学习算法向潜在学生推荐课程时,故意选择忽略性别。
“在美国,女性不太可能注册干班,所以如果我们使用性别,那么就不会向妇女推荐某些课程,”Bakthavachalam说。“我们希望鼓励女性注册Stem类,并避免算法中的任何偏见。”
Coursera的经历强调了这样一个事实:尽管没有避免算法偏见的灵丹妙药,但这也不是一个很难解决的问题。事实上,这更像是一个意识问题,而不是一个需要解决的复杂工程问题,它始于人们认识到人工智能绝非完美。Bakthavachalam表示,数据科学家必须避免将机器学习算法视为黑盒,因为“如果你不知道机器学习算法背后发生了什么,就很难想象和诊断问题。”
数据科学家在初步审查中也必须保持警惕训练数据,这个过程需要一个多样化的团队,在某些情况下,还需要外部评审人员。据Bakthavachalam说,最大的风险是数据科学家意识到数据滥用的可能性,但没有投入必要的工作来纠正潜在的问题。
“每个人都有不同的价值系统,并且打开和前期算法可以集体导致正确的决定,”Bakthavachalam说。
从积极的方面来看,数据科学可以量化偏见,并突出那些可能被忽视的趋势,从而更容易消除偏见。这使得数据科学家可以通过只分析合法的相关信息来消除偏见,从而使企业能够向以前服务不足的人群提供服务,尤其是在金融服务领域。
一个例子是MyBucks这家金融科技公司拥有一个支持机器学习的信用评分引擎,为11个非洲国家的欠发达国家提供服务。通过聚合大量数据,MyBucks对哪些人可能违约有了更深入的了解,使他们摆脱了对信用评分等更简单预测指标的依赖。
例如,在肯尼亚,数据仅从个人的电话中拉动,并且在几分钟内直接向移动钱包直接支付贷款。
这项服务在学校需要全额学费预付的国家尤为重要,从历史上看,在一些较贫穷的国家追求教育的重要障碍。
最重要的是,数据科学家必须避免在他们的技术和方法中迷失。他们必须询问哪些人会受到这项工作的影响,以及他们如何确保在为一个群体“做好事”的同时,不会无意中伤害到另一个群体。
通过透明度,关于如何收集数据,它是如何定义的,以及其共同工作的局限性可以获得最有影响力的结果。机器可以学习,但这是人们的见解和监督,使组织能够平衡权力和公平性。