高质量和相关的数据可能是一股强大的行善力量,但有缺陷的数据只会在公平的幌子下使不平等持续下去。
在其最好的,数据科学可以以难以置信的方式影响全球社会。它可以致力于改善海洋健康,识别和运送剩余粮食以满足饥饿人口,并利用手机数据在内罗毕等发展中地区实现公共交通路线的标准化。
公共和私营部门的数据科学家必须了解在新应用中使用数据的潜在机会,解决潜在的伦理和偏见风险,并权衡数据监管的必要性。
在恰当地使用算法之前,有必要访问良好的数据源,并评估所有可用数据的质量。Coursera的高级数据科学家维诺德·巴克塔瓦查拉姆(Vinod Bakthavachalam)表示,在任何应用程序中使用一组数据之前,需要考虑的关键问题包括:是否存在测量误差?我是否了解数据是如何捕获的?是否有奇怪的异常值或其他异常的数字?
他说:“即使数据本身是好的,如果它不适合特定的目的,它也有可能无法使用。”
例如,你可能有关于消费者在鞋子上花费超过100美元的意愿的高质量数据,但也许这些数据是在假日季节收集的,而传统上购物者的支出更多,因此不适用于预测全年的购物趋势。换句话说,它可能是世界上最好的数据,但它是否是最相关的数据则完全是另一回事。
数据科学家还必须明白,尽管算法可以对社会产生积极影响,但有些算法可能会进一步加深文化偏见和偏见。
机器学习算法是日常生活中最常见的数据算法之一。在电子商务网站上,它们经常被用来向消费者推荐产品,也越来越多地用于招聘或贷款决策。如果使用得当,这种算法可以通过关注预测成功的内在特征来消除种族或性别偏见,从而忽略人类倾向于喜欢与自己相似的人.
然而,如果使用不当,这些模型只是为不道德的过程提供了一个体面的表面。如果一种算法在训练数据中发现了偏差,那么它在获得新数据时就会得出有偏差的结论,因为机器学习算法不能做出最佳决策;它们做出的决定与人类“训练”它的决定是一样的。例如,如果一家公司过去只雇佣过白人男性,并使用这些数据对其招聘算法进行培训,那么这种招聘做法就会延续下去。因此,有偏见的数据会导致有偏见的结果。
为了避免这种偏见,Coursera在训练机器学习算法向潜在学生推荐课程时,故意选择忽略性别。
“在美国,女性不太可能参加STEM课程,所以如果我们使用性别,它就不会向女性推荐某些课程,”Bakthavachalam说。“我们希望鼓励女性参加STEM课程,避免算法中的任何偏见。”
Coursera的经历强调了这样一个事实:尽管没有避免算法偏见的灵丹妙药,但这也不是一个很难解决的问题。事实上,这更像是一个意识问题,而不是一个需要解决的复杂工程问题,它始于人们认识到人工智能绝非完美。Bakthavachalam表示,数据科学家必须避免将机器学习算法视为黑盒,因为“如果你不知道机器学习算法背后发生了什么,就很难想象和诊断问题。”
数据科学家还必须在他们的初步检查中保持警惕训练数据,这个过程需要一个多样化的团队,在某些情况下,还需要外部评审人员。据Bakthavachalam说,最大的风险是数据科学家意识到数据滥用的可能性,但没有投入必要的工作来纠正潜在的问题。
Bakthavachalam说:“每个人都有不同的价值体系,对算法持开放和坦率的态度可以让大家共同做出正确的决定。”
从积极的方面来看,数据科学可以量化偏见,并突出那些可能被忽视的趋势,从而更容易消除偏见。这使得数据科学家可以通过只分析合法的相关信息来消除偏见,从而使企业能够向以前服务不足的人群提供服务,尤其是在金融服务领域。
一个例子是MyBucks这家金融科技公司拥有一个支持机器学习的信用评分引擎,为11个非洲国家的欠发达国家提供服务。通过聚合大量数据,MyBucks对哪些人可能违约有了更深入的了解,使他们摆脱了对信用评分等更简单预测指标的依赖。
例如,在肯尼亚,数据只从个人手机中提取,贷款在几分钟内就直接存入移动钱包。
这项服务在学校要求全额预付学费的国家尤其重要,在一些较贫穷国家,全额预付学费历来是上学的一个重大障碍。
最重要的是,数据科学家必须避免在他们的技术和方法中迷失。他们必须询问哪些人会受到这项工作的影响,以及他们如何确保在为一个群体“做好事”的同时,不会无意中伤害到另一个群体。
只有通过数据收集、定义和限制的透明度,分析师才能一起工作,获得最有影响力的结果。机器可以学习,但只有人类的洞察力和监督才能使组织平衡权力和公平。