2023年2月 工作报告 算法排除: 算法对稀疏和缺失数据的脆弱性 凯瑟琳·塔克 本工作文件可在线查阅:https://www.brookings.edu/center/center-on-regulation-and-markets/ 布鲁金斯学会监管与市场中心创建并促进严格的经济学术研究,为监管政策制定、监管过程以及经济市场的高效和公平运作提供信息。该中心提供关于监管政策的独立、无党派研究,广泛应用于微观经济领域。 信息披露 凯瑟琳·塔克(CatherineTucker)曾担任多家科技公司的顾问,其完整列表可以在这里找到。提交人没有从任何公司或个人那里获得对本文有经济或政治利益的资助,也没有从除上述公司或个人那里得到财政或个人的资助。作者目前不是本文中具有经济或政治利益的任何组织的官员、董事或董事会成员。 算法排除:算法对稀疏和缺失数据的脆弱性 凯瑟琳·塔克∗2023年1月 18日 摘要 本文介绍了“算法排斥”的概念,作为不平等持续存在的根源。算法排除是指人们被排除在算法处理之外的结果,这意味着算法无法对他们进行预测。这是因为导致社会不平等的条件也可能导致数据错误或丢失,从而使算法无法做出成功的预测。本文认为,算法排斥很普遍,其后果是显著的。 ∗凯瑟琳·塔克是麻省理工学院斯隆管理学院管理科学杰出教授。她曾为许多科技公司提供咨询-请参阅 https://mitmgmtfaculty.mit.edu/cetucker/disclosure/ 1算法排除是什么? 算法时代即将到来。数字时代使公司能够以比以往更低的成本收集、存储和解析数据(Goldfarb和Tucker,2019年)。然而,在过去几年中,最大的兴奋来自使用算法或机器使用该数据做出更好预测的想法(Agrawaletal.,2016)。算法广泛用于数字广告。在(Neumann等人,2019)中,算法可以预测可能看到广告的人是男性还是女性,还是对体育感兴趣。算法用于教育,它们评估教师的教育质量(O'Neil,2017)。在我们的刑事司法系统中,算法预测保释有效的可能性(Kleinbergetal.,2018)。在人力资源部门,算法筛选简历以确保招聘人员专注于最好的简历(CowgillandTucker,2017)。算法用于识别和分配医疗支出(Obermeyer等人,2019)。来自经济学文献的大部分证据都是积极的,这表明算法通常优于人类反事实(CowgillandTucker,2019)。 然而,自互联网诞生之初,人们也担心互联网接入与现有的不平等根源相似(Keller,1995;塞尔翁,2008年)。大部分最初的工作都集中在互联网接入上,然后是宽带互联网(Chiou和Tucker,2020b)。除了访问问题外,学者们还提出了有关使用的问题。虽然一些学者发现了积极的影响,即较贫穷的家庭在网上花费了更多的时间(GoldfarbandPrince,2008 ),但早期的工作也显示出他们被排除在电子商务的好处之外的迹象(Hoffmanetal.,2000 )。 尽管许多数字经济学文献都关注不平等以及互联网的访问和使用,但算法排除是理解数字排斥和不平等的一个新的重要问题。当算法甚至因为缺乏数据而无法进行预测时,就会发生算法排除。 这是一个与算法偏见不同的概念,算法偏见在文献中得到了广泛的讨论(O'Neil,2017) 。通常,算法偏见文献集中在算法是否以反映现有社会不平等的方式做出有偏见的预测(LambrechtandTucker,2019)。通常,人们担心的是,al-gorithms学会传播现有的不平等,因为他们接受的是有偏见的训练集,这些训练集本身反映了不公正的社会结果(CowgillandTucker,2017)。当算法由于缺乏有关该人的数据而导致该算法无法正常运行而无法对某人进行预测时,就会发生算法排除。本文提出了一些初步证据,表明缺乏数据也反映了现有的不平等。 要理解数学术语中的区别,去社会科学中的规范方程是有用的。 Y=Xβ+ϵ(1) 在这个方程,Y是需要预测的变量。这可能是工作表现、购买可能性或风险评分。X是一个向量做预测的变量。β是从其他人的行为或其他设置中估计的参数向量,这些设置有助于告知如何X将会影响Y.对算法偏见和歧视的大部分担忧都集中在算法偏见和歧视的本质上。β.在系统性不平等可能导致数据中存在相关性的环境中,很容易想到它可能存在偏见的方式,这些数据反映了这种不平等,然后反映在β.例如,假设一种招聘算法,如果某人就读于四年制大学而不是社区大学,那么他们更有可能成为成功的新兵。这很可能是参加两种类型大学的人的经济机会系统性差异的产物。或者,可能存在以下情况:β某些群体由于估计不好吗 训练集中缺少数据;例如,当语音识别算法与女性或非白人挣扎时,因为他们没有接受足够多样化的声音训练(Bajorek,2019)。同样,由于缺乏有关残疾人行为模式的数据,视觉应用程序的机器学习也受到限制(Langston,2020年)。所有这些都令人担忧,但不是本文的重点。相反,本文的重点是算法排除,当数据应该在X对于个人来说缺失,这意味着算法无法正确地为该个体做出预测。这不仅仅是一个问题,即采样不足的数据导致估计β被扭曲。相反,它反映了这样一个事实,即如果该个人的数据不完整,算法将无法做出预测。 算法排斥在社会正义和算法的文献中经常被忽视的一个原因是,当算法实时预测个人时,就会发生算法排斥。许多最受关注的算法偏差示例涉及根据人口数据训练算法以对个人进行广义预测的情况。相比之下,算法排除发生在算法需要个人数据进行预测时。 2司机的算法排除 为了对个人进行预测,算法需要数据。然而,有很多理由相信,特权较低的家庭产生的算法使用的数据较少,并且产生的数据通常更加分散,限制了其可用性。 2.1稀疏数据 数字经济由数字足迹组成。数字足迹是数字设备的用户在与数字技术交互后留下的东西。每次我在搜索引擎上搜索时,以及每次我的手机被跟踪到某个位置时,无论是通过蓝牙、无线信号还是我的明确位置,我都会留下数字足迹 选择被应用跟踪。当我在线分享照片、上传视频、选择我想在新闻网站上阅读的故事、在线支付假期费用或调整我的智能恒温器时,我会留下数字足迹。换句话说,每个数字活动都会持续产生数据。 然而,这些数字足迹中的许多反映了经济特权。广泛使用计算机是一种特权。拥有一部拥有大容量数据的智能手机是一种特权。拥有智能恒温器是一种特权。在线轻松付款是一种特权。换句话说,许多生成可能对预测有用的数据的活动也是经济背景的函数。当然,经济特权在历史上塑造了对数据的访问。著名的日记家,其数据被历史学家用来重建前几个世纪的日常生活,也必须有一定的特权才能阅读、写作和保存日记(Alaszewski,2006)。同样 ,人口普查无法真正计算弱势群体的情况也有据可查(Farley,1995年)。 即使考虑工作习惯也表明了这一点。大流行揭示了一类工作,他们的劳动可以毫无挣扎地远程进行,因为它基本上完全是数字化的(格林斯坦,2021年)。然而,蓝领工人在工作时更经常面临手机使用限制(Carlson,2021),数据计划也更有限,家里没有电脑(Chiou和Tucker,2020b)。因此,有理由认为经济繁荣与向家庭产生的数据量有关 。这反过来又会影响算法对你做出预测的能力。 第一个例证是波士顿的“街头颠簸”经历(克劳福德,2013)。创建此应用程序是为了使用智能手机的内置传感器作为居民驾驶来收集有关波士顿街道的数据。这个想法是使用波士顿居民在手机上下载的应用程序收集数据,然后对其进行解析以更好地识别道路问题,例如 凹坑和有问题的井盖。1通过Innocentive,新城市力学办公室举办了一场竞赛,以最好地解析和创建基于数据的算法。比赛吸引了700名求解者和19份提交作品(Carrera,2013)。 但是,要收集数据,既需要拥有智能手机,又需要随时访问无限的手机数据。因此,无论算法在识别道路颠簸方面有多好,较贫穷的家庭没有与较富裕家庭相同水平的数字访问,这意味着关于较贫穷社区的数据较稀少。这可能会导致算法排斥,较贫穷的社区比富裕的社区不太可能修复有问题的路面。最后,为了规避这个问题,波士顿市决定只使用城市人员使用该应用程序实际捕获数据(O'Leary,2013)。这种对算法排除挑战的直截了当的回应暗示了当正确识别时它在系统中引起的问题的广度。它还指出了在没有人工干预的情况下处理算法排除的挑战。 十年前,政策活动家创造了“数据沙漠”一词来强调这些问题(Castro,2014)。然而,与食物沙漠不同——这是一个受到大量当之无愧的学术关注的话题(Allcott等人,2019年),很少有人关注数据沙漠造成的困难。本文认为,算法排除-当数据沙漠和算法结合时发生-在理解原因,背景和潜在解决方案方面值得学术界给予更多关注。 Lambrecht和Tucker(2020年)提供了一个更复杂的算法排除示例,他们研究了稀疏数据对付费搜索广告中算法功能的影响。本文重新审视了Sweeney(2013)的发现,他记录了一个令人不安的结果:当用户搜索通常给出的名字时,谷歌更有可能展示公共记录检查(提供犯罪记录)的广告。 1 对黑人来说,而不是在搜索通常给白人的名字时。为了探索导致这种失真的机制,本文的方法与广告商的数据进行了对比。作者在谷歌上发起了一项搜索广告活动,针对865种名字和姓氏的组合,这些名字和姓氏主要由美国的黑人或白人人口使用。尽管这项研究比Sweeney(2013)晚了很多年,但它再次发现广告更有可能持续出现在黑人名字附近。 持续显示的广告听起来与算法排除相反,但我们实际上记录了这正是正在发生的事情。为了操作,现代算法基于对多臂匪徒的研究。这种多臂老虎机允许算法在学习底层内容之间进行权衡X是为一个特定的内容在哪里X是它的潜在质量或吸引力,并显示出最吸引人的内容(Schwartzetal.,2017)。这俗称“学习与赚取”权衡。一家公司面临着展示经过验证的内容和了解可能更好的新内容之间的权衡。然而,这些算法被编程工作的方式是,它们有一个贪婪的初始阶段,它们试图收集尽可能多的数据。X或者人们对广告的反应(Schwartzetal.,2017)。此时,当他们收集了足够的广告数据时,他们可以实际操作并在展示更多广告或停止展示广告之间做出权衡。由于人口中黑人名字相对不常见(FryerJrandLevitt,2004),该算法从未了解广告的潜在质量。 Lambrecht和Tucker(2020)记录的过程是算法排除的一个有用示例,其中稀疏数据阻止算法正常运行。作为算法学习的结果,该平台更有可能向搜索少数群体成员的用户展示广告-包括不受欢迎的广告。 2.2分散的数据 数据沙漠的存在,结构不平等导致数据量不同,显然会导致算法排斥。然而,我们想强调另一个潜在的算法不平等来源,即碎片化数据造成的数据质量不均。 每个学者都必须面对碎片化数据带来的挑战。举一个简单的例子,想象一个跟踪公司随时间变化的命运的数据集。该公司经历了名称更改,地址更改,甚至拼写错误,这意味着学者必须努力工作以确保他们随着时间的推移跟踪同一家公司,而不是无意中认为他们正在跟踪三到四家不同的公司。 在大型数据集的世界中,通常通过算法分析每个人的多个记录。算法对该人进行准确预测的能力将取决于这些多条记录被合并并正确识别单个个体的能力。 要了解为什么与不平等相关的挑战可能存在挑战,通常了解多个记录如何与一个人相关联是有用的。通常,数据集将使用称为“密钥”的东西来帮助识别一段时间内的同一个人或个人 。例如,超市可能会使用奖励数字作为“钥匙”来分析同一个人随时间推移的购买习惯。事实上,在没有奖励号码工具的情况下跟踪单个人的困难解释了为什么超市经常为使用奖励卡的人提供折扣和其他好处。但是,在许多设置中,没有一致的标识号或代码。因此,在这些情况下,数据科学家将被迫使用不太简单的“密钥”,例如人们的姓名,