促进数据公平:一个面向行动的框架 白皮书9月2024 GettyImages,中途图片: Contents 前言3 执行摘要4 1定义数据权益5 2实施数据公平7 3个案研究16 气候数据收集和监测17 妇女在新兴市场获得金融服务的机会18 医疗保健中的种族偏见19 改善波士顿市收集性别数据的方式20 绘制土著领土21 国家统计局作为数据管理员22 4对利益攸关方的建议23 结论25 贡献者26 尾注28 免责声明 此报告是交互式的 查找此图标以查找可与之交互的页面 为确保交互能力,请使用AdobeAcrobat下载并打开此PDF。 这份文件由世界经济论坛发布,作为对一个项目、洞察领域或互动的贡献。文中所述的研究发现、解释和结论是世界经济论坛协作过程的结果,并得到了该组织的支持,但其结果未必反映世界经济论坛的观点,也不一定代表该组织全体成员、合作伙伴或其他相关方的意见。 ©2024世界经济论坛。世界经济论坛报告可能会根据知识共享署名非商业-NoDerivatives4.0国际公共许可证,并根据我们的使用条款. 2024年9月推进数据公平:以行动为导向的框架 前言 JoAnnStonier 万事达卡研究员,数据和AI,万事达卡 劳伦·伍德曼DataKind首席执行官 在2023年,随着生成式人工智能(genAI)和其他技术在社会中的应用和影响不断扩大,世界经济论坛成立了专注于数据公平问题的全球未来理事会。1通过与技术、数据、商业和社会科学专家进行研究和讨论,明确需要创建一个基础性的定义和方法论,以使各类组织能够构建更加公平的系统、流程、实践和结果。我们对该主题的初步思考发表在我们的第一份白皮书中,题为“数据公平:生成式AI的基础概念”。2 随着我们工作的演进,变得清晰的是,我们的数据驱动世界并非以促进公平结果的方式构建,仅仅是因为它并非出于公平的考量而设计。它是基于我们社会的各种多样性、历史上的不平等、偏见和差异构建的。虽然我们希望这些差异能在我们的技术解决方案中得到反映,但我们不希望这些差异在技术解决方案中被延续、放大或扩展。我们希望技术能够创造一个更美好和更具包容性的未来,在这个未来中,我们解决问题,而不是重蹈覆辙。 地区方面,这种复杂性要求采取灵活的方法。为此,我们开发了一套负责任的数据实践框架,该框架能够适应特定的背景环境,同时确保一致性并符合全球法规的要求。 当前白皮书为全球社区提供了基线定义和数据公平框架,用作指导工具,以促进组织内部关于如何更广泛地使用人工智能进行交流和自我评估。本报告基于我们初步简报中提出的四种公平类型 (代表性公平、特征公平、访问公平和结果公平 )进行了构建。3并且提出了一套框架下的10项特性,供组织在构建系统、产品和解决方案时考虑。 我们希望随着各组织采用我们的数据权益定义和框架,公平结果所需的问题和考虑将变得清晰。我们建议所有组织(无论其性质是商业、民间社会、学术界或政府机构),都应认识到我们必须增加对这一领域的理解并改进设计方法,以设计一个确保平衡和以公平为导向的世界未来。 我们的研究和咨询表明,数据公平影响不同的部门、行业和 以行动为导向的框架促进数据公平:3 执行摘要 数据公平性要求在整个数据生命周期中采取集体行动,以确保对所有利益相关方而言都是公平、公正且有益的结果。 数据公平是一项共同的责任,需要通过集体行动来创建促进所有人公正和正义结果的数据实践和系统。鉴于当今数字化社会中数据驱动系统的不断扩展作用,持续考虑数据的人类影响至关重要 。在整个数据生命周期中考虑数据公平,可以改进数据实践,以促进对所有个人、群体和社区而言公平、公正且有益的结果。 全球数据公平委员会(GFC),一个由多方利益相关者组成的专家团体,在2023-2024年期间共同制定了并创建了一个“数据公平探究框架”。该数据公平框架旨在引发反思、聚焦研究并指导纠正行动。这一独特的框架提供了基于文化视角的数据管理和治理视角,并基于毛利人数据主权模型 ——TeManaoteRaraunga模型,该模型描述了数据的所有权和治理方式。 传统知识保存者在决定与他人分享知识时所使用的内在逻辑。此外,该框架与现有的数据治理准则和原则(包括FAIR、CARE、TRUST)保持一致,以展示数据公平如何补充现有模式,并丰富关于现代生活中适当使用数据更广泛的讨论。 该框架包含10个特征及相关关键问题,并按三大主要类别分组:数据、目的和人员。作为该框架的一部分,开发了一系列问题以评估数据,并建议了一系列初始行动来指导利益相关者在其组织中实施数据公平。尽管该框架根植于原住民数据主权,但它为促进跨行业、社区和地区的数据公平提供了指导并鼓励反思。六个案例研究通过实际示例展示了该框架的应用,并为在其他背景下将该工具付诸实践提供了灵感。 4 1 定义数据公平性 共享数据公平的定义对于推动合作和协调行动以将这一概念付诸实践至关重要。 促进数据公平至关重要。我们生活在一个自动化决策系统日益普遍的时代,这些系统基于算法和数据,对个人、社区和社会产生了深远的影响。设计和使用这类系统的人必须仔细考虑其潜在的社会影响,并将全面的公平性作为核心关切。 尽管“数据公平”概念日益重要,但在政策圈和学术文献中仍缺乏一个清晰且广为接受的定义。4 或许最广为人知的定义将数据公平性定义为应用 于计算机科学和机器学习的社会公正概念,并识别了数据公平性的各个方面,包括表示公平性、特征公平性、访问公平性和结果公平性。5 这种不确定性不仅阻碍了进展,还增加了利益相关方试图解决的不平等现象。缺乏共同的理解,利益相关方只能根据自己的、可能相互矛盾的视角来解释和实施数据公平措施,而没有一个明确的标准来进行衡量和对比。 衡量他们的努力。此外,随着技术的进步加速和数据变得愈发关键,数据公平性面临的新挑战不断涌现。在全球范围内,缺乏共同的理解阻碍了对该关键问题的国际合作。 认识到这一关键差距,数据平等GFC制定了一个全面的定义以促进一致性和推动实质性进展 : 是公平的共同责任 数据公平的数据实践应尊重和促进人权、机遇与尊严。数据公平是一项基本责任,要求采取战略性、参与性、包容性和主动性的集体和协调行动 ,以创建一个世界,在这个世界中,基于数据的系统能够为所有个人、群体和社区带来公正、公正且有益的结果。它认识到数据实践——包括数据的收集、整理、处理、保存、分析、管理以及负责任的应用——对人权以及由此获得的社会、经济、自然和文化资源与机会产生重大影响。6 以行动为导向的框架促进数据公平:5 数据公平旨在解决各种领域中驱动决策和算法及人工智能系统所用数据集中的历史、当前和潜在不平衡。此外,数据公平还关注数据集的可访问性以及它们在社会影响决策和系统中是如何被使用和由谁来使用的。参与性和集体责任与决策,尤其是个人和集体数据主体的责任与决策,是核心原则之一。因此,数据公平构成了技术开发与应用中的公正与正义的基础,并有助于建立对数字系统的信任——正如世界经济论坛的数字信任框架中所述。7 数据公平(dataequity);以及其价值如何被分配和与那些为它做出了贡献的个人及社区共享(数据价值公平)。8 因此,在数据生命周期的最初阶段就需考虑数据公平性,因为质量问题和公平性问题可能难以后期纠正。此外,数据收集者还应考虑到其数据可能被其他方后续(重新)使用时可能会以潜在有害或剥削性的方式利用。 可以通过以下方式提高数据公平性as校正井在不同阶段的行动 主动数据生命周期: 数据公平可以通过适当设计数据收集、使用、实践和治理来实现,以促进受这些系统直接影响或间接影响的人们和社区的公正和公平结果。就此而言,数据研究的重点必须扩展,不仅关注“数据是什么”,还应关注“数据如何影响”。所提出的定义涵盖了整个“数据生命周期”,特别是集中在数据治理和实践的影响方面。 –包括寻址历史 纠正数据集中的偏差(现有或潜在),如边缘化群体的片面描绘或代表性不足,以及通过选择加入或选择退出机制使个人和社区能够控制自己的数据,以确保他们的个体和集体自主权、能动性和隐私权利。 数据公平性贯穿整个数据生命周期,例如:数据的收集和构建(输入数据公平性);数据的获取 (数据访问公平性);数据的代表性及其与使用目的的相关性(数据表示公平性);数据的处理和解释(过程或算法数据公平性);以及数据用于生成和指导结果(结果公平性)。 –包括参与的个人 主动采取行动体现在数据中,以帮助定义其含义 ;采用能够识别、代表和参与多样化群体的收集方法;促进开放和透明的数据共享;开发包容性和参与性的系统,利用这些数据,并确保受影响方有发言权;验证这些系统能产生公平和公正的结果;并保证数据贡献者从其使用中创造的价值中获益。 6 2 实施数据公平 数据公平框架旨在鼓励反思,指导研究并迅速采取纠正措施。 本质上,这一框架应被视为一种“探究框架”,即一种指南,旨在帮助组织和社区在考虑使用数据时促进内部对话和评估,无论是AI-enable系统还是其他领域。 在核心层面,追求公平性旨在提升人们✁生活质量并确保所有人得到公正和合理✁对待。尽管数据公平性✁概念相对较新,但在生成式人工智能 (genAI)✁背景下,其应用与长期存在✁数据治理、可信度、隐私和负责任✁数据使用等问题密切相关。解决这些及相关数据问题中✁公平性问题不仅涉及技术考量,还必须将其中✁人文和社会维度置于核心位置。否则,可能会忽视这些框架原本旨在赋能和保护✁人们及其社区。 一个有用✁镜头来考虑更广泛✁数据公平问题。10 虽然该模型TeManaoteRaraunga在独特✁文化背景下发展而来,但它具有更广泛✁适用性,因为该模型与五个安全框架(安全✁数据、项目 、人员、环境和输出)相一致,从而使得数据服务能够提供安全✁数据访问以进行研究。11TheFiveSafes框架被采用是因为其主要关注公平 ✁人类和社会维度,并且与原住民数据治理中✁以人和宗旨为中心✁CARE原则(共同利益、控制权、责任和伦理)保持一致。12 为了从理论定义转向实际行动,GFC开发了一个数据公平框架,以使利益相关者能够构建更加公平✁数据系统、流程和实践。鉴于数据使用相关 ✁伦理和公平性问题会因具体情境而异,该框架并不旨在提供具体✁指导或“一刀切”✁解决方案。相反,它✁目✁是促进反思、聚焦研究并引导纠正行动。简而言之,这个框架应该被视为一个“探究框架”,即一个指南,旨在帮助组织和社区内部开展对话和评估,无论是在AI驱动✁系统中还是其他地方。希望这一框架能作为工具,帮助揭示组织内部需要解决✁公平性相关问题。 TheCARE原则与面向数据✁FAIR原则(数据应具备可查找、可访问、可互操作和可重用✁特点 )在科学数据管理方面相互补充,旨在促进开放数据✁使用。13FAIR和CARE原则被推广为数据治理✁关键驱动框架,在各种国际和国家政策环境中得到广泛应用(例如,联合国教科文组织开放科学展望)。14AIATSIS道德准则,15IPBES数据和知识管理策略16和世界数据系统数据共享原则)。17同样地,TRUST原则(包括透明性、责任、用户导向、可持续性和技术)侧重于数字托管和保存✁适当基础设施✁发展。18 该框架以TeManaoteRaraunga模型为基础,这是一种土著模型,描述了传统知识保持者在决定与他人分享知识时所使用✁内在逻辑。它考虑了数据共享与数据性质、数据使用方式以及数据使用者性质之间✁关系。9TheTeManaoteRaraunga模型指导了新西兰通过集成数据基础设施(IDI)提供✁NgāTikangaPaihere数据伦理框架,以访问关联✁政府数据。 因此,基于先前✁工作包括TeManaoteRaraunga模型、FAIR原则、CARE原则和TRUST原则,提议✁数据公平框架(如图1所示)由10个数据公平特征组成,并分为三大主要类别:数据、目 ✁和人员。data 类别是根据其敏感性和可访问性特征进行评估✁ ;目✁类别通过其信任