数据公平:生成AI的基本概念 BRIEFINGPAPEROCTOBER2023 图片:盖蒂图片社 Contents 1数据权益的类别4 2数据生命周期中的数据公平性6 3基础模型中的数据公平性挑战9 4关键利益攸关方的重点领域11 5讨论14 免责声明本文档由 世界经济论坛是对项目,见解领域或互动的贡献 。此处表达的发现,解释和结论是世界经济论坛促进和认可的合作过程的结果,但其结果不一定 代表世界经济论坛的观点,也不是其成员、合作伙伴或其他利益攸关方的整体观点。 ©2023年世界经济论坛。世界经济论坛报告可能会根据知识共享归因-非商业-Notification4.0国际公共许可证和我们的使用条款重新发布。 2023年10月 数据公平:生成AI的基本概念 Introduction 在过去的几个月中,由于生成人工智能(genAI)工具,包括ChatGPT,Bard,Midtry和StableDiffusion,出现了一系列技术进步。 由于其功能,广泛的应用和易用性,这些工具的使用获得了极大的关注,并吸引了公众和行业利益相关者的想象力 。 Givenitspotentialtochallengeestablishedbusinesspracticesandoperationaloperatory,andthepromiseofrapidinnovationcoupliedwiththelikelyofsignificantdisruption,genAIissparingglobalconversons.Theseexpected,far-reductshavea 社会层面,需要行业、政府、学术界和民间社会等关键利益攸关方的全面参与。 这些讨论的核心在于“数据公平”的概念-数据治理中的一个核心概念,其核心是数据对 个人、团体、企业和生态系统的技术系统的公平性。1它包括数据公平,偏见,获取,控制和问责制的概念,所有这些都以正义,不歧视,透明度和包容性参与原则为基础。 数据公平不是一个新概念;它植根于人权,也是数据隐私、保护、道德、土著数据主权和责任方面正在进行的工作的一部分。 但是,数据公平和genAI是新的,并且提出了独特的挑战。用于训练AI模型的数据集容易产生偏见,从而加剧了现有的不平等现象。这需要主动审计数据和算法,并在AI过程的每个步骤进行干预,从数据收集到模型训练再到实施,以确保由此产生的genAI工具公平地代表所有 社区。随着genAI的出现,人工智能的部署和发展速度显着提高,探索数据公平框架比以往任何时候都更加紧迫。 本简报深入探讨了这些问题,特别关注基础模型中的数据公平性,包括genAI对社会的影响以及genAI的进一步发展 工具。我们的目标有三个方面:建立共同的词汇以促进合作和对话;确定最初的关注范围,以建立利益相关者可以关注的调查框架; 积极和积极地塑造有前途的技术的未来发展。 世界经济论坛数据公平全球未来理事会(GFC)2Envisionesthisasafirststepinalargerconversation,recognizingtheneedforfurtherexplacementanddiscussiontobecomprehensiveunderstanding,scrinised,andaddressed.Theissuesarecomplexand 现在解决它们创造了一个独特的机会来积极塑造这些令人兴奋的,有前途的工具的未来。 方框1关键概念的定义 为了提供上下文和清晰度,强调了以下关键概念: –人工智能是一个广泛的领域,包括机器或计算机根据预定目标模拟人类智能的某些方面以执行各种任务的能力。3 –机器学习是人工智能的一个子集,它利用算法使机器能够识别和学习数据集中的模式。4 –生成AI是机器学习的一个分支,能够产生新的文本 、图像和其他媒体,复制训练数据中的模式和关系。5 –基础模型是一种大规模的机器学习模型,可以在不同的多模态数据上进行大规模训练,并且可以适应许多下游任务。6 –大型语言模型代表了专门用于理解和生成人类语言的基础模型的子集,通常用于文本相关功能 oLLM的最新迭代通过高级聊天机器人机制促进了自然对话。7 1数据权益的类别 Effectivelyaddressingthecomplexitiesofdataequityrequiresanadjuanceofthediverseviewspectsheldbyvariousstakeholdersregardingdata.Theacademicliteraturehaveidentifiedfourdistinctclassesofdataequity,whicharecloitlyinterrelated:8 –代表性公平旨在增强数据集中历史边缘化群体的可见性 ,同时也考虑目标人群的数据相关性。发展 主要在全球北部范围内的模型会引入代表性差异,这可能会导致植根于此类数据的后续决策中的系统性偏差。为了确保AI训练数据和模型真实地反映所有利益相关者,而不会产生编码偏差,主动方法是必不可少的。 –特征公平旨在确保数据所代表的个人、群体和社区的准确描述,需要将诸如种族、性别、地点和收入等属性与其他数据一起纳入。没有这些属性,通常很难识别和解决潜在的偏见和不平等。 –Accessequity侧重于跨不同专业水平的数据和工具的公平可访问性。解决与模型构建和数据源相关的透明度和可见性问题至关重要。此外,访问 公平还包括人工智能素养和数字鸿沟方面的差异。 –结果公平与结果的公正性和公平性有关。除了开发无偏见的模型外,还必须对影响个人或团体的意外后果保持警惕。 透明度、披露和分担责任对于实现公平至关重要。 这四类数据公平与genAI特别相关,但并非详尽无遗。另外两种突出的公平类型广泛适用 需要考虑的技术是程序和决策公平。这些程序要素强调了广泛的公平关切,包括透明的决策、对开发和部署技术的工人的公平待遇以及包容性的开发和部署实践。9 进一步,还必须考虑时间公平(可持续性和长期影响)和关系公平(促进公平的利益相关者关系)的问题。这些后面的问题不是genAI或技术所独有的 广义上,因此超出了本文的范围。尽管如此,它们在这里被认为是技术公平总体结构的组成部分。 图1数据权益的类别 程序和决策公平 结果EquityRepresentationEquity 访问权限Equity功能公平性 来源:世界经济论坛 图1:四类数据权益问题既相互关联,又受影响和影响 通过程序和决策中的公平做法和考虑。 2数据生命周期中的数据公平性 简化表示有助于显示数据公平如何渗透到数据生命周期。在每个阶段,不同类别的数据公平会引起特定的 挑战和担忧,说明需要采取多方面的方法来减轻潜在的危害。 Figure2 在整个数据生命周期中的数据公平性 阶段1 输入数据公平性 (表示和特征公平) 第3阶段 输出数据公平性 (访问和结果公平) 阶段2 算法数据公平 (表示、特征、访问公平性) 来源:世界经济论坛 图2:数据生命周期中的数据公平性。确保整个数据生命周期中的数据公平性涉及多个阶段:阶段1处理用作开发基础模型的输入的数据。阶段2是算法公式化和设计用于分析的中间阶段 和解释输入数据。阶段3侧重于genAI应用程序的输出数据。在某些情况下,生成的输出可以用作输入以进一步 训练基础模型,从而加剧数据公平挑战。 方框2整个数据生命周期中的数据公平性 为什么要专注于基础模型? 基础模型是许多genAI工具的核心。它们通常在大型和复杂的数据集上训练。基础模型可能会编码反映人类偏见、偏见或误解的结果;训练算法可能会辨别不正确的关系或上下文。 阶段1:输入数据公平性(表示和特征公平性) Inputdataequitycentratesonthedatacollectedandusedinbuildingfoundationmodelswhilealsoaddressingthepotentialdefunctionsthisdatamightentail.Asnoted,foundationmodeltrainingdatamayreflectsocialinquitiesandresult 在社会偏见中。因此,GenAI产生反映或放大这些模式的输出 。 因此,确保数据集中不同个人、群体和社区的公平代表性对于保证所产生结果的相关性和准确性至关重要。 此要求超出了个人代表的范围,涵盖了信息标签中对社区的准确描绘。为了使基础模型的输出真正反映数据中固有的所有个人和群体的观点和现实,必须促进公平,减少偏见和平等的解释力。此外,所采用的标签必须适于在算法学习模型内使用。 Inputdataequityshouldalsobecometherightsandwell-beingofdatasubjects.Thisincludesaspectssuchassecuredinformedconsent,justcompensationfordatacontributersandannotators,andnavigatingtheintricatetrade-offlinkedto 数据包含。这些权衡是复杂的。虽然更广泛的数据包含可以解决公平问题,但它可能同时通过加强监控来加剧隐私担忧。同样,生成新内容可以扩大创意选择,但可能并不总是确保对作品有助于模型培训的创作者的公平补偿。 输入方面的预期数据公平性程度可能会根据基础模型的性质和目标而有所不同。例如,商业应用程序可能会优先考虑最终用户的透明度,披露数据的范围和覆盖范围,以及针对特定群体的敏感性分析。在福利分配或法律应用等其他领域,投入方公平可能要求明确纳入所有相关社区,以确保真正和切实的包容性。 阶段2:算法数据公平性(表示、特征、访问公平性) Algorithmicdataequityintroducesapividualphase:theintermediatestagewherealgorithmsareformulatedanddesignedtointerpretinginputdata,therebygeneratingoutputresults.Thisstagenecessitatestheincorporationoffairity,biasmanagementanddiversityincluding 算法的操作。必须确保这些算法尽可能公正地发挥作用,避免延续不良偏见 和容纳不同的观点。实现算法数据公平涉及在其设计中包括不同的观点,并评估其对不同人口群体的影响。 算法偏差可能来自几个因素,例如合适数据集的可用性。当使用文化或地理上特定的数据来训练模型时,人们会产生担忧,这些模型随后将与最初未在训练数据中表示的人群进行交互。例如,主要在北美或英语内容上训练的模型可能很难提供准确的结果。全球北方以外的非英语人群或语境。 透明度也带来了挑战,因为利用神经网络的基础模型可以产生复杂且通常不透明的预测结果。 虽然其他人工智能系统可能允许算法透明度,但genAI的基于神经网络的学习过程有所不同。基础模型是在大量数据集上预先训练的,这为它们提供了广泛的知识基础。然而,当精细调整或适应特定任务时,它们最初依赖于这种一般知识。随着它们的进一步发展 在特定于任务的数据上进行训练,它对该任务的预测可以变得更加准确,从而回归他们遇到的新数据中复杂的模式和关系。 Thisunderscorestheimportanceofexposingfoundationmodelstodiversedatases,reflectingofglobalcommunities.Emergently,fine-tuningalgorithmstorecognitiontheunienessofvariousregionsandp