数据公平:生成AI的基本概念 BRIEFINGPAPEROCTOBER2023 图片:盖蒂图片社 Contents 1数据公平的类别4 2跨数据生命周期的数据公平性6 3基础模型中的数据公平性挑战9 4主要利益攸关方的重点领域11 5讨论14 免责声明本文档由 世界经济论坛作为对项目、洞察领域或互动的贡献 。本文表达的调查结果、解释和结论是世界经济论坛促进和认可的合作进程的结果,但其结果不一定是 代表世界经济论坛的观点,也不代表其所有成员、伙伴或其他利益攸关方的观点。 ©2023世界经济论坛。世界经济论坛的报告可以根据知识共享署名-非商业-NoDerivatives4.0国际公共许可,并根据我们的使用条款重新发布。 2023年10月 数据公平:生成AI的基本概念 Introduction 在过去的几个月中,由于生成人工智能(genAI)工具的出现,出现了一系列技术进步,包括ChatGPT,Bard,Midjourney和StableDiffusion。 由于其功能,广泛的应用程序和易用性,这些工具的使用引起了广泛关注,并吸引了公众和行业利益相关者的想象力。 鉴于其挑战既定业务实践和运营模式的潜力,以及快速创新的承诺以及重大颠覆的可能性,genAI正在引发全球对话。这些预期的深远后果具有 社会层面,需要行业、政府、学术界和民间社会等关键利益攸关方的全面参与。 这些讨论的核心是“数据公平”的概念-数据治理中的一个核心概念,集中在数据对 个人、团体、企业和生态系统的技术系统的公平性。1它包括数据公平、偏见、获取、控制和问责的概念,所有这些都以正义、不歧视、透明和包容性参与的原则为基础。 数据公平不是一个新概念;它以人权为基础,是数据隐私、保护、道德、土著数据主权和责任方面正在进行的工作的一部分。 然而,数据公平和genAI是新的,并提出了独特的挑战 。用于训练人工智能模型的数据集容易出现偏见,加剧了现有的不平等。这需要主动审计数据和算法,并在人工智能过程的每一步进行干预,从数据收集到模型训练再到实施,以确保产生的genAI工具公平地代表所有 社区。随着genAI的出现,人工智能的部署和开发速度显著提高,探索数据公平的框架比以往任何时候都更加紧迫。 本简报深入探讨了这些问题,特别关注基础模型中的数据公平性,包括genAI对社会的影响以及genAI的进一步发展工具。我们的目标有三个:建立一个共享的词汇,以促进合作和对话;确定最初的关切范围,以建立一个利益攸关方可以关注的调查框架; 积极塑造有前途技术的未来发展。 世界经济论坛全球未来理事会(GFC)数据公平2envisionsthisasafirststepinabroaderconversation,recognizingtheneedforfurtherexplorationanddiscussiontobecomprehensivelyunderstanded,scrutinised,andaddressed.Theissuesarecomplexand 现在解决这些问题创造了一个独特的机会,可以积极地塑造这些令人兴奋的、有前途的工具的未来。 BOX1Definitionsofkeyconcepts 为了提供上下文和清晰度,强调了以下关键概念: –人工智能是一个广泛的领域,包括机器或计算机根据预定目标为各种任务模拟人类智能的某些方面的能力。3 –机器学习是人工智能的一个子集,它利用算法使机器能够识别数据集中的模式并从中学习。4 –生成AI是机器学习的一个分支,能够生成新的文本 、图像和其他媒体,复制训练数据中发现的模式和关系。5 –基础模型是一种大规模的机器学习模型,可以在各种多模态数据上进行大规模训练,并且可以适应许多下游任务。6 –大型语言模型代表了基础模型的一个子集,专门用于理解和生成人类语言,通常用于文本相关功能。LLM的最新迭代通过高级聊天机器人机制促进了自然对话。7 1数据公平的类别 Effectivelyaddressingthecomplexitiesofdataequitymandatesanappreciationofthediverseviewsheldbyvariousstakeholdersregardingdata.Theacademicliteraturehasidentifiedfourdistinctclassesofdataequity,whicharecloselyinterrelated:8 –Representationequityseekstoenhancethevisibilityofhistoricallymarginedgroupswithindatasetswhilealsoalsoaccountingfordatarelevancyforthetargetpopulations.Thedevelopment 主要在全球北方的模型中引入了代表性差异,可能导致基于此类数据的后续决策中的系统性偏差。积极主动的方法对于确保人工智能培训数据和模型真实地反映所有利益相关者而没有编码偏差是必不可少的。 –特征公平旨在确保以数据为代表的个人、群体和社区的准确描述,因此必须将种族、性别、位置和收入等属性与其他数据一起纳入。没有这些属性,通常很难识别和解决潜在的偏见和不平等。 –AccessEquityfocusesontheequallyaccessibilityofdataandtoolsacrossvariouslevelsofexpertise. Addressingtransparencyandvisibilityissuesrelatedtomodelconstructionanddatasourcesiscritical. Additionally,access 公平还包括人工智能素养和数字鸿沟方面的差异。 –结果公平与结果的公正性和公平性有关。除了开发公正的模型外,还必须对影响个人或团体的意外后果保持警惕。 透明度、披露和分担责任对于实现公平至关重要。 ThesefourclassesofdataequityareparticularlyrelevanttogenAI,butnotexhaustive.Twootherprominenttypesofequitybroadlyapplicable 需要考虑的技术是程序和决策公平。这些程序要素强调了广泛的公平问题,包括透明的决策,对开发和部署技术的工人的公平待遇以及包容性的开发和部署实践。9 更进一步,还必须考虑时间公平(可持续性和长期影响)和关系公平(促进公平的利益相关者关系)的问题。后一种问题不是genAI或技术独有的 广泛地,因此,超出了本文的范围。尽管如此,它们在这里被认为是技术公平总体结构的组成部分。 图1数据公平的类别 程序和决策公平 结果Equity代表性 Equity AccessEquity特征公平 来源:世界经济论坛 图1:四类数据公平问题相互关联,并受到影响和影响 通过程序和决策中的公平做法和考虑。 2跨数据生命周期的数据公平性 简化表示有助于显示数据公平如何渗透到数据生命周期。在每个阶段,不同类别的数据公平都会引发特定的 挑战和关切,说明需要采取多方面的方法来减轻潜在的危害。 FIGURE2 整个数据生命周期的数据公平性 Stage1 输入数据公平 (代表性和特征公平性) Stage3 输出数据公平 (访问和结果公平) Stage2 算法数据公平 (表示、特征、访问公平性) 来源:世界经济论坛 图2:数据生命周期中的数据公平性。确保整个数据生命周期中的数据公平性涉及多个阶段:第1阶段处理用作开发基础模型的输入的数据。第2阶段是制定和设计算法以分析的中间阶段 并解释输入数据。第3阶段侧重于genAI应用程序的输出数据。在某些情况下,生成的输出可以用作进一步的输入 训练基础模型,从而加剧数据公平挑战。 BOX2整个数据生命周期的数据公平性 为什么要关注基础模型? 基础模型是许多genAI工具的核心。它们通常在大型复杂数据集上进行训练。基础模型可能会对反映人类偏见、偏见或误解的结果进行编码;训练算法可能会辨别不正确的关系或上下文。 阶段1:输入数据公平性(表示和特征公平性) Inputdataequitycentersonthedatacollectedandusedinbuildingfoundationmodelswhilealsoaddressingthepotentialshortagesthisdatamightentail.Asnoted,foundationmodeltrainingdatamayreflectsocietalinequalitiesandresult 在社会偏见中。因此,GenAI产生的输出反映或放大了这些模式。 因此,确保数据集中不同个人、群体和社区的公平代表性对于保证所产生结果的相关性和准确性至关重要。 这一要求超出了个人代表性,包括在信息标签中准确描绘社区。促进公平,减轻偏见和平等的解释力实践对于基础模型的输出必须真正反映数据中固有的所有个人和群体的观点和现实。此外,所采用的标签必须适用于算法学习模型。 Inputdataequityshouldalsoencompasstherightsandwell -beingofdatasubjects.Thisincludesaspectssuchassecuringinformedconsent,justcompensationfordatacontributorsandannotators,andnavigatingtheintricatetrade-offeslinkedto 数据包含。这些权衡是复杂的。虽然更广泛的数据包含可能会解决公平问题,但它可能会通过加强监控同时加剧隐私担忧。同样,生成新内容可以扩大创意选择,但可能并不总是确保其作品有助于模型培训的创作者获得公平的报酬。 输入端的预期数据公平程度可能会根据基础模型的性质和目标而有所不同。例如,商业应用程序可能会优先考虑最终用户的透明度,公开数据的范围和覆盖范围,以及针对特定群体的敏感性分析。在福利分配或法律应用等其他领域,投入方公平可能要求明确纳入所有相关社区,以确保真正和切实的包容性。 阶段2:算法数据公平性(表示、特征、访问公平性) Algorithmicdataequityintroducesapivotphase:theintermediatestagewherealgorithmsareformulatedanddesignedtointerpretinputdata,therebygeneratingoutputresults.Thisstagenecessitatestheincorporationoffairness,biasmanagementanddiversityinclusionin 算法的操作。必须确保这些算法尽可能公正地运行,避免使不良偏见永久化 并容纳不同的观点。实现算法数据公平涉及在其设计中包括各种观点,并评估其对不同人口统计群体的影响。 算法偏差可能来自几个因素,例如合适数据集的可用性。当使用特定于文化或地理的数据来训练模型时,就会出现问题,这些模型随后将与训练数据中最初未表示的种群进行交互。例如,主要针对北美或英语内容进行培训的模型可能难以提供准确的结果。全球北方以外的非英语人口或环境。 透明度也带来了挑战,因为利用神经网络的基础模型可能会产生复杂且通常不透明的预测结果。 虽然其他人工智能系统可能允许算法透明,但genAI的基于神经网络的学习过程有所不同。基础模型是在庞大的数据集上预先训练的,这给了它们广泛的知识基础。然而,当微调或适应特定任务时,它们最初依赖于这些常识。随着它们的进一步发展 在特定于任务的数据上训练后,它对该任务的预测可以变得