行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

数据公平：生成人工智能的基础概念【英文版】

信息技术2023-11-01世界经济论坛L***

AI智能总结

数据公平与生成人工智能的基本概念

概述

《数据公平：生成AI的基本概念》报告深入探讨了生成人工智能（genAI）领域中的数据公平问题。随着生成AI工具如ChatGPT、Bard、Midtry和Stable Diffusion的兴起，其在功能、应用范围及易用性上的显著进步引起了广泛关注。报告强调了数据公平这一核心概念在数据治理中的重要性，该概念涵盖了数据对个人、团体、企业及生态系统的技术系统的公平性，包括但不限于数据公平、偏见、获取、控制和问责制。

数据公平的主要类别

代表性公平：强调增强历史边缘化群体的可见性与目标人群数据相关性的平衡。
特征公平：确保数据准确描绘了个人、群体和社区的属性，如种族、性别、地理位置和收入。
访问公平：关注不同专业水平下数据和工具的公平可访问性，包括透明度、可见性和数字鸿沟问题。
结果公平：关注公正性和公平性，包括开发无偏见的模型，对影响个人或团体的意外后果保持警觉。

数据生命周期中的数据公平性

数据公平性贯穿数据生命周期的不同阶段：

输入数据公平性：处理基础模型构建所需的数据收集和潜在功能缺陷。
算法数据公平性：确保算法操作的公平性，避免不良偏见，涵盖不同群体的影响评估。
产出数据公平性：关注输出数据的公平性，包括访问和结果公平，确保资源的合理分配和对特定群体的公平对待。

基础模型中的数据公平性挑战

规模与多样性：训练数据集的规模和多样性引发了道德困境和隐私问题。
语言与文化偏见：主要使用英语和西方来源的数据，可能导致偏见和文化偏见的扩散。
自动化偏见：工具的广泛应用可能导致对特定域或应用程序的影响不均衡。
透明度与复杂性：模型的透明度和清晰度问题，特别是基于神经网络的学习过程。
反馈循环：模型的持续学习和适应可能导致偏见的强化和难以追踪的偏误。

关键利益相关方的角色

报告识别了三个关键利益相关方群体：

推动和管理AI的社会使用：包括AI创造组织、使用AI的组织和政策制定者。
受影响或成为最终用户的人：公众和社区，特别是考虑到能力差异和数据素养。
连接各方：民间社会，重点在于能力建设和为公众和社区发展代表性。

结论

报告总结了数据公平在生成AI中的重要性，强调了在数据周期各阶段解决数据公平问题的必要性。生成AI承诺推动社会进步，但同时也伴随着数据公平性的挑战。通过多方面的努力和合作，可以有效地应对这些挑战，确保技术的发展不仅高效，而且公平。报告鼓励跨领域的合作，以促进数据公平理念的普及和实践，为生成AI的未来塑造一个积极的方向。

数据公平：生成AI的基本概念 BRIEFINGPAPEROCTOBER2023 图片：盖蒂图片社 Contents 1数据权益的类别4 2数据生命周期中的数据公平性6 3基础模型中的数据公平性挑战9 4关键利益攸关方的重点领域11 5讨论14 免责声明本文档由世界经济论坛是对项目，见解领域或互动的贡献。此处表达的发现，解释和结论是世界经济论坛促进和认可的合作过程的结果，但其结果不一定代表世界经济论坛的观点，也不是其成员、合作伙伴或其他利益攸关方的整体观点。 ©2023年世界经济论坛。世界经济论坛报告可能会根据知识共享归因-非商业-Notification4.0国际公共许可证和我们的使用条款重新发布。 2023年10月数据公平：生成AI的基本概念 Introduction 在过去的几个月中，由于生成人工智能（genAI）工具，包括ChatGPT，Bard，Midtry和StableDiffusion，出现了一系列技术进步。由于其功能，广泛的应用和易用性，这些工具的使用获得了极大的关注，并吸引了公众和行业利益相关者的想象力。 Givenitspotentialtochallengeestablishedbusinesspracticesandoperationaloperatory,andthepromiseofrapidinnovationcoupliedwiththelikelyofsignificantdisruption,genAIissparingglobalconversons.Theseexpected,far-reductshavea 社会层面，需要行业、政府、学术界和民间社会等关键利益攸关方的全面参与。这些讨论的核心在于“数据公平”的概念-数据治理中的一个核心概念，其核心是数据对个人、团体、企业和生态系统的技术系统的公平性。1它包括数据公平，偏见，获取，控制和问责制的概念，所有这些都以正义，不歧视，透明度和包容性参与原则为基础。数据公平不是一个新概念；它植根于人权，也是数据隐私、保护、道德、土著数据主权和责任方面正在进行的工作的一部分。但是，数据公平和genAI是新的，并且提出了独特的挑战。用于训练AI模型的数据集容易产生偏见，从而加剧了现有的不平等现象。这需要主动审计数据和算法，并在AI过程的每个步骤进行干预，从数据收集到模型训练再到实施，以确保由此产生的genAI工具公平地代表所有社区。随着genAI的出现，人工智能的部署和发展速度显着提高，探索数据公平框架比以往任何时候都更加紧迫。本简报深入探讨了这些问题，特别关注基础模型中的数据公平性，包括genAI对社会的影响以及genAI的进一步发展工具。我们的目标有三个方面：建立共同的词汇以促进合作和对话；确定最初的关注范围，以建立利益相关者可以关注的调查框架；积极和积极地塑造有前途的技术的未来发展。世界经济论坛数据公平全球未来理事会（GFC）2Envisionesthisasafirststepinalargerconversation,recognizingtheneedforfurtherexplacementanddiscussiontobecomprehensiveunderstanding,scrinised,andaddressed.Theissuesarecomplexand 现在解决它们创造了一个独特的机会来积极塑造这些令人兴奋的，有前途的工具的未来。方框1关键概念的定义为了提供上下文和清晰度，强调了以下关键概念： –人工智能是一个广泛的领域，包括机器或计算机根据预定目标模拟人类智能的某些方面以执行各种任务的能力。3 –机器学习是人工智能的一个子集，它利用算法使机器能够识别和学习数据集中的模式。4 –生成AI是机器学习的一个分支，能够产生新的文本、图像和其他媒体，复制训练数据中的模式和关系。5 –基础模型是一种大规模的机器学习模型，可以在不同的多模态数据上进行大规模训练，并且可以适应许多下游任务。6 –大型语言模型代表了专门用于理解和生成人类语言的基础模型的子集，通常用于文本相关功能 oLLM的最新迭代通过高级聊天机器人机制促进了自然对话。7 1数据权益的类别 Effectivelyaddressingthecomplexitiesofdataequityrequiresanadjuanceofthediverseviewspectsheldbyvariousstakeholdersregardingdata.Theacademicliteraturehaveidentifiedfourdistinctclassesofdataequity,whicharecloitlyinterrelated:8 –代表性公平旨在增强数据集中历史边缘化群体的可见性，同时也考虑目标人群的数据相关性。发展主要在全球北部范围内的模型会引入代表性差异，这可能会导致植根于此类数据的后续决策中的系统性偏差。为了确保AI训练数据和模型真实地反映所有利益相关者，而不会产生编码偏差，主动方法是必不可少的。 –特征公平旨在确保数据所代表的个人、群体和社区的准确描述，需要将诸如种族、性别、地点和收入等属性与其他数据一起纳入。没有这些属性，通常很难识别和解决潜在的偏见和不平等。 –Accessequity侧重于跨不同专业水平的数据和工具的公平可访问性。解决与模型构建和数据源相关的透明度和可见性问题至关重要。此外，访问公平还包括人工智能素养和数字鸿沟方面的差异。 –结果公平与结果的公正性和公平性有关。除了开发无偏见的模型外，还必须对影响个人或团体的意外后果保持警惕。透明度、披露和分担责任对于实现公平至关重要。这四类数据公平与genAI特别相关，但并非详尽无遗。另外两种突出的公平类型广泛适用需要考虑的技术是程序和决策公平。这些程序要素强调了广泛的公平关切，包括透明的决策、对开发和部署技术的工人的公平待遇以及包容性的开发和部署实践。9 进一步，还必须考虑时间公平（可持续性和长期影响）和关系公平（促进公平的利益相关者关系）的问题。这些后面的问题不是genAI或技术所独有的广义上，因此超出了本文的范围。尽管如此，它们在这里被认为是技术公平总体结构的组成部分。图1数据权益的类别程序和决策公平结果EquityRepresentationEquity 访问权限Equity功能公平性来源：世界经济论坛图1：四类数据权益问题既相互关联，又受影响和影响通过程序和决策中的公平做法和考虑。 2数据生命周期中的数据公平性简化表示有助于显示数据公平如何渗透到数据生命周期。在每个阶段，不同类别的数据公平会引起特定的挑战和担忧，说明需要采取多方面的方法来减轻潜在的危害。 Figure2 在整个数据生命周期中的数据公平性阶段1 输入数据公平性 (表示和特征公平) 第3阶段输出数据公平性 (访问和结果公平) 阶段2 算法数据公平 (表示、特征、访问公平性) 来源：世界经济论坛图2：数据生命周期中的数据公平性。确保整个数据生命周期中的数据公平性涉及多个阶段：阶段1处理用作开发基础模型的输入的数据。阶段2是算法公式化和设计用于分析的中间阶段和解释输入数据。阶段3侧重于genAI应用程序的输出数据。在某些情况下，生成的输出可以用作输入以进一步训练基础模型，从而加剧数据公平挑战。方框2整个数据生命周期中的数据公平性为什么要专注于基础模型？基础模型是许多genAI工具的核心。它们通常在大型和复杂的数据集上训练。基础模型可能会编码反映人类偏见、偏见或误解的结果；训练算法可能会辨别不正确的关系或上下文。阶段1：输入数据公平性（表示和特征公平性） Inputdataequitycentratesonthedatacollectedandusedinbuildingfoundationmodelswhilealsoaddressingthepotentialdefunctionsthisdatamightentail.Asnoted,foundationmodeltrainingdatamayreflectsocialinquitiesandresult 在社会偏见中。因此，GenAI产生反映或放大这些模式的输出。因此，确保数据集中不同个人、群体和社区的公平代表性对于保证所产生结果的相关性和准确性至关重要。此要求超出了个人代表的范围，涵盖了信息标签中对社区的准确描绘。为了使基础模型的输出真正反映数据中固有的所有个人和群体的观点和现实，必须促进公平，减少偏见和平等的解释力。此外,所采用的标签必须适于在算法学习模型内使用。 Inputdataequityshouldalsobecometherightsandwell-beingofdatasubjects.Thisincludesaspectssuchassecuredinformedconsent,justcompensationfordatacontributersandannotators,andnavigatingtheintricatetrade-offlinkedto 数据包含。这些权衡是复杂的。虽然更广泛的数据包含可以解决公平问题，但它可能同时通过加强监控来加剧隐私担忧。同样，生成新内容可以扩大创意选择，但可能并不总是确保对作品有助于模型培训的创作者的公平补偿。输入方面的预期数据公平性程度可能会根据基础模型的性质和目标而有所不同。例如，商业应用程序可能会优先考虑最终用户的透明度，披露数据的范围和覆盖范围，以及针对特定群体的敏感性分析。在福利分配或法律应用等其他领域，投入方公平可能要求明确纳入所有相关社区，以确保真正和切实的包容性。阶段2：算法数据公平性（表示、特征、访问公平性） Algorithmicdataequityintroducesapividualphase:theintermediatestagewherealgorithmsareformulatedanddesignedtointerpretinginputdata,therebygeneratingoutputresults.Thisstagenecessitatestheincorporationoffairity,biasmanagementanddiversityincluding 算法的操作。必须确保这些算法尽可能公正地发挥作用，避免延续不良偏见和容纳不同的观点。实现算法数据公平涉及在其设计中包括不同的观点，并评估其对不同人口群体的影响。算法偏差可能来自几个因素，例如合适数据集的可用性。当使用文化或地理上特定的数据来训练模型时，人们会产生担忧，这些模型随后将与最初未在训练数据中表示的人群进行交互。例如，主要在北美或英语内容上训练的模型可能很难提供准确的结果。全球北方以外的非英语人群或语境。透明度也带来了挑战，因为利用神经网络的基础模型可以产生复杂且通常不透明的预测结果。虽然其他人工智能系统可能允许算法透明度，但genAI的基于神经网络的学习过程有所不同。基础模型是在大量数据集上预先训练的，这为它们提供了广泛的知识基础。然而，当精细调整或适应特定任务时，它们最初依赖于这种一般知识。随着它们的进一步发展在特定于任务的数据上进行训练，它对该任务的预测可以变得更加准确，从而回归他们遇到的新数据中复杂的模式和关系。 Thisunderscorestheimportanceofexposingfoundationmodelstodiversedatases,reflectingofglobalcommunities.Emergently,fine-tuningalgorithmstorecognitiontheunienessofvariousregionsandp

点击免费查看完整报告