感谢提供。 加速合成数据以推进人工智能 生成人工智能项目数据 哈利德埃尔艾玛姆 报告 人工智能计算领域的领导者。 注册以获取最新人工智能新闻直接发送至您的邮箱。 订阅 加速合成数据以推进人工智能 生成人工智能项目数据 哈利德埃尔艾玛姆 东京东京北京北京波士顿波士顿 加速合成数据以推进人工智能 由卡立德埃尔伊马姆(KhaledElEmam) 版权所有2020O’ReillyMediaInc保留所有权利。印刷于美利坚合众国。 由OReillyMediaInc出版,地址:1005GravensteinHighwayNorthSebastopolCA95472 O’Reilly图书可用于教育、商业或销售促销用途。大多数标题也提供在线版本(httporeillycom关于更多信息,请联系我们的企业机构销售部门 :8009989938或 corporateoreillycom 采购编辑:约翰哈塞尔发展编辑:梅丽莎波特生产编辑: 排版编辑: 丹尼尔埃尔法纳鲍第姆一版2020年6月: 修莎订伦历威史尔第基一版 20200603首次发布 校对员: 香农图尔林顿室内设计师:大卫富塔托封面设计师: 蒙哥马利,凯伦 插图者: RebeccaDemarest TheO’ReillylogoisaregisteredtrademarkofO’ReillyMediaInc加速合成数据以推进人工智能,封面图片及相关贸易外观均为O’ReillyMediaInc 的商标。 本作品中表达的观点为作者个人观点,不代表出版者的观点。虽然出版者和作者已尽善意努力确保本作品中包含的信息和说明准确无误,但出版者和作者对任何错误或遗漏概不承担责任,包括但不限于因使用或依赖本作品而产生的损害赔偿责任。使用本作品中包含的信息和说明由您自行承担风险。如果本作品中包含或描述的任何代码示例或其他技术受开源许可或其他人的知识产权保护,您有责任确保您对其的使用符合此类许可和或权利。 这项工作是OReilly和NVIDIA之间合作的一部分。请参阅我们的声明独立编辑状态 9781492045960LSI 目录 1定义合成数据 什么是合成数据?2合成数据的好处5学习信任合成数据9访问数据的其他方法11从真实数据生成合成数据12结 论15 2合成过程17 数据综合项目17数据综合流程21综合项目管理工作27 数据综合实施最佳实践28结论30 合成数据案例研究333 制造业和分销34健康护理36金融服务43交通运输46 结论50 数据合成未来第51页第4 创建数据效用框架51从合成数据中移除信息52 v 使用数据水印53从模拟器生成合成54结论55 VI目录表 第一章 定义合成数据 近年来,对合成数据的兴趣增长迅速。这主要受到两个同时趋势的推动。第一个是训练和构建人工智能和机器学习(AIML)模型对大量数据的需求。第二个是近期展示出有效生成高质量合成数据的方法的研究成果。这两者都导致了人们认识到合成数据可以非常有效地解决一些难题,特别是在AIML领域。像NVIDIA、IBM和Alphabet这样的公司内部的团体和企业,以及像美国人口普查局这样的机构,都采用了不同类型的数据合成来支持模型构建、应用开发和数据传播。 本报告对合成数据生成进行了概述,重点关注其商业价值和用例,并对技术和实施实践进行了高层次的概述。我们旨在回答商业读者通常会提出(且通常会提出)的问题,但同时也为寻求了解可供选择方案及如何开始着手的数据分析领导层提供一些指导。 我们展示了如何通过合成数据加速人工智能机器学习(AIML )项目。一些可以使用合成数据解决的问题,如果使用更传统的方法解决,可能会过于昂贵或危险(例如,在训练控制自动驾驶汽车模型的情况下),或者根本无法以其他方式完成。 1 AIML项目在不同行业中运行,我们在这份报告中包含的多个行业用例旨在向您展示数据合成的广泛应用。我们也将AIML项目定义得相当广泛,例如包括开发具有AIML组件的软件应用。 报告分为四章。本导论章节涵盖了基本概念,并阐述了合成数据的应用案例。第二章介绍了数据处理过程和流水线、企业规模实现的实施以及最佳实践。随后是以下一系列行业特定案例研究:第三章第四章具有前瞻性,并考虑了该技术的发展方向。 在本章中,我们首先定义了合成数据的类型。随后,我们描述了使用合成数据的益处数据合成可以解决的问题类型 。鉴于最近这种方法在实践中的应用,建立对合成数据分析结果的可信度非常重要。因此,我们还展示了支持合成数据有用性的例子,并讨论了建立信任的方法。 替代数据合成的方法存在,接下来我们将对这些方法进行评估,分析其优缺点。这一章节最后将对合成数据生成的方法进行概述。 什么是合成数据? 在概念层面上,合成数据所提供的数据并非真实数据,而是从真实数据生成并拥有与真实数据相同的统计特性。这意味着,使用合成数据集进行工作的分析师应得到与使用真实数据相似的分析结果。合成数据集作为真实数据准确代理的程度是一项度量标准。电力公司此外,我们将生成合成数据的过程称为合成 在这种情况下,数据可以指不同的东西。例如,数据可以是 结构化数据(即行和列),就像在一个关系型数据库中所看到的那样。数据也可以是非结构化的文本,例如医生笔记、人与人或与数字助手的对话记录,或通过电子邮件或聊天进行的在线互动。此外,图像、视频、音频和虚拟环境也是可以合成的数据类型。我们已经看到了伪造图像的例子。 第2章:定义合成数据 在机器学习文献中;例如,可以创建出在现实世界中不存在的真实人物的图像,并且可以查看结果线上 合成数据分为两种类型,根据其是否由实际数据集生成。 第一类是从真实数据集合成。分析师将有一些真实数据集 ,然后构建一个模型来捕捉这些真实数据分布和结构。在此 ,结构这意味着数据中的多元关系和相互作用。然后,从该模型中采样或生成合成数据。如果模型能够很好地代表真实数据,那么合成数据将具有与真实数据相似的统计特性。 例如,一个专注于理解客户行为的数据科学小组需要大量的数据来构建其模型。但由于隐私或其他担忧,获取这些客户数据的流程缓慢,且由于信息的大量掩盖和编辑,当数据最终到达时,其质量也并不足够好。相反,可以为分析师提供生产数据集的合成版本以构建他们的模型。合成数据在使用上受到的限制较少,将使他们能够更快地推进。 第二类合成数据不是从真实数据生成。它是通过使用现有模型或分析师的背景知识创建的。这些现有模型可以是过程的统计模型(例如,通过调查或其他数据收集机制开发而成 )或可以是模拟。例如,可以通过游戏引擎创建场景或对象的模拟(和合成)图像,或者通过模拟引擎生成具有特定特征(比如年龄和性别)的顾客数据,这些人在一天中的不同时间经过潜在商店的地点。 背景知识可以是,例如,根据教科书描述或基于各种历史条件下股价行为建立的一个金融市场行为模型,或者基于多年经验对商店中人类交通流量统计分布的知识。在这种情况下 ,创建模型并从中采样以生成合成数据相对简单。如果分析师对过程的了解准确,合成数据的行为将与其一致。 什么是合成数据?3 实际世界数据。当然,这只有在感兴趣的现象真正被充分理解的情况下才有效。 作为最后的例子,当过程是新的或者是分析师不太理解时,且没有实际的历史数据可供使用,分析师可以对过程中的变量之间的分布和相关性做出一些简单的假设。例如,分析师可以做出一种简化的假设,即变量具有正态分布,它们之间具有“中等”的相关性,并据此创建数据。这类数据可能不具有实际数据的相同属性,但仍然可能对某些目的有用,例如调试R数据分析程序或对某些类型的软件应用程序性能测试。 在某些用例中,高效用性将非常关键。在其他情况下,中等甚至低效用性可能也可接受。例如,如果目标是构建AIML模型以预测客户行为并根据这些预测做出营销决策,则高效用性至关重要。另一方面,如果目标是测试你的软件是否能够处理大量交易,对数据效用性的期望将大大降低。因此,理解现有数据、模型、模拟器和知识以及数据效用性的需求,将驱动用于生成合成数据的特定方法。 表11提供了合成数据类型的摘要。 表11数据综合的类型及其效用和隐私影响 合成数据类型公共事业 源自真实(非公开)数据集从真实公共数据生成 由现有模型生成 流程,也可以表示为模拟引擎 可能相当高 可能很高,尽管存在局限性,因为公共数据往往被去标识化或汇总。 对现有遗嘱的忠实程度取决于 生成模型 基于分析师知识将取决于分析师对该领域的了解程度。领域以及现象的复杂性 源自通用假设的生成专门针对该现象 可能会较低 第4章:定义合成数据 本报告来源于三个皮匠报告站(wwwsgpjbgcom),由用户ID879887下载,文档ID621305,下载日期20250 现在您已经了解了合成数据的类型,我们将探讨数据合成整体上的好处,以及针对这些数据类型的一些具体好处。 合成数据的好处 在本节中,我们介绍了数据合成在解决AIML项目实际问题中的几种方法。合成数据的好处可能非常显著。它可以使原本不可能的项目变得可行,显著加速AIML的倡议,或者导致AIML项目成果的重大改进。 数据访问提升 数据访问对于AIML项目至关重要。需要数据来训练和验证模型。更广泛地说,数据还被需要来评估他人开发的AIML技术 ,以及测试包含AIML模型的软件应用或应用。 通常,数据是在个人同意的情况下收集用于特定目的的;例如,用于参加网络研讨会或参与临床研究。如果您想将同一数据用于不同的目的,例如构建一个预测哪种人可能会注册参加网络研讨会或谁会参与研究的模型,那么这被认为是次要目的 数据访问对于二次分析变得越来越成问题。美国政府问责办公室1以及麦肯锡全球研究院2同时指出,获取数据用于构建和测试AIML模型是其更广泛采用的一大挑战。德勤的分析结果表明,数据获取问题是企业在实施人工智能时面临的前三大挑战之一。3最近,《麻省理工学院技术评论》的一项调查显示,几乎 1美国政府问责办公室,“人工智能:新兴机遇、挑战及影响,”GAO18142SP(2018年3月)。httpsoreillyCpyli 2麦肯锡全球研究院,《人工智能:下一个数字前沿?》(2017年6月)。httpsoreillyzJ8oZ 3德勤洞察,“企业人工智能现状,第2版”(2018)。httpsoreillyl07tJ 一半受调查者认为数据可用性是他们公司与人工智能应用 一个局限性。4与此同时,公众对他们数据如何被使用和共享感到不安,隐私法律也变得更加严格。OReilly最近一项调查突出了采用机器学习模型公司对隐私担忧,其中超过一半有经验使用人工智能机器学习(AIML)公司正在检查隐私问题。5在之前提到麻省理工学院调查中,64 受访者指出,“监管变化或对数据共享更清晰监管”是最有可能导致更多数据共享发展。 当代隐私法规,例如美国健康保险便携性和问责法案(HIPAA)以及欧洲通用数据保护条例(GDPR),对将个人信息用于次要目施加了限制或要求。一个例子是要求从个人那里获得额外同意或授权。在很多情况下,这并不可行,可能会导致数据引入偏差,因为同意者和不同意者在重要特征上存在差异。6 数据综合可以为分析师提供,既高效又大规模,实际可操作数据。鉴于合成数据不会被认定为可识别个人数据,隐私法规不适用,且不需要额外同意即可用于次要目数据使用义务。7 提升数据质量 鉴于获取数据难度,许多分析师试图仅使用开源或公共数据集。这些可以作为一个好起点,但它们缺乏多样性,并且通常与模型旨在解决问题不太匹配。此外,公开 4MIT技术评论洞察力,“全球人工智能议程:承诺、现实与数据共享未来”(2020年3月)。httpsoreillyFHg87 5BenLorica和PacoNathan,企业中机器学习应用现状 (O’Reilly) 6哈利德埃尔伊马姆等,《关于研究中同意偏差证据综述》美国生物伦理学杂志第13卷第4期(2013年):4244页。httpsoreillySiG2N 7然而