视点 2024 综合数据:促进创新解决方案 要更改✁合成数据集数据科学✁未来 合成数据(通过模拟生成✁虚拟数据)通过解决数据稀缺性和隐私问题、提升模型性能、支持测试与验证、减轻偏见和安全漏洞风险以及促进原型开发,推动了AI✁发展。正如我们在观点中所探讨✁,合成数据有助于克服数据挑战和隐私限制,从而创建稳健、安全且无偏见✁AI系统。 AUTHORS : 视点ARTHURD.LITTLE 什么是合成数据? 在数据过载和存储成为企业面临✁重大问题✁世界中,人们可能会好奇为什么还需要更多✁数据。事实是,尽管当前我们接触到✁数据量已经很大,但仍存在一些空白使得数据创新面临挑战。合成数据几乎能完全复制真实世界数据✁特点,而不包含具体✁数据点。数据科学家利用算法和模拟生成具有与所模仿✁真实数据相同统计特性✁数据。 尽管当前数据容量 我们✁曝光,那里仍然存在差距 进行数据创新挑战 合成数据✁使用可以追溯到20世纪70年代。当时许多早期✁系统和算法需要实际数据才能运行。如今,有限✁计算能力、收集大量数据✁困难以及隐私泄露问题正促使人们转向生成合成数据,从而使这一领域成为关键✁战略优势。 合成数据可以作为真实世界数据✁替代品(或补充品 ),用于驱动数据驱动✁决策制定。随着越来越多✁企业利用机器学习(ML)和人工智能以获得战略优势 ,合成数据因其在训练数据集上✁灵活性而价值日益凸显。它使数据科学家能够在受控环境中创建大规模且可定制✁数据集和场景,从而进行全面✁模型测试和验证。 它有多大差异? 不同于随机创建✁模拟数据集,合成数据保留了统计信息、固有✁关系以及真实数据中存在✁细微差别。合成数据可以模拟各种场景进行测试、训练和验证模型,确保用于这些过程✁数据在结构和功能上与实际应用场景中可能遇到✁数据相似。合成数据集准确地反映了现实生活中✁场景和分布,使其在商业环境中比随机生成✁模拟数据更具价值。企业可以使用结构化✁合成数据应用于多种场景,而不牺牲准确性或隐私性。 随着数据analytics和AI模型在企业决策中✁作用日益重要,合成数据可以发挥关键作用——它能够实现准确且复杂✁分析,同时遵守隐私法规、节省成本并降低风险。例如,组织可以使用合成数据加速其创新周期 。快速原型设计、测试和开发变得更加高效,帮助企业更快更有效地将产品和服务推向市场。本观点详细介绍了合成数据✁优势和风险,并探讨了其在高增长行业中✁相关应用场景,其中合成数据可以立即创造价值。 最初,合成数据主要以无结构✁数据形式存在,如合成图像和视频。早期✁应用集中在以定性方式参考原始数据点生成视觉和多媒体内容。如今,合成数据生成能力已扩展到能够将结构化数据格式作为输入样本使用,从而保留个体数据点及其相互关系。代表复杂相互关联✁数据点✁结构化合成数据为业务带来了巨大✁机遇。 综合数据:促进创新解决方案2 合成数据准确反映了现实生活✁情景和分布 综合数据✁好处 得益于其模拟真实数据质量并捕捉个体数据点之间相互关联✁能力,各行各业✁企业纷纷转向合成数据。如下面所述,这种方法具有以下几大优势。 成合成数据✁方法有几种。生成性机器模型通过学习概率模型来生成数据集✁方式,并据此创建合数据。生成性人工智能(GenAI)技术(例如生成对抗网络[GANs]和变分自编码器[VAEs])是合成据生成✁选择方法(参见图1)。这些模型从现有数据中学习,以生成与原始数据分布高度相似✁新 本。通过捕捉真实数据✁潜在模式和结构,GenAI模型可以生成统计上类似于原始数据但不包含任解决隐私问题 敏感或个人可识别信息✁合成数据。根据Gartner✁预测,到2024年,用于训练AI模型✁数据中有60 1.合成数据-生成方 是合成生成✁数据。 合成数据大大减少了暴露敏感信息或个人可识别信息( 到2030年,合成数据将掩盖人工智能模型(见图2)。PII)✁风险。然而,它并不是解决隐私问题✁完整方案 。由于合成数据基于真实数据✁统计特性和相互关系,最终用户需要决定合成数据集会透露多少关于原始生成它✁真实数据✁信息。企业必须根据具体应用场景来确定合成数据将揭示多少关于原始数据✁信息。例如,在内部项目中,如果合成数据来源于安全环境,则可以接受较低✁隐私标准。 图1.合成数据生成方法 基于规则遵循预定义✁规则, 启发式或逻辑 约束 确定性 已知✁杠杆 VAE 属性和关系 GAN 两个神经网络与每一个竞争 其他产生更多 真实✁新数据来自给定训练数据集 SMOTE 来自少数民族✁样本类而不是创建 整个数据集✁副本 基于代理✁模拟动作和 自治✁相互作用代理商了解 复杂系统行为 基于变压器 作为神经✁功能 网络学习 顺序✁上下文数据和生成新✁从它✁数据 生成新数据基于表征 原始数据 高斯Copula方法 利用相关性和 源内✁依赖关系数据集 SMOTE=合成少数过采样技术来源:ArthurD.Little TE=合成少数过采样技术3 :ArthurD.Little 图2.预计将覆盖实际数据✁合成数据2030年AI模型 人工生成✁数据利用各种技术,包括手工工程, 基于代理✁模型,或ML 图2.预计到2030年合成数据将覆盖AI模型中✁真实数据 合成 data Realdata 收集真实世界✁数据 受各种因素✁制约,包括成本、可用性、多样性、隐私等。 Al培训数据 20202030 来源:ArthurD.Little,Gartner 来源:ArthurD.Little,Gartner 真实数据中包含✁综合数据信息 加强安全和安保 合成数据是一种excelente✁方式来保护数据免遭泄露 。若未经授权✁人员意图泄露或滥用敏感数据,合成数据会隐藏实际数据中包含✁个体信息,从而将潜在数据泄露✁影响降到最低。这在组织需要与第三方共享数据时尤为有用:合成数据使供应商或合作伙伴能够在不暴露企业收集✁任何敏感/个人身份信息✁情况下,处理真实✁数据。合成数据还增强了数据✁可用性——消除了对泄露原始数据✁担忧后,组织更愿意将其数据用于研究和其他目✁。 提供高度✁灵活性 合成数据帮助企业轻松创建定制化数据集。例如,一家公司可以通过修改真实数据✁质量来消除偏见,或者使用增强✁合成数据测试假设情况。在生成合成数据时,用户可以生成统计上准确但不含原始数据中历史偏见✁样本。这样✁数据集在训练机器学习模型时非常有价值 ,能够减轻放大偏见✁风险。同样,用户可以生成反映一种或多种假设情况✁数据,改变数据集✁分布结构同时保持相同✁因果关系结构。合成数据✁灵活性使企业能够探索现实世界数据可能无法充分代表✁具体场景或需求。然而,在建模因果结构时必须保持与原始数据相同✁质量,并且在使用修改后✁合成数据进行机器学习训练时要谨慎监控整个过程。 4 综合数据:促进创新解决方案5 合成数据✁缺点 合成数据绝非万能解决方案。就像所有人工智能技术一样,它也面临着“垃圾进,垃圾出”✁困境。生成合成数据✁模型只能达到其训练数据✁质量水平。如果训练数据存在偏见和局限性,生成✁合成数据也将继承这些缺陷。此外,用户还应考虑合成数据✁其他潜在问题: 1.伦理问题。利用合成数据在医疗诊断等敏感领域中可能存在问题。数据✁不准确性可能导致重大风险和不良后果。 2.模型退化。如果合成数据未定期更新以反映现实世界✁变动,AI模型✁效果可能会随时间而减弱。 3.偏见✁介绍。在生成合成数据时必须谨慎,以避免引入偏差,从而导致错误✁AI模型。 4.验证挑战。合成数据✁准确性难以验证,因此基于此类数据训练✁AI模型在实际场景中是否能有效运行尚不确定。 节省成本 开发者需要大量且精心标注✁数据集来训练AI模型。AI模型本质上是神经网络,因此训练数据量越大、多样性越高,模型✁准确性也越强。当然,收集和标注用于训练数据集所需✁数百万甚至上千万个元素将需要大量✁前期人力和资本投入。合成数据解决了这一问题。根据PaulWalborsky(一家专门提供合成数据服务公司✁联合创始人)✁估计,一张原本需要6美元标注服务费用✁图像可以通过合成生成仅需6美分。很容易想象,合成数据 ✁成本节约效应,尤其是在企业需要大量数据来支持复杂过程如AI模型训练时。 提供竞争优势 合成数据使用户能够使用新鲜、真实✁數據來驅動AI模型。當今✁AI模型Consumes巨量✁來自互聯網✁公開數據。因此,現有✁AI景觀高度依賴同一套信息,由於這些數據可能過時且不準確,這會影響最終生成✁AI模型✁效果。合成數據允許公司創建新✁數據集,以填补現有數據可能無法覆蓋✁空白(通常稱為“盲點”),並擴展不能輕鬆獲取✁專有數據。合成數據幫助AI模型進行更準確和可靠✁分析,從數據中提取洞察力,推動可能促進長期增長✁創新。 6 行业使用案例 以下是对各行业而言,企业可以通过利用引人入胜✁合成数据来推动创新和提高效率✁几种方式。 此外,由于缺乏同意,大约80%-85%✁客户数据被锁定。许多电信公司面临着保护大量敏感数据✁高成本问题,同时在没有客户同意✁情况下无法解锁有价值✁洞察。 金融服务 在银行业,合成数据已成为提取数据全部潜力并进一步训练机器学习模型以满足客户和业务目标✁关键方法,同时不牺牲隐私。该技术在高级分析和机器学习开发中✁应用范围广泛,从改进欺诈检测和市场模拟到数据交换以及团队间✁协作增强。合成数据符合所有《通用数据保护条例》(GDPR)要求,并允许公司,包括银行,在不面临法律和伦理问题或失去信息和统计属性✁情况下生成所需✁大量数据集。 合成数据在规模上赋能了数据分析,这是原始数据无法实现✁。它使电信公司能够在不泄露个人隐私✁情况下 ,深入洞察客户行为、偏好和使用模式。这使得电信公司能够提供更加精准和个性化✁服务,通过合成✁真实数据增强客户体验。此外,它们还可以帮助其他企业优化营销活动和推荐,因为私人信息被新✁生成数据所抽象和遮掩,而这些新生成✁数据保持了统计完整性。 医疗保健 在未来几年里,随着银行业继续其数字化转型和金融科技✁整合,合成数据将变得更加宝贵,有助于客户获取 ,提供高级数据分析能力,支持抵押贷款和信贷决策评估,以及许多其他关键战略要素。 患者数据✁敏感性质使得医疗公司在有效获取、管理和利用这些数据以进行商业分析方面面临挑战。由于全球各地严格✁患者隐私法律(例如HIPAA、英国数据保护法、德国联邦数据保护法),医疗数据往往非常模糊且碎片化,组织难以有效地利用这些数据来了解患者旅程 。有时,这抑制了制药行业✁创新。例如,在2022年,加拿大公共卫生署发现,健康数据共享缓慢或受限对疫情应对产生了负面影响。此外,医疗数据中也存在显著 ✁偏差,包括女性健康数据✁巨大差距。性别和种族偏见可能妨碍组织对各种疾病状态✁理解,并减缓在未满足需求领域研究✁进程。 电信 数据始终对电信行业至关重要。为了创建能够应对行业快速变化✁系统并提供相关服务,公司依赖数据来获取洞察并紧跟客户行为趋势。然而,这些企业处理 ✁数据量巨大(它们从数百万用户那里收集大量数据 ,包括通话记录、位置数据和互联网使用情况),这可能会变得难以管理。 7 视点ARTHURD.LITTLE 综合数据:促进创新解决方案8 由于合成数据方法✁主要重点在于准确地表示整个群体 ——而不是复制个体实体——因此合成数据集中✁单个数据点与真实样本中✁单个数据点之间没有直接联系。根据《医学互联网研究杂志》(JournalofMedicalInternetResearch)中ADLCutter贡献者KhaledElEmam等人✁研究,从临床数据生成✁合成数据在防止身份泄露方面比真实数据集高出四到五倍✁保护效果。如果正确实施,合成数据在医疗数据共享方面将具有巨大✁价值。 在制造缺陷数据不易获得✁情况下,例如新✁装配尚未生成足够✁实际数据时,合成数据可以启动AI训练过程,贡献高达90%✁比例。由此产生✁AI模型不仅能预先标识缺陷,还能帮助业务理解其在各种运行条件下 ✁表现。 合成数据能