探索数据共享模型以最大限度地利用数据 作者:GillianDiebold|2023年10月16日 数据驱动的创新有可能成为一股巨大的进步力量。数据共享使组织能够提高其控制的数据的效用和价值,并获得对其他数据的访问权限。本报告评估了六种常见数据共享模型的优缺点,并为政策制定者提供了建议,以促进更多地采用这些数据共享模型,以最大程度地提高美国数据的经济和社会效益。 个人和组织使用数据来做出更好的决策并获得更好的见解,从而在广泛的领域中受益。1但是,为了最大限度地利用数据,个人和组织需要能够组合、增强和分析来自不同来源的信息。在私营部门,数据共享使企业能够与合作伙伴进行创新,例如应对共同的挑战并为消费者提供更好的体验。在公共部门,它使政府机构能够利用其他组织收集的信息做出更好的决策,提供个性化服务,参与循证决策,并收集新的见解。在学术界和非营利组织中,数据共享促进了科学突破,并使数据成为可能。社会善。 但是要获得这些好处,就需要最大限度地实现数据共享,以便那些能够有效使用数据的人能够访问数据。与土地或石油等大多数资源不同,数据是无价的,这意味着当其他人使用数据时,数据的供应不会减少。各种实体可以多次以多种方式使用数据,而不会耗尽数据。2虽然美国的许多组织在某些情况下共享数据,但其中许多举措都是临时性的,共享数据的最佳实践很少。如果决策者希望美国 有一个强大的人工智能和数据驱动的社会,他们需要采取措施促进数据共享。 本报告通过评估六种不同数据共享模式的利弊,向这一方向迈出了一步,并就政策制定者如何实施或扩大某些模式的使用提出了建议。鉴于不同的模式服务于不同的需求,决策者不需要选择一刀切的解决方案,而是应该在追求数据驱动的社会时促进采用多种数据共享机制。 数据共享模型 数据共享是使他人可以访问数据的过程,无论是在组织之间或组织内部,还是在个人与组织之间。数据共享的方法可能差异很大,可能涉及各种类型的参与者,并有不同的目标。例如,两个企业可以使用合同协议来共享数据,以促进大型项目上的协作。或者多个个人可以通过独立的组织共享数据以获得经济利益。 数据共享模型在很大程度上取决于谁提供数据,谁有权访问数据,谁存储和管理数据以及谁从数据共享中受益。数据贡献者可以是拥有或创建数据的任何参与者,包括个人,私人公司,政府机构,非营利组织和研究机构。同样,这些相同的参与者也可以是在数据共享安排中接收数据的参与者。例如,政府机构可能与研究新药的制药公司共享健康数据,或者制药公司可能与政府或公共卫生研究人员共享其疫苗分销数据。这些协议可以是单向的,其中一个参与者与另一方共享数据以接收特定的见解,也可以是互惠的,其中每个参与者接收数据。最后,数据共享模型因接收和存储数据的人(例如数据所有者或中介机构)而异。这些因素是数据共享模型之间的核心差异。 以下部分探讨和评估了六种不同的模型,说明了它们各自的优缺点,并为美国决策者提供了如何最好地实施和增加全国数据共享的建议。 数据共享伙伴关系 数据共享伙伴关系涉及不同实体之间的协作努力,如学术机构、研究组织、行业合作伙伴、个人消费者和政府机构,以共享和交换数据,以便进行研究、合作开发新产品和加强循证决策。这些伙伴关系旨在利用集体专业知识、资源和数据。 这种类型的数据共享安排通常需要明确的协议来定义数据访问和使用权以及知识产权(IP)的所有权,但具体特征可能因涉及的数据类型和协作性质而异。 例如,医疗保健是医院,研究机构和医疗服务提供者等组织之间的合作伙伴关系可以帮助在医疗保健研究中利用数据分析和人工智能(AI)的一个领域,最终改善患者结果并优化服务提供。323andMe以患者为中心的研究门户允许客户自愿将其遗传和自我报告的健康信息贡献给研究。4基因组学和生物技术公司23andMe与其客户之间的这种合作关系可以促进对各种疾病和特征的科学理解。研究人员将遗传数据联系起来,以研究祖先,特征甚至罕见疾病等主题。5 数据共享伙伴关系对所有伙伴都有许多好处。对于研究人员来说,这种伙伴关系提供了比他们自己更多的分析数据,从而可以获得更多的见解。这些伙伴关系还有助于克服单一数据集的局限性,这些局限性对于某些类型的统计分析可能太小,或者缺少调查所需的相关信息。在数据往往高度敏感的领域,如医疗保健,研究伙伴关系保护患者信息的敏感性,同时允许机构合作和汇总见解。这种伙伴关系还意味着减少数据重复,节省研究人员的时间和金钱。 同时,这种数据共享模式有一些限制。例如,当两个竞争机构之间建立数据共享伙伴关系时,通常会有知识产权和竞争问题。同样,这种合作可能涉及不同质量和标准的数据集。 必须先解决这些问题,然后才能进行任何共享。 建议:通过示范合同促进数据共享伙伴关系。 两个实体之间的伙伴关系是数据共享的最基本模式,应得到决策者的支持。当谈到数据共享伙伴关系时,组织往往被迫重新发明轮子,并在每次出现新的合作机会时经历新的合同和谈判过程。联邦机构的决策者应减轻这一障碍,并通过开发组织可以采用和自定义的合同模板来促进更多的数据共享伙伴关系(例如g.、数据类型、保留条款、IP权限等。). 新加坡等一些国家已经为数据共享伙伴关系提供了这种指导,并因此加快了研究和创新。6此外,联邦贸易委员会和 在使用这些示范伙伴关系协议时,司法机构应就遵守关于串通的反托拉斯规则提供指导。 数据联盟 数据联盟允许组织为了集团的利益而汇集他们的数据。7数据共享伙伴关系涉及双边协议,而数据联盟则构成一系列互惠共享协议。这些财团的存在可以解决特定问题 ,也可以进行普遍和持续的信息交流。例如,沿河的一组城镇可能会组成一个数据联盟来共享有关水中细菌的数据,或者一组医院可能会组成一个数据联盟来共享有关特定罕见疾病的数据。同样,在线市场可能会形成一个数据联盟,以交换有关销售假冒产品的第三方卖家的数据。8 数据联盟长期以来一直在填补数据空白方面发挥作用,例如,临床研究数据共享联盟的存在是为了通过共享在整个临床开发过程中收集的数据来加速药物发现。9该联盟的成员包括生物制药公司,学术机构,非营利组织和患者倡导团体,它们在全球范围内聚集在一起,以提供对临床数据的集体访问并帮助使研究人群多样化。数据联盟效用的另一个例子是宾夕法尼亚大学的语言数据联盟(LDC)。10这组大学,图书馆,公司和政府实验室成立于1992年,“旨在解决语言技术研发面临的严重数据短缺问题”。最不发达国家的成员共享语言资源,例如语音和文本数据库 ,词典和其他资源,这些资源在培训大型语言模型中起着重要作用。 数据联盟的主要好处是它促进了更多的数据共享和聚合。只有给定联盟的成员才能访问数据,联盟成员通常必须为该组做出贡献。 最终,数据联盟将产生临界点效应,在这种效应中,加入集体比退出更有利。一旦达到临界点,联盟将确保持续的数据共享,并总体上促进亲数据共享的世界。 数据联盟确实有一些缺点。在达到临界质量并出现临界点效应之前,一些组织可能会更好地囤积数据以供其专用。这意味着联盟需要在努力的早期考虑加入激励措施。 建议:调查并确定跨部门数据联盟的机会。 联邦机构应将特定部门中存在的数据联盟编目,并促进为关键领域创建新的跨部门联盟。数据联盟可以为决策者提供更广泛的访问 以及更多样化的数据来源,包括来自其他机构和私营部门的数据。例如,联邦紧急事务管理局等跨学科机构的政策制定者应建立财团,将环境保护署等机构的相关利益相关者聚集在一起,和住房和城市发展部以及私营部门组织,以协调正在进行的数据共享,并确保更加协调和有效地应对灾害。 数据信托 数据信任是一种数据治理框架,用于代表个人和组织管理、保护和共享数据,以实现商定的目的。11尽管数据信任的定义可能存在冲突,但这种数据共享机制的特征仍然相同。数据信任的核心是将数据权利委托给独立的中介机构,即受托人,该中介机构与研究人员,私营公司和公共部门机构进行数据共享决策,从而使数据主体受益。12数据信托为管理和使用聚合数据提供了结构和规则,并有助于释放其对公共利益的价值。 例如,英国生物银行管理着超过500,000个人的基因组数据,这些个人捐赠了他们的数据用于研究。13这些数据是匿名的,并提供给世界各地的研究人员,以加速科学发现和改善公共卫生。生物银行作为这些数据的受托人-换句话说,它有信托责任持有和分享数据,以造福英国公众。此外,英国国家卫生服务(NHS)正在开发一个NHS联合数据平台,以将所有健康数据(包括个人健康记录,临床数据和公共数据 )汇总到一个个人和私营部门都可以访问的集中式平台中。14 数据信托有许多好处,包括增加数据的社会效益,简化流程,以及通过实现二次使用来释放数据的更多价值。总体而言,数据信托是多个实体可以贡献和访问的机构 ,从而促进了持续的透明度和问责制以及数据重用的一致规则。因此,政府可以根据一套明确的协议获取关键领域的私营部门数据,反之亦然。在人工智能的背景下 ,它们可以促进对多样化和高质量数据集的访问,使人工智能开发人员能够在更全面和更具代表性的数据上训练和验证模型。总的来说,数据信任为负责任地管理数据提供了一个可信的框架。 与此同时,数据信托也面临着一定的挑战。考虑到信任所持有的数据通常具有敏感性,数据信任可能难以实现,有时会遇到阻力。对数据共享缺乏社会信任可能会导致项目被搁置甚至取消,例如IBloom,这是一个拟议的教育数据信托基金,遭到了利益相关者的强烈抵制,以至于未能启动。15此外,数据信托可能是资源密集型的 ,需要大量的财务、技术和人力资源。最后,数据信托可能与专注于维护个人权利的数据保护法不一致-这在许多西方国家很常见-因为它们专注于集体赋权和利益 。在严格的数据隐私法的背景下,这种集体模型可能难以实施。 建议:实施特定部门的数据信托。 在美国有一些特定的领域,如医疗保健、交通、教育和环境研究,在这些领域建立特定部门的数据信托可以为社会带来重大利益。这些信托可以将相关部门的利益相关者聚集在一起,汇集和管理数据,促进研究,改善服务提供,并推动特定领域的社会成果。 在特定部门内整合数据资产将有助于全面了解特定部门的挑战、趋势和机遇。联邦机构,例如环境保护署,卫生与公共服务部和教育部,应建立计划,以在各自的领域中创建和运营数据信托。通过提供指导和。 在能力建设支持方面,联邦机构可以帮助数据信托基金导航每个行业特定的法律和监管框架。 数据合作社 数据合作社是一种自下而上的数据治理形式,个人自愿将其数据集中起来,与私人公司和其他实体进行集体谈判。数据合作社的成员建立数据共享规则,旨在使组中的成员受益。这些合作社通常旨在将成员的集体数据货币化,并由数据共享协议产生的收入提供资金。数据合作社类似于农业,住房和消费信贷合作社,该组织由其成员拥有和共同管理,他们分享利益。 例如,Driver'sSeatCooperative汇集了经济工人的智能手机和移动数据,使他们能够优化收入。16Thecooperativefunctionsthroughanappthatlinksmultiplesourcesofanindividualdriver’sdataandanalytics,thenaggregatesthatdataforallmembersofthecollective.Driver’sSeatalsosellsthesegroupinsightstolocalgovernmentslookingfordatatohelptransp 安排的主要目的是使工人能够将其数据用作集体谈判机制。数据合作社也存在于农业部门,作为增强农民共享知识能力的一种手段。国家农业生产者数据合作社和种植者信息服务合作社等合作社在国家一级运作,汇集来自生产者、小企业、公立大学和非营利组织的数据,以便为农民和种植者提供农业数据,并帮助提高其经营的可持续性。17 一个挑战是数据合作社的经济学并不总是有效。18每个数据贡献者的价值可能相对较小,但是如果没有许多数据所有者的广泛参与,合作社将