探索数据共享模型以从数据中获得最大利益 GillianDiebold|2023年10月16日 数据驱动的创新有可能成为推动进步的巨大力量。数据共享使组织能够提高其控制的数据的效用和价值,并获得对他人控制的其他数据的访问权限。本报告评估了六种常见数据共享模型的优缺点,并为决策者提供了建议,以促进对这些数据共享模型的更多吸收,以最大程度地提高美国数据的经济和社会效益。 个人和组织使用数据来做出更好的决策并获得更好的见解,从而在广泛的领域带来好处。1但要最大限度地利用数据,个人和组织需要能够组合、增强和分析来自不同来源的信息。在私营部门,数据共享使企业能够与合作伙伴进行创新,例如应对共同挑战并为消费者提供更好的体验。在公共部门,它使政府机构能够利用其他组织收集的信息做出更好的决策,提供个性化服务,参与循证决策,并收集新的见解。在学术界和非营利组织中,数据共享推动了科学突破,并为数据提供了支持。 社会良好。 但是要获得这些好处,就必须使数据共享发挥最大的潜力,以便那些能够有效使用数据的人能够访问它。与大多数资源不同,例如土地或石油,数据是无与伦比的,这意味着当其他人使用数据时,数据的供应不会减少。数据可以由各种实体以多种方式多次使用而不会耗尽。2虽然美国的许多组织在某些情况下共享数据,但其中许多举措是临时的,共享数据的最佳做法很少。如果政策制定者希望美国 有一个强大的人工智能和数据驱动的社会,他们需要采取措施促进数据共享。 本报告通过评估六种不同数据共享模型的利弊,朝着这个方向迈出了一步,并就政策制定者如何实施或扩大某些模型的使用提出了建议。鉴于不同的模式满足不同的需求,政策制定者不需要选择一刀切的解决方案,而是应该促进采用多种数据共享机制,以追求数据驱动的社会。 数据共享模型 数据共享是使数据可供他人访问的过程,无论是组织之间还是组织内部,还是个人与组织之间。数据共享的方法可能千差万别,可能涉及各种类型的行为者,并有不同的目标。例如,两家企业可能会使用合同协议来共享数据,以促进大型项目的协作。或者多个个人可以通过独立组织共享数据以获取经济利益。 数据共享模型在很大程度上取决于谁贡献了数据、谁有权访问数据、谁存储和管理数据以及谁从数据共享中受益。数据贡献者可以是拥有或创建数据的任何参与者,包括个人、私人公司、政府机构、非营利组织和研究机构。同样,那些相同的行动者也可以是在数据共享布置中接收数据的行动者。例如,政府机构可能会与研究新药的制药公司共享健康数据,或者制药公司可能会与政府或公共卫生研究人员共享其疫苗分发数据。这些协议可以是单向的,其中一个参与者与另一方共享数据以接收特定的见解,也可以是互惠的,其中每个参与者接收数据。最后,数据共享模型取决于谁接收和存储数据,例如数据所有者或中介机构。这些因素是数据共享模型之间的核心差异。 以下部分探讨和评估了六种不同的模型,说明了它们各自的优势和劣势,并为美国决策者提供了有关如何在全国范围内最佳实施和增加数据共享的建议。 数据共享伙伴关系 数据共享伙伴关系涉及学术机构,研究组织,行业合作伙伴,个人消费者和政府机构等不同实体之间的协作努力,以共享和交换数据,以进行研究,合作新产品和加强基于证据的决策。这些伙伴关系旨在利用集体的专业知识、资源和数据。 这种类型的数据共享安排通常需要明确的协议来定义数据访问和使用权利以及知识产权(IP)的所有权,但具体特征可能会根据所涉及的数据类型和协作的性质而有所不同。 例如,医疗保健是医院、研究机构和医疗提供商等组织之间的合作关系可以帮助在医疗保健研究中利用数据分析和人工智能(AI),最终改善患者预后并优化服务交付的一个领域。323andMe以患者为中心的研究门户网站允许客户自愿将其遗传和自我报告的健康信息贡献给研究。4基因组学和生物技术公司23andMe与其客户之间的这种合作关系可以促进对各种疾病和特征的科学理解。研究人员将遗传数据联系起来,以研究诸如祖先,特征甚至罕见疾病等主题。5 数据共享伙伴关系对所有伙伴都有许多好处。对于研究人员来说,这种伙伴关系提供了比他们自己拥有的更多的分析数据,从而提供了更多的见解。这些伙伴关系还有助于克服单一数据集的局限性,这些数据集对于某些类型的统计分析可能太小,或者缺少调查所需的相关信息。在数据通常高度敏感的领域,如医疗保健,研究伙伴关系保护患者信息的敏感性,同时允许机构合作和汇总见解。这种伙伴关系还意味着减少数据重复,节省研究人员的时间和金钱。 同时,这种数据共享模式有一些限制。例如,当数据共享伙伴关系在两个竞争机构之间时,往往存在知识产权和竞争问题。同样,这种合作可能涉及不同质量和标准的数据集。 在发生任何共享之前,必须解决这些问题。 建议:促进与示范合同的数据共享伙伴关系。 两个实体之间的伙伴关系是数据共享的最基本模式,应得到决策者的支持。当涉及到数据共享合作伙伴关系时,每次有新的合作机会出现时,组织通常都会被迫重新发明轮子,并通过新的合同和谈判过程。联邦机构的政策制定者应减轻这一障碍,并通过开发组织可以采用和定制的合同模板来促进更多的数据共享伙伴关系(例如Procedre、数据类型、保留条款、知识产权等。). 新加坡等一些国家已经为数据共享伙伴关系提供了这种指导,并因此加快了研究和创新。6此外,联邦贸易委员会和 在使用这些示范合伙协议时,司法应提供有关遵守反托拉斯共谋规则的指导。 数据联盟 数据联盟允许组织为组织的利益汇集数据。7数据共享伙伴关系涉及双边协议,而数据联盟构成了一系列互惠共享协议。这些联盟可以存在以解决特定问题或用于一般和持续的信息交流。例如,沿河的一组城镇可能组成一个数据联盟来共享水中细菌的数据,或者一组医院可能组成一个数据联盟来共享特定罕见疾病的数据。同样,在线市场可能会形成一个数据联盟,以交换有关销售假冒产品的第三方卖家的数据 。8 数据联盟长期以来一直在填补数据空白方面发挥作用。例如,临床研究数据共享联盟的存在是为了通过共享整个临床开发过程中收集的数据来加速药物发现。9该联盟的成员包括生物制药公司,学术机构,非营利组织和患者倡导团体,它们聚集在全球各地,以提供对临床数据的集体访问并帮助研究人群多样化。数据联盟效用的另一个例子是宾夕法尼亚大学的语言数据联盟(LDC)。10这个由大学、图书馆、公司和政府实验室组成的小组成立于1992年,“旨在解决语言技术研究和开发面临的严重数据短缺问题。”最不发达国家的成员共享语言资源,如语音和文本数据库 、词典和其他资源,这些资源在训练大型语言模型中发挥着重要作用。 数据联盟的主要好处是它促进了更多的数据共享和聚合。只有给定联盟的成员才能访问数据,联盟成员通常必须为该组做出贡献。 最终,数据联盟将产生临界点效应,在这种效应中,加入集体比退出更有益。一旦达到临界点,联盟将确保持续的数据共享,并通常促进支持数据共享的世界。 数据联盟确实有一些缺点。在达到临界质量和临界点效应发生之前,一些组织可能会更好地囤积他们的数据供他们独家使用。这意味着联盟需要在努力的早期考虑加入激励措施。 建议:调查并确定跨部门数据联盟的机会。 联邦机构应对特定部门内存在的数据联盟进行分类,并促进为关键领域创建新的跨部门联盟。数据联盟可以为政策制定者提供更广泛的访问 以及更多样化的数据来源,包括来自其他机构和私营部门的数据来源。例如,联邦紧急事务管理局等跨学科机构的政策制定者应建立财团,将环境保护局等机构的相关利益相关者聚集在一起,住房和城市发展部以及私营部门组织协调正在进行的数据共享,并确保更加协调和有效的救灾。 数据信任 数据信任是一种数据治理框架,可代表个人和组织出于约定的目的管理、保护和共享数据。11尽管数据信任的定义可能存在冲突,但这种数据共享机制的特征保持不变。数据信任的核心是将数据权利委托给独立的中介机构,即受托人,该机构与研究人员,私营公司和公共部门机构进行数据共享决策,使数据主体受益。12数据信任为管理和使用聚合数据提供了结构和规则,并有助于为公共利益释放其价值。 数据信任是一种新兴模式,在全球范围内试行了许多变体。英国对医疗保健应用的数据信任模型特别感兴趣。例如,UKBiobank管理着超过500,000个人的基因组数据,这些人捐赠了数据用于研究。13这些数据是匿名的,并提供给世界各地的研究人员,以加速科学发现并改善公共卫生。Bioba充当此数据的受托人-换句话说,它有受托责任为英国公众的利益持有和共享数据。此外,英国国民健康服务(NHS )正在开发NHS联邦数据平台,以将所有健康数据(包括个人健康记录,临床数据和公共数据)汇总在一个中央平台中,个人和私营部门都可以访问。14 数据信任有许多好处,包括增加数据的社会效益,简化流程,以及通过实现二次使用从数据中释放更多价值。总体而言,数据信托是多个实体可以参与和访问的机构 ,从而促进持续的透明度和问责制以及数据重用的一致规则。因此,政府可以根据一套明确的协议获取关键领域的私营部门数据,反之亦然。在人工智能的背景下,它们可以促进对多样化和高质量数据集的访问,使人工智能开发人员能够在更全面和有代表性的数据上训练和验证模型。总的来说,数据信任为负责任地管理数据提供了一个可信的框架。 与此同时,数据信任也带来了一些挑战。鉴于信任所持有的数据的经常敏感的性质,数据信任可能难以实现,并且有时遇到阻力。在数据共享中缺乏社会信任可能会导致项目被搁置甚至取消,例如在IBloom的情况下,这是一项拟议的教育数据信任 ,遭到了利益相关者的强烈抵制,以至于未能启动。15此外,数据信任可能是资源密集型的,需要大量的财务、技术和人力资源。最后,数据信托可能与专注于维护个人权利的数据保护法(这在许多西方国家很常见)背道而驰,因为它们专注于集体赋权和利益。在严格的数据隐私法的背景下,这种集体模型可能很难实现。 建议:实施特定部门的数据信任。 在美国有一些特定的领域,例如医疗保健,交通,教育和环境研究,在这些领域中,建立特定部门的数据信托可以为社会带来重大利益。这些信托可以汇集相关部门的利益相关者,汇集和管理数据,促进研究,改善服务提供,并推动特定领域的社会成果 。 整合特定部门的数据资产将有助于全面了解特定部门的挑战、趋势和机遇。联邦机构 ,如环境保护局、卫生与人类服务部和教育部,应建立计划,在各自领域创建和运营数据信托。通过提供指导和。 在能力建设支持下,联邦机构可以帮助数据信托机构浏览特定于每个行业的法律和监管框架。 数据合作社 数据合作社是一种自下而上的数据治理形式,个人自愿将数据集中起来,与私营公司和其他实体集体谈判。数据合作社的成员建立有关数据共享的规则,旨在使小组中的成员受益。这些合作社通常旨在将成员的集体数据货币化,并由数据共享协议产生的收入提供资金。数据合作社类似于农业,住房和消费信贷合作社,该组织由其成员拥有并共同管理,他们分享利益。 例如,驾驶员座椅合作社汇集了零工经济工作者的智能手机和移动数据,使他们能够优化收入。16合作通过一个应用程序发挥作用,该应用程序链接了单个驾驶员的数据和分析的多个来源,然后将该数据汇总为集体的所有成员。驾驶员座椅还将这些团体见解出售给地方政府,寻找数据以帮助交通规划决策并在成员之间分配红利。这种类型的数据共享 安排的主要目的是使工人能够将其数据用作集体谈判机制。数据合作社也存在于农业部门,作为赋予农民以共享知识的一种手段。国家农业生产者数据合作社和种植者信息服务合作社等合作社在国家一级运作,汇集生产者、小企业、公立大学和非营利组织的数据,为农民和种植者提供农业数据,帮助提高其业务的可持续性。17 一个挑战是数据合作社的经济学并不总是有效的。18每个单独的数据贡献者的价值可能相对较小,但是如果没有许多数据持有者的广泛参与,合作社将失败。因此,数据合作社必须仔细选择如何补偿成员-太少,没有足够的贡献者加入;太多,这是不可持续的。 数据合作社是一个相对新颖的事物,应用可能有限。然