CallforevidenceontheDelegated 中提供的数据访问法规 《数字服务法》 总结与分析 阿姆斯特丹大学PaddyLeerssen博士1 I.Introduction 本报告总结和分析了收到的反馈意见 欧盟委员会在授权条例的背景下呼吁提供证据 《数字服务法》中提供的数据访问。首先简要回顾统计数据关于咨询受访者,然后详细评估 他们的回应。它以从作品中选择的补充读数列表结束在咨询回复中引用。 二.谁回复了要求提供证据的电话? 要求提供证据的时间为2023年4月25日至2023年5月31日。总共有133个有效答复已收到。 每个类别的受访者细分如下: 1作者感谢Elined'Hoore的研究帮助。 资料来源:欧洲委员会。2 受访者中最常见的国家是美国(29),斯洛伐克 (22),德国(15),比利时(11)和荷兰(7)。3 三、要求提供证据的主要结论 本报告的分析将围绕呼吁证据,全文转载如下: 1.数据访问需求 A.哪些类型的数据、元数据、数据治理文档和其他信息关于数据及其使用方式对DSC的监控和 评估合规性,并为经过审查的研究人员进行相关研究系统性风险和缓解措施? B.DSC和经过审查的研究人员可能会进行什么样的分析和研究监测和评估合规性和进行相关研究的目的 系统性风险和缓解措施? 2.数据访问应用程序和程序 A.成员国的数字服务协调员(DSC)将在 评估研究人员的申请,他们将充当平台的中介。 2《数字服务法》中规定的数据访问授权条例。 3完整的概述可以在EC网站上找到:有关数据访问的委托法规数字服务法案。 申请流程在实践中应该如何设计?审查流程如何确保研究人员和平台提供商之间的有效交流? B.第40(8)条详尽地定义了审查研究人员的标准。确保对DSC的评估,同时仍考虑到具体情况每个请求? C.哪些附加条款或规范可能有助于平衡新数据 访问权限以及对用户和企业权限的保护,例如与数据相关的权限保护,机密信息,包括商业秘密,和安全? D.可以采取何种保障措施来确保根据第40条收集的数据用于设想的目的,并尽量减少滥用的风险? E.第40条第13款引入了独立咨询机制的可能性 支持数据访问请求的管理和研究人员的审查。什么会这种机制的附加值是什么? 3.数据访问格式和研究人员的参与 A.数据访问接口可以考虑哪些技术规范,需要 考虑到安全性、数据保护、易用性、可访问性和响应性(例如API、数据存储库和其他机器可读的数据交换格式)? B.什么样的能力建设措施可以考虑为研究界利用第40条提供的机会? C.为DSCs建立一种通用和精确的语言是否可取和可行, 经过审查的研究人员、VLOP和VLOSE,用于通信数据访问时,例如,通过制定标准数据字典和/或业务词汇表?如何 这个实施? 4.公开数据的获取 A.不仅经过审查的研究人员将有更多的机会访问数据,所有符合第40(12)条规定条件的研究人员将能够获得直接访问公开可用的数据。可以采用哪些流程和机制 在您的视图中促进这种访问? 在继续之前,还需要对引用进行简要说明。首先,引用相关答复并不是所有相关答复的详尽无遗,而是 as指示性and说明性的。其次,为了一致性和清晰度,回应引用回应表格中列出的个人或组织, 尽管应该指出的是,回应是不一定代表的 这里命名的组织。特别是对于大学,回应可能来自组织内的个别研究人员或研究小组,不得 必须代表整个组织。更多详细信息 在每个响应的作者身份可以通过插入在每个脚注。 1.数据访问需求 A.哪些类型的数据、元数据、数据治理文档和其他有关数据及其使用方式的信息对DSC的 监测和评估合规性和审查研究人员的目的进行与系统性风险和缓解措施相关的研究? 答复中提到了许多不同类别的数据,其中有几个主题出现: ●与用户、帐户和页面相关的数据,例如:简档信息;组会员资格;朋友/追随者关系网络;个人层面的内容曝光和参与历史;相关的概况和标签; ●与内容相关的数据,例如,个人帖子内容;交互元数据,例如作为评论、参与、印象率;相关的标签和标签; 货币化状况; ●与内容建议相关的数据,例如,有关的技术文档算法排名系统,包括用于个性化的数据 推荐;推荐内容结果数据;用户交互 使用推荐的内容;算法排名控件的使用数据和设置; ●与广告定位和分析相关的数据,例如,有关的技术文档 算法目标系统,包括用于配置文件的用户数据 类型/细分市场;广告结果和付款数据;使用情况广告定位控制和设置的数据;以及 ●与内容审核和治理相关的数据,例如技术关于(算法)审核系统和流程的文档;档案 或存储库记录审核内容和/或帐户;项目级别,关于适度行动、上诉率、效果的分类数据。4 大多数受访者的数据需要s属于这些类别中的一个或多个,尽管它们是概念化为不同的分组和不同的术语。例如, 学术研究员EDMO平台对研究员工作组的成员 数据访问(以下简称:“EDMO研究人员”)是指post-relateddata,用户相关dataand内容审核数据,而Weizenbaum研究所指的是通信 data,用户帐户(元)数据,以及数据治理文档.5可比视图与包括阿姆斯特丹传播学院在内的其他受访者共享 Research(ASCoR),Arcom,InstituteforStrategicDialogue(ISD),CentreforDemocracy& 4StiftungNeueVerantwortunge.V.(SNV)是指Twitter的合规性API,它“区分不同的状态,如“已删除”(意味着推文或用户帐户已被删除)“已停用” (表示已停用推文或用户帐户)“scrub_geo”(表示地理信息与推文或用户关联的帐户已被删除),“受保护”(表示 tweetoriginatedhasbecomeprivate)and“suspened”(meanstheaccountfromwhichthetweetoriginated 已被暂停)。“。这些方面的更详细的信息可能还包括其他适度行动 (例如,事实检查,标签和插页,降级和除名)以及其他元数据,例如审核理由、决策性质、上诉状态等。 5EDMO平台到研究人员数据访问工作组的学术研究人员成员。WeizenbaumInstitutefortheNetworkedSocietyBerlin. 技术(CDT),都柏林城市大学(DCU)和斯洛伐克媒体委员会服务。6 应该清楚的是,上述类别不是完全分开的,而是 相互关联。例如,有关内容的信息recommendations或放大将包括的类型内容也被推荐参与模式从 用户与该内容进行交互,以及moderation降级等行动针对该内容颁布。同样,有关内容或帐户的信息也可能包括审核信息,例如内容是否已被非货币化或 事实核查,以及用户参与历史。研究的重点将有所不同主题、项目和方法,下面将在1B下进一步讨论。 研究人员强调需要历史,纵向访问–允许 随着时间的推移,研究人员追踪模式–但也实时访问.7为了实现这一点,在研究人员广泛支持需要通过API自动访问. 例如,EDMO研究人员建议开发实时和历史 用于后期相关数据、用户相关数据和内容审核的API。8纽约大学中心为社会媒体和政治和都柏林城市大学推荐的发展 多模态数据集,跨越不同的平台生态系统,因此需要某种程度的标准化。9 除了API,还提出了其他公开方法。 请求可以通过简单数据库(CSV格式)甚至文本文件来处理。对于特别是敏感的查询,受访者提到了各种安全访问格式。 在这个空间中提到的方法包括洁净室(虚拟或物理)和 虚拟实验室环境、数据存储库、沙箱和远程查询执行。10Few在这些概念上提交了详细的技术标准,OpenMined指出业界尚未就此类解决方案达成一致的术语。11What 然而,这些技术通常有一个共同点,那就是它们允许研究人员从第三方数据集获取见解,而无需将原始数据复制到本地 机器。12几位研究人员提到的一个例子是潜在的有价值的 蓝图是Facebook的开放研究和透明度(FORT)环境,以及 6AmsterdamSchoolofCommunicationResearch(ASCoR).Arcom.InstituteforStrategicDialogue.Centre 民主与技术,欧洲办公室。都柏林城市大学未来媒体,民主与民主研究所 社会(DCUFuJo)-都柏林城市大学的反欺凌中心(ABC)-EDMO爱尔兰中心服务(斯洛伐克)。 7例如,斯坦福互联网天文台(“可以考虑两种操作模式:历史和 real-time.Historicalquerieswouldallowsearchsbackintime,andreal-timewouldbeanon-stopstreamof 事件匹配特定的规则(如Twitter的PowerTrack)。要解决的一个问题是如何执行研究以符合其他欧盟法规的方式删除的数据。总的来说, Twitter以前的API产品是一个很好的模型,可以为未来的工作奠定基础,尽管其他平台更专注在多媒体内容上可以提供额外的内容,例如视频内容的音轨标识符或 转录。“) 8EDMO平台到研究人员数据访问工作组的学术研究人员成员。 9为了可比性,标准化也得到了其他各种受访者的支持,包括 StiftungNeueVerantwortunge.V.(SNV)。这个问题也与共同定义的发展有关或词汇,这将在第3.C节进一步讨论 10OpenMined(还引用了皇家学会,联合国和联合国的相关政策报告州政府)。 11Ibid.12Ibid. 现在已经不存在的JupyterLab.13这些安全方法也可能更复杂、成本更高也限制了研究目的。因此,大多数研究人员建议 分层接入系统,使用传统的API访问处理大多数请求和限制最严格的访问方法只保留给最敏感的请求。14 还可以通过增强隐私来减轻公开数据的敏感性 技术(PET)。15至少,匿名化/假名化被认可为 必要的保障措施。更进一步,一些缔约方还提出了更多限制性的方法如差分隐私和k-匿名性。这些问题在各节下讨论 2.B和2.C如下。 在这些问题上,研究人员反复强调 of技术文档来自VLOP和VLOSE的提供者(以下简称 tocollectlyas'VLOs')providingcontexttothedatawhichtheydisclos.Researchers 需要技术文档,以便有效利用API和其他 自动化工具,以及对VLO提供的数据的理解。 文档可以解决除其他外如何收集和预处理数据(例如 抽样、匿名化方法);数据集中的相关变量;这些变量如何定义和计算;帮助用户的代码示例;以及 联系研究人员。16 除了技术文档外,一些受访者对以下方面表示了更普遍的兴趣 内部文档平台,更广泛地在促进定性 研究方法。例如,此类内部文档可能包括政策与内容审核决策过程相关;工作人员指示或培训;对算法系统或用户控制性能的内部研究 功能;或广告和货币化支付(例如,往返于已知来源的 13StanfordInternetObservatory.WeizenbaumInstitutefortheNetworkedSocietyBerlin.NYU'sCenterforSocial 媒体和政治(“在FORT下,研究人员可以访问沙盒环境,在那里他们可以搜索,研究人员可以导出他们发现的结果,但不能导出任何实际数据。 此工具可用作沙盒环境的模型,可为以下环境提供多平台数据研究人员“)。 14e.WeizenbaumInstitutefortheNetworkedSocietyBerlin.AcademicResearcherMembersoftheEDMO 平台到研究人员数据访问工作组。Woodet撰写的书籍章节,由TheDataCo- Ops项目提供了一些关于差分上下文中不同请求的相对敏感性的规则 隐私。参见:Wood,A.,Altman,M.,Nissim,K.,Vadhan,S.(2020),“使用差分隐私设计访问” in:Shawn,