现状报告:研究人员机制访问在线平台数据 发布日期:4月5日th, 学术和公民社会对著名在线平台的研究已成为重要途径了解信息环境及其对我们社会的影响。跨 全球已经利用应用程序编程接口(API)和网络爬虫来 收集在线平台上的公共用户生成内容和广告内容以进行研究社会问题,从技术促进的基于性别的暴力到 关于儿童和青年心理健康的媒体。然而,平台数据的变化获取机制和政策给关键研究带来了不确定性和困难 项目。 美国和欧盟共同致力于推进数据 研究人员的访问,符合从在线访问数据的高级原则 在欧盟-美国贸易和技术理事会(TTC)上宣布的研究人员平台2023年5月部长级会议。1自TTC推出以来,《欧盟数字服务法》(DSA)已经生效,要求超大型在线平台(VLOP)和 超大型在线搜索引擎(VLOSE)提高其透明度 服务。DSA包括有关透明度报告、条款和条件的规定,以及解释内容审核决定。其中,两项规定提供了重要的 访问平台上的公开内容: DSA第40.12条要求VLOP/VLOSE的提供者提供学术和民事社会研究人员的数据“可以在他们的在线界面上公开访问”。 DSA第39条要求VLOP/VLOSE的提供者维护公共存储库广告。 与新的研究人员访问机制相关的公告标志着一个重要的更好地理解信息环境的发展和机遇。 本状态报告总结了欧洲和/或 美国研究人员今天遵循VLOP和VLOSE的部分措施与DSA。该报告旨在展示现有的访问方式并鼓励使用这些机制来研究在线平台的设计和决策对 社会。审查的机制清单包括在附录中。 本技术报告旨在促进在技术 研讨会“开放平台的黑匣子”和“从数据到解决方案技术促进的基于性别的暴力“由美国政府举行 和欧盟委员会在2024年4月4日鲁汶举行的TTC部长级会议上。 本报告及其附件的内容基于 服务提供商,并以美国和欧盟研究人员开展的工作为基础。2分析本文件中提出的不一定代表欧洲的官方立场 委员会或美国政府。 1公开获取数据的机制 平台正在采取不同的方法为研究人员提供公共访问内容,包括应用程序编程接口(API)和刮擦权限公开内容。 关于每个平台机制中可用的数据的详细程度各不相同。一些平台包括数据字典和文档,以配合他们的公众 内容访问机制,其他人简单地说他们的访问机制使“公开数据“可用。 许多平台要求研究人员在收到申请之前完成申请访问其公共内容访问机制。应用程序需要研究人员分享项目细节,如研究问题和时间表以及数据 保护计划。 一些平台已经明确表示,他们将授予外部研究人员访问欧洲联盟。 平台通常要求研究人员接受条款,其中包括与 所需的数据刷新、发布前审核、开放访问发布和数据管理。 1.1访问方法 平台正在采取不同的方法为研究人员提供公共内容,此处称为公共内容访问机制(这些在 附录)。大多数平台要求研究人员在访问之前填写申请表这些机制。在某些情况下,应用程序授予研究人员免费访问 平台已经存在的商业API(例如:YouTube研究人员计划,X (以前称为Twitter)API和RedditAPI),而其他平台已经推出了新的API专门针对研究人员(例如:TikTokResearchAPI,Meta内容库和API)。3LinkedIn研究人员访问和Bing合格研究人员计划应用程序建议 一旦研究人员申请,他们可能会通过API“酌情”接收数据。4此外,一些平台选择允许研究人员抓取或编写代码来抓取 在线平台的Web界面并整理数据。例如,GoogleRequestRecords 允许研究人员申请许可参与谷歌购物的“有限抓取”, GooglePlay和YouTube内容。5维基百科和Bookings.com在其关于人们何时可以为非商业平台刮擦的服务条款 目的(无需申请)。6 1.2数据可用性 每个公共内容机制中可用的数据因领域和类型而异 用户生成的内容。跨平台和搜索引擎可用的公共数据各不相同在内容、个人数据量和结构方面,还取决于具体情况 对于通过无限制抓取提供访问的机制(例如, Booking.com,Wikipedia)网页表面上的任何信息都可以由网络爬虫检索可用。通过有限抓取或API提供的数据是 受平台提供的内容约束。一些平台包括公共文档来附带描述可用内容的机制(请参见 附录)。到目前为止,平台正在对包含内容做出不同的选择。对于例如,某些平台可能包括有关页面或频道名称更改的数据,或者与帖子相关的主题类别,而其他人可能不会。 关于公共数据主体的地理位置或公民身份 内容机制,一些机制指出数据将来自周围的平台用户 世界。例如,YouTube研究计划指出,研究人员可以访问 “整个公共YouTube语料库”。7LinkedIn研究人员访问权限和Bing资格研究人员计划在他们的条款中并不明确,但包括对他们的研究人员的问题访问应用程序,例如“您希望在哪个国家/地区存储所请求的公共 数据?“伴随着包括每个国家在内的选择清单,建议研究人员可以申请全球来源的公共内容。8同样,元内容库和API的 应用程序包括“感兴趣的研究区域”和“主要研究”的下拉菜单感兴趣的国家”。9 1.3费率限制/配额 一些平台决定了研究人员可以通过速率限制访问的公共数据量 和配额。例如,TikTokResearchAPI的每日限制为“每天1000个请求” 在他们的API中,每天允许多达100,000条记录。10YouTube研究人员API也设置 每天10,000个单位的配额(单位根据数据类型而有所不同),但研究人员可以申请配额延期。11一些平台,如Reddit和GoogleRequestRecords说明 平台的“自行决定”可能会有限制。12 1.4访问条件 如上所述,许多平台都是基于应用程序来调节访问 过程。虽然每个应用程序都有一组唯一的问题,但它们通常会询问研究人员和研究机构,研究方案和数据需求,描述 研究经费(独立性证明)、数据保护措施描述和断言研究人员同意使用条款和隐私政策。除了 在元内容库和API中,关于哪些研究人员获取数据访问的决定下降平台。Meta选择与大学间政治联盟合作 和社会研究(ICPSR)在密歇根大学审查申请和协助 加入元内容库和API。13在这种情况下,ICPSR将通知Meta和 applicantiftheapplicationisapproved.However,accesstoMeta'sContentLibraryandAPIis 仍然取决于履行既适用于个人的合同义务 研究员和研究员的附属机构。14更深入地了解应用程序问题和既定标准提供了对可能来自这些研究的见解 机制。 1.4.1研究人员的地理位置 平台正在根据以下条件确定研究人员/研究组织的资格 地理位置。例如,Meta的内容库和API可供研究人员使用全球,15而TikTok的研究API可供欧盟和美国的研究人员使用16GoogleRequestRecords说明“此程序目前仅适用于 研究人员设在欧盟(EU),未来可能会扩大。“17 附录中列出的许多程序都没有明确指出 研究人员/研究机构必须找到位置,而是说他们的应用程序将被视为“根据数字服务法案(DSA)”。18AliExpressOpen 研究与透明度,LinkedIn研究员访问,YouTube研究员计划, Pinterest研究人员的摄入量和Bing合格研究计划包括一个关于 他们的申请要求研究人员的国家,表明他们可以接受申请来自世界各地。19 1.4.2隶属关系和资格 大多数机制都允许来自一系列非商业机构的研究人员申请访问权限。一些申请只要求提供申请人组织的名称 (例如:LinkedInResearcherAccess、AliExpressOpenResearch&Transparency、Bing 合格的研究计划,SnapResearcherDataAccess)。20Google请求记录接受与“非营利机构、组织和 协会“及其申请表区分了a)学术机构, b)非营利组织/慈善机构/非政府组织,c)政府附属研究机构,d) 独立的研究机构,以及e)“其他”。21X(以前称为Twitter)API应用程序同样,要求研究人员“描述你组织的隶属关系”,明确提到 非政府组织作为一个示例小组,并进一步要求提供有关该组织“不为- 利润状况”。22Meta的内容库和API接受研究人员的应用程序 “隶属于学术机构或其他非大学组织,研究所或社会作为非营利实体运作,并将科学或公共利益研究作为 主要目的或核心活动。“23TikTokResearchAPI和YouTube研究人员计划专注于学术机构的应用程序,但YouTube研究人员计划补充说 “合格机构”还可以包括“法律要求的任何政府或其他机构”。或监管以访问程序数据。“24 这些应用程序在他们需要多少关于研究人员的信息方面也有所不同资格和经验。某些应用程序不包括有关 研究员的专业背景(示例:SnapResearcherDataAccess,Reddit 研究人员访问请求,Pinterest研究人员输入),而必应合格研究 程序和LinkedIn研究人员访问请求链接到研究人员的LinkedIn个人资料。25速卖通开放研究与透明度要求提供简历和过去出版物列表,TikTokResearchAPI要求申请人“提供您过去出版物的链接或参加 会议”。26同样,Meta的内容库和API应用程序需要领导 研究人员提供编码或查询语言技能的证据,建议GitHub存储库和“最多3个引用或您的研究示例,以证明您的使用敏感数据的经验。“27 1.4.3资金/独立性 为了确保项目是为了研究而不是商业目的,应用 includequestionsaboutfundingandconflictsofinterest.Severalapplicationsexplicitallyask 谁在资助这项研究(例如:AliExpressOpenResearch&Transparency,谷歌请求记录,元内容库,SnapResearcherDataAccess,LinkedInResearcher Access,Pinterest研究人员Intake)。28此外,许多问题包括沿线 “您和您的组织是否独立于商业利益?否则,请 指定任何这样的兴趣。“29GoogleRequestRecords要求研究人员“提供证明您/您的组织独立于商业利益的证据“,并提供 证据清单,如组织章程或免税证明的副本。30X (以前称为Twitter)API应用程序明确要求与 组织的董事会成员,组织的股东,或赠款接受者。31The MetaResearchTools的产品条款要求研究人员“及时向Meta披露任何目前存在或可能出现的利益冲突 与研究工具或产品术语的联系。“32TikTokResearchAPI明确条款要求研究人员不与平台有任何联系,包括通过其 母公司或子公司,例如作为实习生、自由职业者、供应商或顾问。33 1.4.4研究提案 所有的应用程序都要求研究人员描述他们的研究目的,但详细程度 various.Theapplicationsaskresearchersaboutthetopicareastheyarecovering.Some 平台包括一个是/否的问题,即“您计划的研究活动将是为第40条第(4)款规定的目的而进行的,以及 研究也将有助于这些目的。"34其他人问一个开放式的问题关于研究人员的主题如何与DSA定义的系统性风险相关 (示例:Bing合格研究员计划,LinkedIn研究员访问,X(以前为 Twitter)API)。35TikTokResearchAPI和GoogleRequestRecords要求申请人选择他们的建议属于哪个“研究类别”,而这些类别则无法涵盖系统性 风险。36SnapResearcherDataAccess和RedditResearcherAccess请求应用程序对研究主题描述有一个开放式问题,不包括请求 将项目与系统性风险联系起来。37 几乎每个应用程序都要求研究人员描述他们的研究设计和