您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:缺失的证据:追踪世界各地的学术数据使用情况(英) - 发现报告
当前位置:首页/行业研究/报告详情/

缺失的证据:追踪世界各地的学术数据使用情况(英)

医药生物2023-12-31世界银行罗***
AI智能总结
查看更多
缺失的证据:追踪世界各地的学术数据使用情况(英)

政策研究工作论文 10673 缺失证据 全球范围内学术数据使用的追踪 BrianStacyLucasKitzmllerXiaoyuWangDanielGerszonMahlerUmarSerajuddin 公共公披共公露披共公授露披共权授露披权授 发展经济学发展数据组2024年1月 可验证的复制包存储在该篇论文的网址:httpreproducibilityworldbankorg,点击即可直接访问。 此处 政策研究工作论文10673 摘要 关于一个国家开展数据驱动的研宄对于制定以证据为基础的公共政策至关重要。然而,关于数据驱动研宄存在的不足及其扩展途径所知甚少。本文提出了一种通过研究领域所属国家追踪学术数据使用的方灘,将自然语言处理应用于开放获取的研宄论文 。该模型预测生成的关于使用数据的文章数量估计与人工编码方法高度相关,相关系数为099。分析超过100万篇学术文章后,论文发现有关一个国家的文章数量与以下因素强相关: 与人均国内生产总值、人口以及其国家统计系统质量相关。该论文确定了与数据驱动研究高度相关的数据来源,并发现次国家级数据的可获取性似乎特别重要。最后,该论文根据各国是否最有可能从增加数据的供给或需求中受益将国家分为不同的组别 。研究发现,前者适用于许多低收入和中等收入国家,而后者适用于许多中高收入和高收入国家。 这篇论文是发展数据小组、发展经济学部门的产品。它是世界范围内更大规模努力的一部分。银行将提供对其研究的开放访问,并为全球发展政策讨论做出贡献。 政策研究工作论文也发布在httpwwwworldbankorgprwp。作者信息可能如下所示: 联系邮箱:bstacyworldbankorg。本论文的验证可重复性包可在httpreproducibility获取。worldbankorg点击此处直接访问。 《政策研究工作论文系列》传播正在进行中的研究成果,以鼓励关于发展的思想交流。问题。本系列的一个目标是快速发布研究结果,即使报告的展示并不完全完善。论文包含作者名称应相应引用。本文中表述的发现、解释和结论完全是作者自己的。 作者的观点。它们不一定代表国际复兴开发银行世界银行的观点。其附属机构,或世界银行执行董事及其代表的国家政府。 由研究支持团队生产 缺失证据:全球范围内学术数据使用追踪 BrianStacyLucasKitzmllerXiaoyuWangDanielGerszonMahlerandUmarrajuddin Se1 关键词:数据,学术界,研究,自然语言处理。JEL代码:C45C52O30 1StacyWangMahler和Serajuddin属于世界银行开发数据组。LucasKitzmller在欧洲银行重建与发展(EBRD)完成此项工作。通信作者:BrianStacy(bstacyworldbankorg我们感谢Jolliffe教授、Das先生、Dupriez先生和Brock先生评论。我们承认得到了世界银行研究支持基金(P178728)财务支持。本文中表达研究发现、解释和结论完全是作者观点。它们并不一定代表世界银行及其附属机构或世界银行执行董事及其代表政府观点。所表达观点是作者观点,并不一定代表欧洲复兴开发银行(EBRD)观点。 1简介 在近几十年里,数据产生数量爆炸式增长,为政策改善人们生活创造了无限机遇(世界银行2021年)。尽管数据在原始形式下可能很有价值,但数据全部价值仅在它们被分析以产生洞察力时才得以实现,而这些洞察力被转化为公共政策或提高问责制。 研究人员在这方面发挥着至关重要作用。许多研究人员投入大量时间来消化数据,利用数据创造新知识,并通过沟通这些知识来影响公共讨论和公共政策。有众多例子表明,基于数据分析对人们生活产生了真实且重要影响(Jolliffe等,2023)。一个来自巴西例子明确考察了研究人员影响政策结果能力。在那里,来自2150个市镇证据显示,向市镇长通报关于一项简单政策改变有效性研究结果,将他们市镇实施该政策可能性提高了10个百分点(Hjort等 ,2021)。 没有研究,存在数据回馈社会风险降低,以及改善生活政策无法实现风险。然而,关于哪里存在缺失数据驱动证据以及政府如何最好地刺激当地决策者证据基础,知之甚少。本文试图通过回答两个问题来填补这些空白:(1)哪些国家是使用数据研究论文主题?(2)国家如何增加其国家证据基础?我们关注数据驱动研发,因为数据在政策制定中重要性日益增加 ,以及需要增加数据供需具体政策,例如增强统计能力和提高数据素养。 为了回答第一个问题,我们引入了一种基于1000000篇涉及216个国家及众多学术领域英语研究文章新型方法,以测量研究中数据使用。这些文章由SemanticScholarOpenResearchCorpuss2orc提供支持,该系统已全球范围内数字化数百万篇研究论文,并使其原始文本可通过API(Lo等,2020年)获取。借助AmazonMturk工作人员帮助,我们手动对其中900篇文章进行编码,以确定它们是否使用了数据。在此基础上,我们训练了一个自然语言模型来预测Mturk工作人员编码(Devlin等人,2018年)。该模型达到了87样本外准确率,并且当文章汇聚到国家层面时,该模型与Mturk工作人员分类论文数之间相关系数高达099。随后,我们将此模型应用于2000年至2020年s2orc数据库中1百万篇学术论文。无论研究者可能身处何处,模型都可以估算一个国家数据驱动研究量。无一个国家公民进行数据驱动研究数量。我们 认为,前者是理解国家决策者可获得证据基础相关数量。 我们发现,数据驱动研究与人均GDP和人口密切相关,这两者共同解释了各国之间约75差异性。尽管仅占世界人口约15,高收入国家却是几乎所有使用数据论文主题,占约50 ,而占世界人口约10低收入国家,在仅占约5使用数据文章中。 为了回答第二个问题国家如何增加其国家证据基础我们首先确立一个国家统计能力在控制了人口和GDP之后,仍然可以预测数据研究,并且文章未使用数据(我们将此作为该国普遍研究兴趣替代指标)。为了了解一个国家统计能力中哪一部分对于增加数据驱动研发最重要,我们探讨了与学术数据使用最相关数据来源。我们发现,第一级行政级别地理空间数据可用性与数据使用量增加11相关,过去十年人口普查与数据使用量增加03相关,过去十年两次或以上进行劳动力(农业)调查与数据使用量增加04(02)相关。尽管我们无法建立这些因果联系,但政府可以提供具体数据产品,以可能增加其可利用证据基础。 增加数据供应是各国提高受数据驱动研究影响数量方法之一,另一种方法是增加对其数据需求。这对那些已经在相关数据产品上进行投资但受数据驱动研究影响相对较少国家尤为重要 。这些是现有数据未被充分利用情况,在这些情况下,可能有必要使现有数据更容易为研究人员获取,并可能在国家中提高数据素养。为了探讨增加数据供应和数据需求之间区别,并在Porteous2020基础上进行构建,我们将国家分为四组:沙漠数据和数据供应需求都相对较少。沼泽拥有大量数据供应但数据需求有限,绿洲对数据有高度需求但数据供应不足, 并且湖泊拥有高数据需求和高度数据供应。近三分之二中低收入国家和撒哈拉以南非洲国家是绿洲,这表明这些国家从他们数据供应中获取了相对较大证据,并且他们对需求不足 问题相对较少,但他们可以从增加研究人员可用数据中受益。相比之下,近一半欧洲国家是数据沼泽,这表明优先考虑增加现有数据利用率。 先前研究指出了各国在经济研究成果产出方面差距,并指出富裕国家成为更多经济研究主题。例如,Robinson、Hartley和Schneider(2006年)、Das等人(2013年)和Porteous(2020年)考察了经济学家使用EconLit数据库研究最多国家。Cameron、Mishra和Brown(2016年 )以及Sabet和Brown(2018年)进一步扩展了这一观点,指出影响评估在国家之间极为不均衡 。Phillips和Greene(2022年)表明,冲突研究倾向于西方国家,而Courtioux等人(2022年)则表明,学术研究与科学研究公共投资高度相关。 我们通过应用自然语言处理(NLP)来提高我们对哪些国家研究不足理解,从而丰富了文献。使用NLP使我们能够在三个层面上超越现有文献:(1)扩大样本规模,审视所有感兴趣领域 ,而不仅仅是经济学,(2)识别使用数据论文,这对于理解数据需求或数据供应是否可能是解释一个国家研究不足关键,(3)指出国家可以采取措施来增加数据研究。 论文其余部分结构如下。第二章讨论了我们数据来源,第三章详细介绍了我们方法,第四章介绍了一个理论框架,第五章展示了我们实证结果,第六章进行了稳健性检验,第七章得出结论。 2数据 我们学术文章数据源是语义学者开放研究语料库(S2ORC)(Lo等,2020年)。该语料库包含超过13亿篇来自多个学科英语学术论文。语义学者语料库中论文直接从出版商、如arXiv或PubMed等开放存档以及从互联网上抓取而来。 我们对文章进行了一些限制,以便使其适用于我们目。首先,只有具有摘要和解析PDF或LaTeX文件文章被纳入分析。摘要全文对于分类研究国家和是否使用数据至关重要。解析PDF和LaTeX文件对于提取重要信息,如出版日期和研究领域非常重要。这种限制消除了原始语料库中大量文章。在仅保留可解析(即,适用于数字处理)PDF文章后,约剩下3000万篇文章,当去除没有摘要文章时,这3000万篇文章中有约26被淘汰。其次,只考虑了2000年至2020年文章。这一限制又额外淘汰了剩余文章9。最后,我们排除了以下研究领域中文章,因为我们旨在关注那些可能使用国家统计系统产生数据领域:生物学、化学、工程学、物理学、材料科学、环境科学、地质学、历史学、哲学、数学、计算机科学和艺术。Fieldsth是a包t括经济学、政治学、商业、社会学、医学和心理学。这项第三项限制消除了剩余文章约34。从最初136亿篇文章中,最终形成了一个约1000万篇文章语料库。 由于所需计算机资源密集,从我们限制性语料库中1000万篇文章中随机选取了1037748篇文章作为便利样本。1百万篇文章最终样本汇总统计信息可在表1中找到。 表1文章语料库摘要统计。20002020 领域发表在期刊上 数据使用 已识别国家文章份额 1yes 1yes 1yes 文章 商业 056 064 030 28571 28 经济学 079 068 028 62241 60 药物 096 085 010 840920 810 政治学 042 033 034 26185 25 心理学 075 070 014 44191 43 社会学 090 033 025 35640 34 3实证策略 本项目中采用实证方法利用了文本挖掘与自然语言处理(NLP)。自然语言处理目标是从原始非结构化文本中提取结构化信息。在本项目中,NLP用于提取研究国家以及论文是否使用数据。我们将依次讨论这些内容。 为了确定每篇学术论文研究国家或国家,采用了两种基于标题、摘要或主题字段中找到信息 方法。第一种方法使用基于ISO3166国家名称存在正则表达式搜索。编制了一个定义国家名称集合,并检查这些名称在相关字段中存在。这种方法是透明,在社会科学研究中得到广泛应用,并且易于扩展到其他语言。然而,如果国家名称拼写不规范,可能存在排除错误风险。 第二种方法基于命名实体识别(NER),它利用机器学习从文本中识别对象,采用spaCyPython库。命名实体识别算法将文本分割成命名实体,本项目使用NER来识别学术论文中研究国家 。SpaCy支持多种语言,并针对多个国家名称拼写进行了训练,克服了正则表达式方法某些局限性。如果一个国家通过正则表达式搜索或NER被识别出来,它将被链接到文章中。请注意,一篇文章可以与多个国家相关联。 第二项任务是分类论文是否使用了数据。采用了一种监督机