数据简报 识别研究中的新兴技术 2024年12月 执行摘要 识别新兴领域和技术的挑战并非新鲜事,但更多的数据、新的方法和更强的计算能力使得采用新颖的方法成为可能。我们在此基础上开发了两种新解决方案,以识别与新兴技术领域相关的研究,特别是人工智能(AI)、网络安全以及芯片设计与制造。首先,我们训练并部署了机器学习模型,用于预测出版物对选定的新兴技术主题的相关性。其次 ,我们根据分层的研究领域分类体系将出版物分配到这些主题内的相应研究领域中。我们将这些解决方案应用于大量科学文献,以进行新兴技术主题分类和研究领域评分。我们的评估结果显示,这些解决方案能够可靠地识别与重要新兴技术领域相关的研究,从而支持对这些领域的发展和应用进行分析和监控。我们通过开放数据集分享我们的出版物级别的预测结果和主要研究领域。通过交互式工具,我们使研究人员能够利用这些数据进行分析。 背景 分类科学文献是研究创新、技术发展和科学发展的重要组成部分。然而,这也是一项充满挑战的任务。科学文献浩如烟海且迅速增长,学科和领域的界限模糊不清,术语也在不断演变。特别是在研究新兴技术时,这些挑战尤为突出。例如,当安全与新兴技术中心(CSET)于2019年成立时,我们的研究就需要解决一个未解的问题:我们如何找到与人工智能的发展和应用相关的研究? 研究人员利用不同的方法在广泛的科学文献中识别相关主题的研究(Gläser等,2017) 。一种常见的方法是使用关键词查询,通过搜索使用特定词汇或短语的出版物来实现,这些词汇或短语通常通过专家输入进行筛选,并且有时会结合引文分析或动态查询扩展 (Arora等,2013;Chou,2022;Huang等,2015;Mogoutov和Kahane,2007)。尽管这种方法实用,但开发、评估和维护关键词查询非常耗时,还存在过时的风险。 另一种方法是借鉴网络分析,将科学文献根据引文链接聚合成研究集中(Boyack和Klavans2020,Klavans和Boyack2011,Small等2014,Waltman和vanEck2012)。在CSET,我们维护一套基于引文的研究集群(ETO2023,Rahkovsky等2021,Toney2021)。通过引文连接文献,聚类方法有助于扩大搜索范围并识别可能不使用精确术语的相关研究。然而,基于引文的集群并不严格对应特定的主题,并且作为文献搜索工具的效果具有变异性(Bascur等2023)。 其他方法借鉴了自然语言处理(NLP)的进步。例如,根据其出版文本与来自维基百科文章及其引用学术来源的特定研究领域文本之间的接近度,为出版物分配领域相关标签 (Shenetal.2018,ToneyandDunham2022,GellesandDunham2024)。另一种NLP方法涉及将基于转换器的模型(如SciBERT、SPECTER)微调到动态的社区主题标签上(Dunhametal.2020,Schoeberletal.2023),或使用专家指导的标注函数进行程序化标注(Ratneretal.2020,Zhangetal.2022)。最近的研究将生成式AI模型纳入这些解决方案中,通过提示工程来使大型语言模型(LLM)的数据标注和注释更加高效和全面(Tan2024,Toney-Wailsetal.2024)。 问题 超越将研究归类为特定主题或学科,确定研究与新兴技术的相关性尤其困难。广泛适用的分类标准和通用的研究领域分类通常根据传统的学术学科(如生物学、心理学)对研究进行分组,这使得难以突出显示涵盖多个研究领域、发展迅速且涉及概念定义不明确或缺乏共识的AI等领域相关的研究(Dunham等,2020;Krafft等,2019)。这意味着许多“现成”的分类解决方案并不适用于分析与AI及其他新兴技术相关的研究。 与此同时,许多研究人员无法自行开发针对特定项目的解决方案。上述分类方法需要大量资源支持,包括领域专家、数据科学和工程团队以及大量的数据和计算资源。这使得许多研究人员不得不依赖于次优但资源消耗较少的解决方案。即使有如OpenAlex(Priem等,2022)、SemanticScholar(Lo等,2019)和SciSciNet(Lin等,2023)等新的开源资源,识别与新兴技术相关的研究任务仍然需要时间和一支资源充足的团队。 解决方案 为了应对这一问题,我们开发了两种解决方案来识别与新兴技术主题相关的研究,并将它们整合到开放资源中。首先,我们通过训练机器学习模型预测出版物与特定新兴技术主题的相关性,从而对研究出版物进行分类。这一解决方案提供了与三个新兴技术主题相关的出版物——网络安全、大语言模型(LLM)开发和芯片设计与制造,扩展了CSET现有的人工智能、计算机视觉、自然语言处理、机器人技术和人工智能安全主题分类 (Dunham等,2020;Schoeberl等,2023;ETO,2023)。其次,我们根据研究领域的不同对出版物进行分类,通过计算出版物领域得分来实现这一目标。这一解决方案产生了超过1,100个领域的出版物领域得分,重点关注人工智能、网络安全、生物技术以及芯片设计与制造领域。 两种解决方案均部署在CSET合并的学术语料库上,该语料库包含来自六个学术文献数据库的超过260万篇出版物:Clarivate等。 WebofScience,OpenAlex,语义学者,镜头、arXiv和带代码的论文。* 我们按照我们的方法对出版物进行了重复删除公共代码库.我们为每份文档提取了六 个标识符(DOI、引用、标准化摘要、标准化作者姓名、标准化标题和出版年份)。当文档之间的某些标识符相同时,我们将这些相同的标识符分配给它们。 *此处包含的某些数据来自ClarivateWebofScience。版权所有Clarivate2024。保留所有权利。 文档具有相同的合并ID。*剩余的文章被纳入最终语料库作为独特的文档。我们使用元数据来源质量、出现频率等启发式方法选择合并的文档元数据。用于维护这些数据集的数据管道是使用ApacheAirflow和ApacheBeam编写的。 新兴技术主题分类 对于第一个解决方案,我们开发了机器学习模型来预测我们语料库中英语出版物与以下三项新兴技术主题的相关性:网络安全、大语言模型(LLM)开发以及芯片设计与制造 。†我们选择了这些主题,因为它们处于快速发展之中,推动了创新,并激发了政策辩论,但它们并不完全符合传统学科的范畴。优先领域是在与CSET的领域专家及研究科学创新和技术发展的学术研究人员咨询后选定的。 为了识别网络安全研究,我们使用了arXiv数据训练了一个模型,遵循了我们对AI、计算机视觉、自然语言处理和机器人技术研究分类器的方法(Dunham等,2020;ETO2023)。arXiv中的文章包含主题标签,这些标签最初由arXiv作者提供,并根据需要由arXiv编辑进行修订。利用这些主题标签,我们进行了训练。SPECTER(Cohan等(2020 )),一种基于科学文本预训练的变压器语言模型,用于预测我们语料库中所有英语出版物的网络安全相关性。 为了识别LLM和芯片研究,我们采取了略微不同的方法。对于这些主题,我们将一系列提示应用于生成型LLM,具体是Google的Gemini1.5Flash。在第一个提示中,我们指示LLM撰写一篇描述某篇论文标题和摘要的工作的一句话总结,并包括 *我们认为,在正常化标题、正常化摘要、引用次数或DOI相同的情况下,再加上在同一组中另一个标识符、出版年份或正常化作者姓氏之一相同的文章被视为同一篇文章。出现在语料库中频率超过10次的标题、DOI或摘要将被排除在可用于匹配的数据集中。我们还根据供应商提供的跨数据集链接合并文章 。更多详细信息,请参见:这个描述. †我们还更新了我们现有的AI分类器(Schoeberl等人,2023),最初是在2019年开发的,并且实验使用GPT-3.5-Turbo和GPT-4进行数据注释(Toney-Wails等人2024)。 动机,然后是解决的问题或研究任务以及所应用的方法。接着,在第二个提示中,我们要求模型根据第一个提示生成的摘要输出,将每篇出版物分类为与大型语言模型(LLM)的发展、芯片设计和制造相关,或者两者都不相关。 这种零样本方法提供了显著的效率提升。对于每种模型,我们手动标记了一小套论文用于提示开发。然后,我们抽取并标记了更大规模的随机样本用于评估目的(参见表1) ,但总体上标注的论文数量远少于监督方法所需的数量。 我们在语料库上运行新兴技术主题分类模型,识别出自2010年以来发布的507,828篇与网络安全相关的出版物、58,764篇大型语言模型开发出版物以及1,198,381篇芯片设计和制造出版物,如表1所示。* 表1.新兴技术主题分类评价及结果 主题 出版物数量 精度 召回 F1 网络安全 507,828 0.8 0.75 0.77 LLM开发 58,764 0.88 1.0 0.93 芯片设计与制造 1,198,381 0.86 0.73 0.79 资料来源:CSET合并学术语料库。 研究领域 我们还扩展了科学出版领域的评分范围,超越了MicrosoftAcademicGraph的研究领域分类体系(Shen等,2018)。该分类体系包含从高层次的L0领域(如计算机科学和生物学)到更具体的L1-L3领域的科学概念层次结构。L1领域包括更广泛的子领域。 *为了对与网络安全相关的出版物进行探索性分析,请参见新兴技术观察站博客文章,“全球网络安全研究的关键趋势:增长、领导者、黑马”和“网络安全研究的热点话题:《科学地图》的见解”。https://eto.tech/blog/. 子领域,如AI和免疫学,而L3包括较窄的子领域,如密码学和差分隐私。 我们之前的研究所更新并扩展了MAG的研究领域(Toney和Dunham2022),为语料库中所有英语出版物分配了19个L0领域的领域分数。这涉及将领域描述和出版物摘要及标题表示为嵌入形式。我们使用维基百科页面及其学术参考文献,利用一个预训练于科学文献语料库上的FastText(Bojanowski等,2017)模型来创建领域文本嵌入。然后,我们计算了领域文本嵌入与出版物文本嵌入之间的余弦相似度,以衡量每个领域对每篇出版物的相关性。 我们随后将解决方案扩展至包括1,089个L1-L3领域(Gelles和Dunham,2024)。我们并未将范围扩大到原始MAG分类中的所有L1-L3领域。而是专注于284个L1领域以及805个L2和L3领域,这些领域是在与相关领域专家咨询后确定的,并且与我们关注的新兴技术相关。所选的L2和L3领域涵盖以下L1领域:人工智能、计算机安全、半导体、遗传学、病毒学、免疫学、神经科学、生物技术及生物信息学。 正如之前所述,我们使用维基百科文本及其引用页面的文本作为选定领域的代表。在没有特定维基百科页面的领域中,我们识别相关维基百科页面的段落作为替代。我们使用提取的文本计算每个选定领域的嵌入,并使用余弦相似度计算领域和我们语料库中出版物之间的相似性分数。对于我们的207,231,266篇出版物,我们计算了230,026,705,260个初始领域得分。 每份出版物在每个领域的1,108个领域中获得了领域评分,表明其与各个领域的相关性。我们根据分类学(L0-L3)每一层级中评分最高的三个领域为每份出版物分配“顶级领域” 。*我们首先确定顶部L0和L1 *我们认为“顶级领域”对于描述一篇文献或评估文献在各个领域的分布是有用的,但需要注意的是,这些顶级领域在不同领域之间并不直接可比。例如,被分配到顶级L0生物学领域的文献与被分配到顶级L0计算机科学领域的文献,不一定对各自的L0领域具有相同的相关性。 在各个领域进行出版,并在每个领域内识别出顶级的L2和L3领域。例如,要将某篇论文的顶级L2和L3领域分配为密码学和差分隐私,其顶级L0领域必须是