数字科学报告 2022年开放数据的状态 运行时间最长的开放数据纵向调查和分析 前言,马克Hahnel,Figshare的创始人和CEO 2022年10月 “NIH也意识到,不仅技术进步,而且行为 改变也是必要的。 推进数据科学目标” IshwarChandramouliswaran 艾米哈菲兹陶顿Paine苏珊 Gregurick 国家卫生研究院 内容 前言4 马克博士Hahnel创始人兼首席执行官,Figshare 主要从开放数据的状态2022� LauraDay-Figshare&Dr.GregGoodey-SpringerNature 在中国政策制定者的角色:促进开放数据的移动研究人员和期刊� 周元春、蒋璐璐-中国科学院计算机网络信息中心 美国国立卫生研究院的政策、计划和 建立合作伙伴关系,提高数据的可发现性和重用性13 伊什瓦尔·钱德拉穆利斯瓦兰、艾米·哈菲兹、汤顿·潘恩、苏珊·格雷古里克-NIH 为南非拟议的开放数据战略做准备教训斯坦陵布什大学� 塞缪尔·Simango-Stellenbosch大学 研究人员对开放数据的基础设施需求拉丁美洲的角度来看� 胡安·米格尔·帕尔马·佩尼亚-墨西哥国立自治大学 数据拯救生命22 冬青穆雷,英国健康数据研究 了解和支持人文学科的数据共享:新从一个出版商的调查� 马特·坎农-泰勒和弗朗西斯,丽贝卡格兰特博士-F1000,凯特·麦凯拉-威利 作者简介28 前言 马克Hahnel博士创始人兼首席执行官 Figshare 2022年是Figshare的10周年和“开放数据状态”的7年,这是关于研究人员对 开放的学术资料。 在这10年中,我们看到数据成为学术利益相关者的优先事项,包括全球和研究领域的政府,资助者,出版商和机构。今年的报告强调了这一推动的全球性质,以及利益相关者和主题观点。我们邀请了来自 在报告中的文章中代表所有这些因素和变量的专家。我们有泰勒和弗朗西斯,F1000和Wiley的人文和出版商观点。我们有来自南非的机构视角。我们有来自美国国立卫生研究院(NIH)和中国科学院计算机网络信息中心(CNIC,CAS)的资助者视角。 开放数据的全球化程度明显提高,尤其是亚洲的强劲增长。去年,来自中国的调查回复占样本的3%,而在2022年,这一比例为11%。中国国家通用存储库ScienceDB的采用量与2021年相比增长了21倍。中国科学院计算机网络信息中心的专家在他们为我们的报告撰写时指出,该领域的培训指导了研究人员实践的这种变化,并将继续成为重点。这是整个报告反复出现的主题。由于培训而成功吸收的证据, 与培训需求并列,以确保全球对开放数据的吸收和受益与全球任务并行。 政策进展的进一步例证是,随着橡胶上路,研究人员对开放数据授权的热情减弱,良好的意愿转化为更多 合规。开放数据和更广泛的开放研究的目标是崇高的。它们对于建立一个更公平的社会和人人享有公平的竞争环境至关重要。然而,这确实意味着 更多的研究人员管理过程使其输出。担忧 “谁来资助这一切?!”在这一点上,资助者似乎表示他们将承担“成本”,但调查暗示这一信息没有传达给研究人员。 总而言之,三分之二的研究人员认为资助者授权是必要的摩擦点 4/5调查对象是 赞成将研究数据作为惯例公开提供 研究人员朝着下一个研究范式前进。在美国,科学和技术政策办公室(OSTP)在为联邦资助机构设定期望方面发挥了重要作用,要求规划和管理校外研究产生的研究数据。由于这一政策以及全球其他政策,出版商开始要求在研究论文中使用数据可用性声明(DAS)。这些语句旨在加速数据共享。 下一个范式,第四个研究范式,正如微软研究院的吉姆·格雷(JimGray)等人十多年前创造的那样,想象基于数据密集型科学的知识发现。喜欢目标 在FAIR(可查找,可访问,可互操作,可重用)数据中,第四种范式预测知识发现可以通过使用机器来加速。人工智能算法和机器学习工作流程正在以个人研究人员大脑无法计算的规模突出新的模式和预测。在过去的12个月里,这些愿望开始成为现实,尤其是在谷歌人工智能公司AlphaFold的成功中,他们因预测蛋白质的3D结构而获得了突破奖。对于那些致力于为研究人员提供一种分享其异构研究成果的方式的人来说,这已经 似乎总是一个遥远的目标,但仍然是一个令人向往的目标。 斯泰伦博斯大学的塞缪尔·西芒戈(SamuelSimango)在他的评论文章中强调了南非对“数据向善”的推动-该原则促进数据的生产和使用,以促进 社会公益。透明度、可重复性和可复制性是正在实现的开放数据任务的短期目标今天,在所有研究领域-而生物医学的阶段变化提供了长期的重点。 虽然大多数趋势都令人鼓舞,但研究界现在要求更多地执行许多政府和资助者已经通过的任务。我们已经看到许多参与的资助者和 政府,最著名的是白宫科技办公室最近的备忘录 政策,要求公布他们资助的数据。 72%研究人员说他们会 依赖 帮助管理或公开提供数据的内部资源 这也导致了国家计划研究数据管理和传播.美国国立卫生研究院并不是第一个告诉他们资助的研究人员他们应该向所有人公开他们 的数据的资助者。在夏尔巴朱丽叶上列出的52个资助者需要将数据存档作为资助的条件,而另有34个鼓励这样做。出版商的推动也成为研究人员分享数据的主要动力。 这可以追溯到PLOS要求所有文章作者在2014年公开其数据。现在,几乎所有主要的科学期刊都有某种开放数据政策。 有些人可能会说,对于研究人员来说,没有比出版物受到威胁更好的动力了。当被问及他们愿意从谁那里获得支持时,最受欢迎的答案是出版商(41%),紧随其后的是自己机构内的出版商(38%)。 这是有道理的,因为研究人员将出版商视为负责传播研究的人,但鉴于围绕开放获取资助模式的持续斗争,仍然存在健康的辩论,以确保不会建立对数据出版的垄断 。 NIH的通才存储库生态系统计划(GREI)为通用存储库之间更好的互操作性和合作竞争提供资金,为大规模改进铺平了道路。 在数据发布方面。NIH有兴趣与社区,社会和外部计划建立伙伴关系,以通过合作项目,研讨会和其他活动来加强FAIR实践的教育,采用和实施。 总体而言,该调查指出,需要填补开放数据培训的漏洞,以消除研究人员的更多管理负担。如果未来10年在开放研究方面能够以与过去十年相同的速度取得进展,那么优先事项需要是: •更好的元数据 •更多的元数据 •公平的元数据 为此,我们需要对培训的支持以及对基于人工和机器的检查的支持。我个人过去曾评论过,资助者政策需要更多的支持才能实现。当我说支持时,我指的是钱。NIH在其2021年GREI计划中值得称赞,但需要从资助者、出版商和图书馆预算中获得更多。我们可以在知识创造方面走得更远、更快的证据就在眼前。这些预算应特别关注以下方面: •基金组织培训、图书馆员、教育家 •开放研究基金管理数据 75% 的 研究人员表示 ,他们因公开分享数据而获得的荣誉太少 学术界无处不在的研究数据发布的未来即将到来。我们有一个很好的机会在数据空间不断向资助者施加压力,要求FAIR数据 发布。当涉及到社会对开放研究数据的需求时,没有把精灵放回瓶子里。如果所有利益相关者继续推动畅通无阻、公平的数据发布,为人类和机器提供高质量的元数据,这可能是知识发现的一个阶段性变化。 开放数据20227的状态 从2022年开放数据状态的关键外卖 劳拉·格雷格兼古迪博士产品营销经理高级研究分析师FigshareSpringerNature 《开放数据状况》调查现已进入第7个年头,收到了来自192个国家的约27,000份回复,并继续对研究人员对开放数据的动机、挑战 、看法和行为提供详细和持续的见解。 今年,该调查收到了自2019年以来最多的回复,有超过6,000 份可用回复。 一个多元化的声音 多年来,开放数据和有效的数据管理一直是欧洲许多研究人员关注的焦点,我们一直看到该地区研究人员对开放数据状况调查的高度参与。在2022年,有一些变化为我们提供了更多人口统计学上的多样化见解。 与2021年的结果相比,今年来自中国的受访者数量显着增加。去年,来自中国的调查回复占样本的3%,而在2022年,这一比例为11%。按大洲划分,最大的回应来自亚洲(38%,包括中东 ),其次是欧洲(33%)。在他们对本报告的贡献中,元春 亚洲(包括中东)欧洲 北美(包括中美洲和加勒比海)非洲 南美大洋洲 来自中国科学院计算机网络信息中心的周璐璐和蒋璐璐指出,虽然要使“开放”成为中国学者的常态,仍有工作要做,但相关立法政策和培训的增加正在随时可用,这意味着越来越多的研究人员将注意力转向数据管理和开放数据。 在调查回复中占最大比例的两个国家是中国和美国,国家授权的增加,特别是在美国,科学和技术政策办公室(OSTP)和美国国家研究院即将出台的数据管理和共享政策 健康(NIH),美国的研究人员将需要比以往任何时候都更多地参与开放数据。虽然美国仍占总样本的11%,但值得注意的是,自2016年调查启动以来-在查看参与度时 在大陆层面,北美一直在稳步下降,而亚洲一直在增长。 决策因素和动机 鉴于国家授权和自上而下的倡议和立法机构的增加,关键是要记住,数据共享的责任和行为往往直接掌握在研究人员个人手中。在查看会激励受访者的前三种情况时 分享他们的数据,排名靠前的回应是;他们的研究论文被引用(67%),论文的影响力和知名度增加(61%),以及某种形式的公共利益或期刊/出版商授权(均为56%)。 虽然人们强烈意识到开放数据有助于“某种形式的公共利益”,但引用的动机和个人研究的知名度的提高似乎至关重要。这是英国健康数据研究的HollyMurray在她对开放数据状况报告的贡献中提出的一个主题,引用了数据共享的潜在“错位动机”。 建立支持社区 由于出版商、图书馆和机构本身也是上述自上而下的倡议和任务的主题,因此它们在发展过程中负有重要责任和作用。 以及更多地采用开放数据实践和原则。在今年的调查中,72%的受访者表示,如果他们需要帮助管理或公开数据,他们将依赖内部资源(同事、图书馆或研究办公室)。此外,当被问及谁 他们愿意得到他们的支持,最受欢迎的答案是出版商(41%),紧随其后的是自己机构内的出版商(38%)。 机构根据自上而下的举措支持其研究人员,拥有熟练的基础设施和培训,这是我们报告贡献的一个普遍主题。特别是,南非斯泰伦博斯大学在机构层面采取了重要步骤,以确保他们能够遵守拟议国家政策中提出的南非国家开放数据战略的核心方面 。 令人鼓舞的是,与2021年的数据相比,今年更少的研究人员表示他们希望就如何遵守其机构的政策提供更多指导,这可能表明机构为开放数据共享提供的指导、支持和培训有所改善。 当超越机构本身时,很明显,政策制定者了解他们有责任支持研究界 遵守他们的任务。在提交给我们报告中,NIH强调了“NIH数据科学战略办公室(ODSS)”的成立,该办公室致力于提供“领导力 ,战略指导, 以及根据NIH计划共享数据的人员的协调。令人鼓舞的是,鉴于自上而下的举措和任务的增加,政策制定者承诺通过提供帮助和指导,同时成为合规的促进者。成立 直接来自资助者的支持和指导以遵守他们的政策开始对研究人员产生影响,今年,36%的受访者表示他们正在寻求有关如何遵守资助者政策的更多帮助,与2021年的数字(41%)相比,下降幅度不小。 探索完整的调查结果,包括原始数 据和问卷 开放数据202210的状态 什么情况会促使您共享数据? n=6104 在中国政策制定者的角色: 促进开放数据的移动研究人员和期刊 Yuanchun周和露露江 中国科学院计算机网络信息中心 中国于2001年开始建设科学共享项目。2018年,国务院办公厅印发《管理办法》 科学数据(MMDS),促使在国家层面普遍部署科学数据管理。政策制定者通过改善国家法律框架、扩大实践规模和提高公众对此类政策的认可度,有效地推进了数据管理。 全面完善法律法规建