您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Google DeepMind]:发现新的黄金时代:抓住人工智能为科学带来的机遇 - 发现报告

发现新的黄金时代:抓住人工智能为科学带来的机遇

报告封面

新的发现黄金时代 抓住 AI 的科学机遇 康纳 · 格里芬 | 唐 · 华莱士 | 胡安 · 马特奥斯 - 加西亚 | 汉娜 · 希夫 | 普什梅 · 科利 Acknowledgements 感谢Louisa Bartolo、Zoë Brammer和Nick Swanson提供的研究支持,以及以下人士通过访谈和/或对草案反馈分享的见解。所有观点及任何错误均由作者单独负责。 Žiga Avsec, Nicklas Lundblad, John Jumper, Matt Clifford, Ben Southwood, Craig Donner, Joëlle Barral, Tom Zahavy, Been Kim, Sebastian Nowozin, Matt Clancy, Matej Balog, Jennifer Beroshi, Nitarshan Rajkumar, Brendan Tracey, Yannis Assael, Massimiliano Ciaramita, Michael Webb, Agnieszka Grabska-Barwinska, Alessandro Pau, Tom Lue, Agata Laydon, Anna Koivuniemi, Abhishek Nagaraj, Harry Law, Tom Westgarth, Guy Ward-Jackson, Arianna Manzini, Stefano Bianchini, Sameer Velankar, Ankur Vora, Sébastien Krier, Joel Z Leibo, Elisa Lai H. Wong, Ben Johnson, David Osimo, Andrea Huber, Dipanjan Das, EkinDogus Cubuk, Jacklynn Stott, Kelvin Guu, Kiran Vodrahalli, Sanil Jain, Trieu Trinh, Rebeca Santamaria-Fernandez, Remi Lam, Victor Martin, Neel Nanda, Nenad Tomasev, Obum Ekeke, Uchechi Okereke, Francesca Pietra, Rishabh Agarwal, Peter Battaglia, Anil Doshi, Yian Yin. Introduction Introduction 世界各地的实验室正在酝酿一场安静的革命 , 科学家们对人工智能的使用正在成倍增长.三分之一的博士后现在使用大型语言模型来帮助进行文献综述 , 编码和编辑。在十月 , 我们的创作者AlphaFold2系统 , Demis Hassabis 和 John Jumper 成为诺贝尔laureates 在化学领域因利用AI预测蛋白质结构而获奖,同时表彰科学家David Baker因其设计新蛋白质的工作。社会将很快开始更直接地感受到这些益处。药物and材料在 AI 的帮助下设计 , 目前正在通过开发。 在这篇文章中,我们探讨了人工智能是如何在基因组学、计算机科学和天气预报等领域transforming(变革)科学学科的。一些科学家正在训练自己的AI模型,而另一些则在fine-tuning(微调)现有的AI模型,或者利用这些模型的预测来加速他们的研究。科学家们将AI作为一种科学工具来帮助解决重要问题,例如设计与疾病靶标更紧密结合的蛋白质, 但也在逐渐改变科学本身的实践方式。 科学家们拥抱人工智能背后的迫切需求正在增长。在过去的几十年里,科学家们持续交付了具有重大影响的进步,从COVID-19疫苗到可再生能源。但这一需求需要:越来越多的研究人员取得了这些突破, 并向将它们转换为下游应用程序因此 , 尽管科学劳动力在过去的半个世纪里有了显著的增长 ,上涨超过七倍在美国 alone 仅限于该地区的情况下,我们本应预期的社会进步已经放缓。例如,世界上许多地方都见证了这一现象。持续放缓在生产力增长推动的同时,这一增长正在侵蚀公共服务质量。在向2030年可持续发展目标迈进的过程中,我们在健康、环境以及更广泛领域面临的最大挑战取得进展。失速. 特别是 , 今天希望取得突破的科学家越来越多地遇到与规模and复杂性从他们需要掌握的不断增长的文学基础 , 到他们想要进行的日益复杂的实验。现代深度学习方法特别适合这些规模和复杂性挑战并且可以缩短未来科学进步所需的时间。例如,在结构生物学中,确定蛋白质结构的一个单次X射线晶体学实验即可。可能需要多年的工作 , 成本约为 100, 000 美元, 取决于蛋白质。AlphaFold 蛋白质结构数据库现在免费提供 2 亿个预测蛋白质结构的即时访问。 人工智能对科学的潜在好处尚不保证。许多科学家已经使用基于大规模语言模型的工具来辅助日常任务,如编程和编辑,但使用以AI为中心的研究方法的科学家的比例尚未达到显著水平。要低得多 , 尽管上升迅速。在急于使用 AI 的过程中 , 一些早期的科学用例已经可疑影响。政策制定者可以帮助加快人工智能的使用 , 并将其引向影响更大的领域。美国能源部, the European Commission, 英国的皇家社会, and the美国国家科学院, 除其他外 , 最近已经认识到AI for Science机会。但是还没有一个国家制定了全面的战略来实现这一目标。 我们希望本文能够为制定和影响科学政策及资金决策的人士提供指导。首先,我们识别出五个日益迫切的机会领域,这些领域需要在科学研究中应用人工智能,并探讨在这些领域取得突破所需的主要要素。接着,我们探讨了人们最常提及的在科学研究中使用人工智能所带来的风险,如对科学创造力和可靠性的潜在影响,并论证在每个领域中,人工智能最终可以带来净益处。最后,我们提出了四项公共政策建议,以帮助开启一个由人工智能赋能的新黄金时代。 本文中,我们基于与我们自身AI for Science项目以及外部专家的二十余次访谈所获得的洞察力进行撰写。文章自然反映了作为私营部门实验室的视角,但我们坚信所阐述的观点对整个科学领域都具有相关性。我们期待读者能够对此作出回应,分享他们对于AI for Science领域最具潜力的机会、关键要素、风险和政策建议的看法。 A 部分 : 机会06B 部分 : 成分13C 部分 : 风险25D 部分 : 政策回应32 A 部分机会 科学家们致力于理解、预测并影响自然世界和社会世界的运作规律,以激发和满足好奇心,并应对社会面临的重大问题。技术和方法, 像显微镜 , X射线衍射和统计 , 都是产品科学和启用者在过去的一个世纪里,科学家们越来越依赖这些仪器来进行实验并推进他们的理论。计算工具和大规模数据分析变得尤为重要,这从发现希格斯玻色子到人类基因组的绘制都发挥了关键作用。从一个角度来看,科学家们对人工智能日益增多的应用是这一长期趋势的自然延伸。但这也可能预示着更为深刻的变化——科学能力边界的一次断续飞跃。 而不是列出它所在的所有区域可能为了使用人工智能 , 我们强调了五个我们认为存在命令式要使用它。这些机会跨学科适用,并且针对科学家在科学过程中不同阶段面临的特定瓶颈,该瓶颈与规模和复杂性相关,从提出强大的新颖假设到与世界分享他们的工作。 与 Al 一起加速科学的 5 个机会 改变科学家消化和交流知识的方式 模拟、加速和通知复杂的实验 2. Data 生成、提取和注释大型科学数据集 对复杂系统及其组件如何相互作用进行建模 确定大型搜索空间问题的新颖解决方案 1. 知识 改变科学家消化和交流知识的方式 为了做出新的发现 , 科学家需要掌握一个不断增长的预先存在的知识体系指数级变得更加专业化。这个 '知识负担’有助于解释为什么科学家进行变革性的发现越来越老 , 跨学科 , 位于精英大学 ,为什么论文份额由个人或小团队创作的作品正在下降 , 尽管小团队通常更有利于推进破坏性科学思想谈到分享研究,已经出现了令人欢迎的创新,例如预印本服务器和代码仓库,但大多数科学家仍然通过传统的途径分享他们的发现。密集的 , 行话重的 , 只有英文的文件这可能会阻碍而非激发对科学家工作的兴趣,包括政策制定者、企业和公众。 科学家们已经利用大语言模型(LLMs)以及基于LLM的早期科学助手来应对这些挑战,例如通过综合最相关的见解从文学。在早期演示, 我们的科学团队使用了我们的双子座LLM将在一天内从相关度最高的20万篇论文中找到、提 取并填充特定数据。未来创新,如对更多科学数据进行微调LLM、长上下文窗口的进步以及引文使用方面的改进,将逐步提升这些能力。正如我们在下文所述,这些机会并非没有风险。但它们为从根本上重新思考某些科学任务提供了窗口,例如“阅读”或“撰写”科学论文的意义,在一个科学家可以利用LLM来批判它、根据不同受众定制其含义或将之转变为“互动论文”的世界里。音频指南. 2. Data 生成、提取和注释大型科学数据集 尽管流行的观点认为我们正处于数据丰富的时代,但大多数自然和社会世界的科学数据仍然存在严重缺乏,涉及土壤、深海、大气以及非正式经济等领域。AI 可以以多种方式提供帮助。例如,它可以通过减少数据收集过程中可能产生的噪音和错误来提高现有数据的准确性。DNA 测序,检测样品中的细胞类型, or捕捉动物的声音。科学家还可以利用 LLM 不断增长的跨图像、视频和音频操作的能力 , 提取非结构化将埋藏在科学出版物、档案以及教学视频等不太显眼的资源中的科学数据转化为结构化的数据集。 AI也可以帮助标注科学数据,并提供科学家们使用这些数据所需的支持信息。例如,至少有三分之一的微生物蛋白质需要这样的标注。没有可靠的注释详细介绍他们被认为要执行的功能。在 2022 年 ,我们的研究人员使用 AI 预测蛋白质的功能, 导致中的新条目UniProt,Pfam and InterPro数据库。 人工智能模型 , 一旦验证 , 也可以作为合成科学数据的新来源。例如 , 我们的AlphaProteo蛋白质设计模型基于超过1亿个AlphaFold 2生成的AI蛋白质结构以及实验结构进行训练。蛋白质数据库. 这些AI机会可以补充并增加其他至关重要的努力以生成科学数据的回报,如档案数字化或者投资新的数据捕获技术和方法,例如单细胞基因组学领域正在进行的努力,旨在前所未有地详细创建个体细胞的强大数据集。 3. 实验 模拟、加速和通知复杂的实验 许多科学实验既昂贵又复杂,进展缓慢。有些实验根本无法进行,因为研究人员无法获得所需的设施、参与者或输入。聚变便是这种情况的一个典型例子。聚变有望提供几乎无限且无排放的能源,这可以促进耗能密集型创新技术的发展,如海水淡化。为了实现这一目标,科学家们需要创造并控制等离子体-物质的第四种基本状态。但是 , 所需的设施建造起来非常复杂。ITER托卡马克反应堆的原型于 2013年开始建造 , 但等离子体实验是未设置为开始最早到 2030 年代中期 , 尽管其他人希望在更短的时间内建造更小的反应堆。 人工智能可以帮助模拟融合实验,并使得后续实验时间的使用更加高效。一种方法是在物理系统模拟上运行强化学习代理。在2019年至2021年间,我们的研究人员与瑞士联邦理工学院苏黎世分校合作,演示如何利用强化学习(RL)来控制托卡马克反应堆模拟中等离子体的形状。这些方法可以扩展到其他实验设施,如粒子加速器,望远镜阵列, or引力波探测器. 使用AI进行模拟实验将在不同学科中大相径庭,但一个共同点是,这些模拟通常会提供信息并指导实际实验,而不是替代它们。例如,普通人群有超过 9, 000错觉变异,或DNA中的单个字母替换。大多数这些遗传变异是无害的,但有些可以干扰蛋白质执行的功能,从而导致囊性纤维化等罕见遗传疾病以及癌症等常见疾病。对这些变异效果的物理实验往往仅