科学智能(AI4S) 全球发展观察与展望 2023版 AIforScienceGlobalOutlook2023Edition ThisversionisupdatedonAug9,2023 2 前言:AIforScience已进入加速涌现期 2022年底,ChatGPT横空出世,并以超过iPhone,微信,抖音等科技产品的速度在短短数周的时间内达到1亿用户。在随后的2023年,GPT和其他生成式AI技术品类占据了科技讨论的绝对中心。从国内到国外,从几个人的初创企业到十万人的科技巨 头,AI的赛道上摩肩接踵。 2022年的秋天,我们发布的第一版《AIforScience全球发展观察与展望》(简称《展望》),获得了来自各界的认可和支持。在AI大发展的2023年,各界也在敦促我们对过去一年的发展进行追踪并阐述其如何影响AIforScience的发展路径。响应读者的热情,我们决定对《展望》进行重构,新增一倍的新内容,并对已有内容进行大幅更新,以反映相关技术、产品、产业、政策的演化,并以全新的框架重新梳理AIforScience的要素、沿革、展望,并详尽描述其在各行各业的实践。 10年前的耶鲁大学礼堂上,PeterThiel说到:“Wewantedflyingcars,insteadwegot140characters.”10年后的今天,这句话依然成立。千禧年以来,海量的科学人才涌入互联网科技行业,带来生产和协作方式的变革,创造了巨量的财富。而随着互联网热潮渐渐褪去,人们重新把目光聚焦回科学本身,以及它们所映射的实体经济领域上。 科学技术是第一生产力。科技革命的历史波澜壮阔。过去三百年间,科学行进经历过数次系统性危机,正是这些危机的解决才带来了科学的突破,新科学经由新工具的应用和普及,进而带来生产力的大幅提升。时至今日,随着数字化时代的到来,科技创新转化为直接生产力的速度越来越快。面对纷繁复杂的现实世界,虽然数据越来越丰富,但是寻 求简单、漂亮的洞见却变得越来越难;各行业的技术专家也深受困扰:控制和设计的自由度越来越 多,“炒菜式”的试错和喊口号式的攻坚也越来越难以解决实际问题…… 此时,AI来了。从艾伦·图灵的系统思考开始,伴随着算法、算力、数据的融合发展,AI在计算机视 觉、自然语言处理,自动驾驶等领域大放异彩。但AI若想从一套“数据处理”工具,走向更加通用的“智慧”,则无法绕开“科学”这一人类智慧结晶中最精华的一部分。于是,一群人先行者开始探索用AI学习科学原理,解决科学问题的路径。他们发现,当下AI取得成就的本质原因是在算力和数据基础之上算法对高维函数处理能力的大幅提升,这一能力是应对当下系统性危机的关键;他们发现,AI是驱散Science各领域的乌云的法宝,AIforScience (AI4S)会是AI的下一个主战场,它将极大地拓展Science和AI的边界;他们发现,AI4S将赋能技术和工业的方方面面,帮助我们加快走完科学研究和技术创新之间的最后一公里,也将帮助科学家从纷乱的自然和社会特征之中抽丝剥茧,发现事物背后作用着的关键规律。 AI4S的未来正在走向流行。AI求解薛定谔方程、AI求解控制论方程、AI加速分子模拟、AI预测蛋白结构、AI赋能药物和材料设计……在2022年版《展望》发表不到一年的时间中,AIforScience的发展依然超出了我们的预期: 在国内,2023年科技部会同自然科学基金委启动 “人工智能驱动的科学研究”(AIforScience)专项部署工作,布局“人工智能驱动的科学研究”前沿科技研发体系。科技创新2030—“新一代人工智能”重大 项目也将AIforScience作为人工智能的重要发展方向进行安排。在指南中,部署了“重大科学问题研究的AI范式”任务,面向地球科学、空间科学、化学和材料科学、生物医药科学等领域重大科学问题开展创新研究。同时,面向国际竞争激烈的蛋白质结构预测领域,支持国内优势团队开展科研攻关。在平台支撑方面,科技部正在加快推动公共算力开放创新平台建设,将为AIforScience发展打造智能算力基座。 国际上,ElonMusk官宣x.ai,其理念为“建立理解自然规律的人工智能系统(understandthetruenatureoftheuniverse)”;前谷歌掌门人EricSchmidt宣布捐出1.48亿美元成立AIforScience博后奖学金,已布局9所大学;微软宣布成立专门的AI4science部门;英伟达联合IIT发布AIforScience公开课程;龙头药企赛诺菲宣布“all-in”AIfor(life)science;美国能源部联合5大国家实验室发布AIforScience,Energy&Security先进科研课 题指引;OECD面向全球政策制定者发布AIinScience的综述与政策建议从学界到业界,从产 业到政府,从生命科学的RFDiffusion、到化工领域的OpenCatalyst、到材料科学的Uni-Mol,各行各业的优秀AIforScience应用正在加速涌现,AIforScience已成燎原之势。 AI4S发展路上也将充满挑战。它呼唤各行各业的人们打破壁垒、凝聚共识、创造连接、形成迭代。拨云见日的路上,真理与泡沫、洞见与偏见差别,均在毫厘之间。站在这个科技革命的时代转角,北京科学智能研究院(AISI)、深势科技、全球最大AI4S开源社区DeepModeling的核心开发者与AI4S产业实践的先行者,和AI4S传播者络绎科学一道,整理了数十家领先企业和科研机构的经验方法,编写成册。道阻且长,行则将至。希望这份2023版 《展望》将陪伴每一个关心与关注AIforScience的人度过每个春秋,见证这场发生在当下的科技革 命,从花开花落走向硕果累累。 目录 前言:AIFORSCIENCE已进入加速涌现期3 出品团队11 PARTI:AIFORSCIENCE原理与发展框架12 第一章:AIFORSCIENCE的“四梁N柱“13 1.1什么是AIforScience(AI4S)14 1.2AI与科学研究范式的变迁16 I.模型驱动:AI加速计算求解17 II.数据驱动:AI处理科学大数据20 III.模型与数据的融合:AIforScience的系统工程21 1.3大语言模型(LLM):AI与Science共生的桥梁22 I.AI作为人与知识交互接口的可能性22 II.如何评估和提高AI对科学知识的处理能力24 III.科学哲学引导我们对AI的理解和使用26 小结:可预见的未来,LLM无法取代自然科学大模型28 1.4AI4S的相关要素30 I.机器学习算法/预训练模型31 II.算力基础设施:异构计算/云计算/超算中心32 III.软硬件数据基础设施34 IV.科学计算与工业仿真软件36 V.先进表征手段/科学数据集39 VI.AIforScience算法核心:实现物理约束的强弱形式40 VII.高通量实验/自动化实验室43 VIII.从"小作坊"到"开放式平台":跨学科复合能力人才与大规模协作44 IX.长期主义的产业政策与产业资本46 1.5AI4S的发展阶段47 I.概念导入期(2016-2021)48 表1.2016-2021AI4S代表性成果(摘选)49 II.大规模基础设施建设期(2021-2026)50 III.成熟应用期(2026年及以后)51 IV.AI4S的长期愿景是发现新的科学原理52 1.62023版《展望》核心观点:AI4S“四梁N柱”的发展框架与新基建思路54 I.基本原理与数据驱动的算法模型和软件系统56 II.高效率、高精度的实验表征系统60 III.替代文献的数据库与知识库系统64 IV.高度整合的算力平台系统69 PARTII:AIFORSCIENCE的产研实践73 第二章:AIFORLIFESCIENCE原理与实践74 2.1生命科学中的AI4S75 2.1.1生命科学走入AI时代75 2.1.2AI4S推动生物机理的探索77 表2:AI4S在多组学中的应用81 2.1.3基因+AI4S在靶标发现和精准医疗中的利用82 2.2AI4S驱动的药物研发86 2.2.1药物研发的现状与挑战86 2.2.2AI4S药物研发新范式89 表3:药物研发流程中的各步骤的挑战和AI4S范式89 I.靶点蛋白结构解析、功能机理探索和理性设计93 II.AIGC:基于靶点空间构象的分子设计100 III.从Docking到FEP:AI增强”靶点-药物配体”亲和力评估与高通量筛选102 IV.预训练大模型驱动ADME/T等药物分子性质预测105 V.合成预测及自动化实验107 VI.CMC药剂学优化107 AI4S实践(1):AIGC推动蛋白理性设计,DavidBaker团队发表RFDiffusion109 AI4S实践(2):Uni-RNA预训练大模型在广泛下游任务达到SOTA性能110 2.2.3AI4S驱动制药行业的DeNovoDesign112 2.3合成生物学与现代农业114 2.3.1AI4S在合成生物学中的应用实践114 2.3.2AI4S在现代农业的应用118 第三章:AIFORMATERIALSCIENCE原理与实践121 3.1材料研发的核心是建立准确的构效关系122 图表4:材料研发领域的多尺度问题和AI4S示例125 AI4S实践(3):深势团队荣获领域最高荣誉“GordonBell Prize”;并不断突破极限,实现170亿原子的第一性建模,将分子动力学带入新时代126 AI4S实践(4):DPA原子间势能预训练大模型驱动性质预测和新科学发现128 3.2金属材料中的AI4S应用129 3.2.1合金材料129 AI4S实践(5):《Nature》正刊报道AI4S助力高熵合金纳米颗粒的设计与工艺仿真130 AI4S实践(6):DP+CALYPSO自主方案将结构搜索能力提高万倍,助力合金理性研发131 3.2.2催化材料132 AI4S实践(7):Parrinello团队使用AI4S对百年化学工艺“铁催化-哈勃法“进行探究133 AI4S实践(8):MetaAI+CMUOpenCatalyst项目提供AI4S“四梁“支柱135 3.3高分子材料的AI4S应用136 AI4S实践(9):聚合物结构和溶液中动态性能数据驱动粗粒度建模137 3.4陶瓷和无机材料的AI4S应用139 3.4.1陶瓷139 AI4S实践(10):《ACSNano》收录哈工大团队陶瓷结晶过程模拟仿真算法140 3.4.2水泥142 3.4.3纳米材料143 I.人造钻石144 II.石墨烯145 III.碳纳米管146 IV.碳炔147 V.MXenes二维过渡金属碳化物等衍生材料147 3.4.4金属有机框架(MOF)150 AI4S实践(11):IBMResearch使用AI4S研究“MOF捕获CO2”命题,助力绿色未来151 3.5复合材料的AI4S应用152 AI4S实践(12):《自然•通讯》收录Monash大学复合材料原位纳米析出机理研究153 3.6AI4S赋能材料研发的DeNovoDesign154 第四章:AIFORENERGYSCIENCE原理与实践155 4.1能源行业的现状和挑战156 4.2化石能源与AI4S157 I.AI4S+流体力学/燃烧流体仿真157 II.AI4S+燃烧反应过程159 III.AI4S+燃烧污染机理研究160 IV.AI4S+高能材料162 表5.燃烧中的科学问题与AI4S实践164 AI4S科研实践(13):DeepFlame——“AI4S原生”的燃烧流体仿真166 AI4S科研实践(14):《自然•通讯》收录华东师范大学团队航空发动机燃烧反应路径研究167 4.3电池与AI4S168 4.3.1电池研发的特点:多场景,多尺度,多技术栈168 4.3.2AI4S解决电池研发的”多尺度”与”干�结合”难题,加快能源新材料开发应用效率170 表6:主要电