科研智能(AI4R&D) ——人工智能驱动的研发新范式 中国人工智能产业发展联盟(AIIA)科学智能(AI4S)工作组 2024年7月 版权声明 本报告版权属于中国人工智能产业发展联盟,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国人工智能产业发展联盟”。违反上述声明者,本院将追究其相关法律责任。 编制说明 本报告主要是在中国人工智能产业发展联盟指导和组织下起草编写,主要参编单位包括中国信息通信研究院、华为技术有限公司、北京百度网讯科技有限公司、北京深势科技有限公司、之江实验室、阿里云计算有限公司、北京航空航天大学、国网智能电网研究院有限公司、中冶京诚数字科技(北京)有限公司、中国科学院沈阳自动化研究所、中国华能集团清洁能源技术研究院有限公司、深圳华大生命科学研究院、同方知网数字出版技术股份有限公司、上海和今信息科技有限公司、北京科技大学、北京市商汤科技开发有限公司、东方财富信息股份有限公司、北京新数科技有限公司。 核心编制人员为张玮婷、董昊、丁欣卉、曹峰、周景才、王紫东、胡晓光、孙佩源、刘会师、刘大鹏、贡金鹏、李振廷、王忠新、蒙贵云、张艳博、周原野、杨康、王锦海。 目录 一、科研智能发展态势1 二、科研智能产业发展情况2 (一)科研算力—赋能科研智能高效运行2 (二)科研数据—驱动科研智能创新发现4 (三)开发工具链—全链路打造科研智能开发工具7 三、科研智能应用发展情况15 (一)基础科学研究—开展前沿探索,推动科学边界拓展16 (二)产业研发创新—构建核心驱动力,加速产业升级变革18 四、科研智能生态建设情况19 (一)产业组织19 (二)社区建设19 (三)科研赛事20 (四)会议交流21 (五)教学培训21 (六)标准布局21 五、总结与展望22 附录一23 表目录 表1国外科研领域主要公开数据集5 表2国内外典型科研智能算法库10 表3我国代表性科学套件12 表42019年至2023年Science杂志评选的十大科学突破17 表5科研智能典型领域模型23 一、科研智能发展态势 科研智能(AIforResearchandDevelopment,以下简称AI4R&D,人工智能赋能科学研究及产业研发)是科学智能(AIforScience,AI4S)概念的延伸和扩展,主要包括两方面内涵,一是聚焦人工智能加速基础科学研究,拓展研究思路,加速研究进程;二是强调人工智能在应用研究和产业研发中的重要作用,全面提升工程技术创新的效率。科研智能代表了科技创新的新范式和新动能,有望全面加速基础研究和产业研发的进程,并缩短两者之间的转化周期,推动科技成果在工业界的产业化和规模应用。科研智能正在全球范围内加速发展。,各国相继发布政策构筑科研智能发展环境。2023年12月,欧盟委员会发布政策简报《人工智能在科学中的应用》,倡导为欧洲量身制定一项政策,促进人工智能在科学领域的应用。2023年5月,美国新建7家国家人工智能研究所,推动人工智能在气候、脑科学、社会决策、教育等领域的应用研究。2022年8月,我国发布《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》,支持探索人工智能技术用于重大科学研究和技术开发的应用场景。AI持续拓展科学领域问题解决的能力,围绕生命科学、物理等领域,形成了如 Alphafold3等代表性成果。另一方面AI不断加速产业研发进程,在材料研发、气象预测、工业设计等领域相继取得技术突破。 科研智能作为一个新兴的交叉领域,目前尚处于发展的早期阶 段,但已经展现出巨大的发展潜力和广阔的应用场景,中国信息通 信研究院(以下简称“中国信通院”)持续跟踪科研智能技术和产业 动态,于2024年发布报告《科研智能(AI4R&D)—人工智能驱动 的研发新范式》,旨在描绘科研智能领域的生态全景,为政府部门制 定产业政策、指导项目布局提供参考,为研究机构、科技企业把握 技术方向、开拓应用场景提供借鉴,加速该领域的技术创新和应用 实践,为我国在该领域抢占发展先机提供助力。未来,中国信通院 将关注全球科研智能发展动向,深化对关键技术和产业趋势的研判, 加强与科研机构、高校、企业等产学研各界的交流合作,共同推进 科研智能生态体系建设,为科技强国和创新型国家建设提供有力支 撑。 二、科研智能产业发展情况 科研算力与科研数据的深度融合为AI4R&D奠定了坚实基础。 由AI框架、算法库、开发套件及领域模型组成的开发工具链极大提 升了科研效率,促进了跨学科、跨领域的协同创新与融合,深刻改 变了科学研究范式。 (一)科研算力—赋能科研智能高效运行 科研算力是指结合智能算力与超算算力的计算能力,通过异构计算架构满足高精度计算和AI模型训练推理需求。智能算力基于GPU(图形处理器)、TPU(张量处理单元)、NPU(神经网络处理单元)等AI芯片,提供高度并行计算能力,适用于人工智能的训练和推理计算。超算算力依托超级计算机集群,实现大规模科学计算 和模拟,能够处理复杂的科学计算问题,广泛应用于如行星模拟、 药物分子设计、基因分析等场景。而科研智能算力整合了AI计算和科学计算两种方式,采用异构计算架构,结合多种计算单元,以满足高精度科学计算和人工智能模型训练、推理的双重需求。 科研智能的研究涉及大量复杂的计算任务,包括大规模数据处理、深度学习模型训练和高精度科学模拟等,这些任务均需要充足的算力支撑。在多数场景下,为满足科学研究和工程应用的需求,如蛋白质结构预测模型AlphaFold2取得了突破性进展,能够以原子级精度预测蛋白质的三维结构,其预测效果可以与实验结果媲美,解决了生物学界长达50年的重大挑战,该成就被Science杂志评为2021年度十大科学突破成果的第一位。这一进展也在很大程度上依赖于大规模的计算资源支持,在AlphaFold2的研发过程中,DeepMind团队投入了大量的算力资源,训练阶段使用了约128个TPUv3,历时11天才能完成1。 以公有云模式提供智能算力服务。云服务企业以智能算力平 台的形式提供计算资源,如阿里云灵骏智算平台、百度智能云AI Studio、华为昇腾云等,面向基础科研、新药研发、工程仿真等场景 提供一站式算力服务。政府、企业建设并对外提供服务的人 工智能算力中心。西安的未来人工智能计算中心已成功孵化出多个智能科研领域的大模型,如全球首个面向雷达遥感场景的“秦岭·西电遥感脑大模型”,以及全球首个面向计算流体力学场景的“秦岭·翱 1数据来源:《HighlyaccurateproteinstructurepredictionwithAlphaFold》 翔大模型”。三是以一体机形式交付的科研智能算力。一体机通过将专用硬件、软件和服务集成在一个系统中,打造便捷、高性能的科研智能系统。如深势盒子是面向分子动力学模拟设计场景推出一体机,硬件层面以定制加速卡与CPU结合的方式提供计算能力,软件层面预装分子动力学专业模拟软件。 一是高端AI芯片的生产和购买受限,影响算力 供给。二是国内智能算力的技术产业生态较弱,应用门槛高。三是 智能算力资源主要集中于头部科技类企业,高校、科研机构和大量 行业企业算力储备相对有限。建议层面,一是建立针对高校、科研 机构和行业企业的算力资源保障机制,实现算力资源的合理供给、 动态分配与高效利用,保障科研智能领域计算需求。二是构建跨地 区、跨机构的科研算力资源共享平台,促进科研机构与产业界的协 同创新。三是实施科研算力成本效益评估,优化资源投入与产出, 加速科技成果的产业转化。 (二)科研数据—驱动科研智能创新发现 科研数据是指科学研究和产业研发活动产生的原始数据、中间数据、结果数据和分析数据等,主要包括观测数据、实验数据、记录数据、调查数据、模拟数据及科研文献等内容。高质量的科研数据是科研智能的基础,规范的科研数据管理是科研智能开展的前提。科研智能数据相较于传统的行业数据,有如下特点。一是数据来源和类型更加多样。数据来自仪器设备、传感器、仿真模拟、文献等, 数据格式和语义差别较大。二是数据质量要求高。数据的客观性、准确性、完备性、分辨率等质量要求很高,这会直接影响到计算结果的可信度。三是数据量更大。实验观测数据、仿真模拟数据等不仅规模巨大且增长快速,远超普通商业化数据。四是维度更高。例如气象、地理、生物数据涉及时间、空间、物种等多个维度,结构更加复杂。 在科研数据领域,公开数据集对于推动科研创新具有重要意义。国外方面,公开数据集资源丰富、体系成熟,已成为全球科研工作者开展研究的重要基础设施。美国通过一系列项目推动科研领域公共数据集的建设、共享及应用,如美国国家生物信息中心(NCBI)成为全球医疗AI研究人员的首选数据源,其数据可在亚马逊云平台和谷歌云平台上便捷访问。在气象领域,美国国家海洋和大气管理局(NOAA)的数据是气象大模型研发的重要支撑。材料科学方面,“材料项目”(TheMaterialsProject)经过三十年发展,已成为该领域的标杆性数据库。数据资源的长期积累为科技突破奠定了重要基础,如AlphaFold2在蛋白质结构预测领域的成功很大程度上得益于蛋白质数据库(PDB)的长期数据积累。我国方面,近年来在科研数据建设及共享方面也取得了显著进展。全国已建成50多个国家级 行业科技数据中心和200多个地方科技数据中心,形成覆盖多领域的科学数据中心体系。在材料、天文、电磁、流体、气象、生命科学等领域已具备一定规模的公开数据集。 表1国外科研领域主要公开数据集(中国信通院根据公开资料收集整理) 领域 数据 持有单位 生命科学 全球蛋白质结构库(PDB) WorldwideProteinDataBank (wwPDB) 人类基因库(EMBL) 欧洲分子生物学实验室(EMBL) 蛋白质数据库(UniProt) 欧洲生物信息研究所(EBI)、瑞士生物信息研究所(SIB)及 美国国家生物医学研究基金会(NBRF)成立的蛋白质信 息资源(PIR) DNA序列数据库(Genbank) 美国国家医学图书馆生物信 息技术信息中心(NCBI) DNA数据库(DDBJ) 日本国立遗传学研究所 生物医学文献书目数据库(PubMed) 美国国家医学图书馆生物信息技术信息中心(NCBI) 材料科学 高通量材料计算数据库(AFLOW) 美国杜克大学 剑桥结构数据库(CSD) 英国剑桥晶体数据中(CCDC) 开放量子材料数据库(OQMD) 美国西北大学 无极晶体结构数据库(ICSD) 德国波恩大学 材料计算数据库(MaterialsProject) 美国加州伯克利大学 金属和合金晶体数据库(CRYSTMET) 加拿大渥太华大学 国际衍射数据中心的粉晶数据库(JCPDS) 国际衍射数据中心 开放晶体结构数据库(COD) 英国剑桥大学 密度泛函理论的材料数据集(JARVIS-DFT) 美国国家标准与技术研究院(NIST) 地球科学 ERA5大气再分析数据集 欧洲中期天气预报中心 (ECMWF) 海洋再分析数据集(HYCOM) 美国海军研究实验室(NRL) 海洋生物化学数据集 美国航天局 GLORYS12再分析数据 法国麦卡托 SST卫星观测数据 英国气象局 历史气候观测和模拟(ICAR-ENSO) 气候与应用前沿研究院ICAR 地球表面气候预测数据(EarthNet) / 汽车 SAE 国际自动机工程师学会 ShapeNet 斯坦福大学 AhmedBodyAerodynamics 英伟达 流体 周期山(PH-RANS、ERCOFTAC) 慕尼黑工业大学 圆柱绕流数据集(CylinderinCrossflow) / 顶盖驱动方腔流动(CFDBench) / 我国公开数据集建设不足,优质领域数据未能得到有效利用。一方面领域覆盖度有限,数据集建设不完善且质量有待提升。例如,盘古、风乌、伏羲等国内气象大模型的研发均依赖国外公开数据集,而非国内数据集。另一方面在科研机构与行业企业中已积累的大量领域数据公开意愿不