中国人工智能系列白皮书 ——人工智能与药物发现 中国人工智能学会二○二二年九月 《中国人工智能系列白皮书》编委会 主任:戴琼海执行主任:王国胤 副主任:陈杰刘成林刘宏孙富春王恩东王文博赵春江周志华 委员:班晓娟曹鹏陈纯陈松灿邓伟文董振江杜军平付宜利古天龙桂卫华何清胡国平黄河燕季向阳贾英民焦李成李斌刘民刘庆峰刘增良鲁华祥马华东苗夺谦潘纲朴松昊钱锋乔俊飞孙长银孙茂松陶建华王卫宁王熙照王轩王蕴红吾守尔·斯拉木吴晓蓓杨放春于剑岳东张小川张学工张毅章毅周国栋周鸿祎周建设周杰祝烈煌庄越挺 《中国人工智能系列白皮书人工智能与药物发现》编委会 主任:张学工 副主任: 高琳沈红斌汪小我汪增福赵兴明秘书长: 王颖 常务委员: 蔡宏民杜朴风高琳古槿蒋庆华姜伟雷秀娟李敏刘治平沈红斌宋晓峰汪小我王颖汪增福魏彦杰鱼亮张法张绍武张世华张学工张治华赵兴明章乐章文邹权 本书编写组 何松李昊刘琦刘世超宋弢施建宇涂仕奎魏乐义辛弘毅曾湘祥章文 全书统稿:章文 前言 《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中提出了“瞄准人工智能、生命健康等前沿领域”、“聚焦人工智能关键算法等关键领域,加快推进基础理论、基础算法、装备材料等研发突破与迭代应用”等规划。发展新一代人工智能是我国在科技革命与产业变革等战略问题上的重要抓手。药物是诊断、缓解、治疗或预防疾病的物质,对于改善人类健康和保证生活质量具有非常重要的作用。塔夫茨大学药物开发研究中心的研究表明,在过去30年,研发一种新药需要近26亿美元的资金投入与近14年的时间投入,这个数字依然在不断提升。在高昂研发成本的驱使下,制药公司目前正在寻找可以提高研发效率和转化成功率的新技术。 计算机辅助药物设计自20世纪60年代被提出,以计算化学、计算机科学和生物学等学科为基础,对靶标蛋白质与配体药物的结合过程进行计算模拟、预测,评估药物分子结构与其生物活性、毒性和代谢等性质的相互关系,进行药物分子的发现与优化。高通量技术的发展和应用产生了丰富的药物、疾病、基因和蛋白质等数据,使得开展人工智能药物发现成为可能。近年来,以Google公司AlphaFold为代表的人工智能系统在生命科学领域取得了重要突破,推动了人工智能等关键领域在药物研发上的应用。深度学习(DeepLearning,DL)、自然语言处理(NaturalLanguageProcessing,NLP)和知识图谱 (KnowledgeGraph,KG)等人工智能关键技术已广泛应用于药物发现的各个环节,如肿瘤靶点识别、苗头化合物筛选、药物从头设计、药物重定位、药物属性预测、药物相互作用预测、药物发现中的可解释性模型和大规模预训练模型等。人工智能辅助药物发现深刻改变了药物发现的方法和途径,极大提高了药物发现效率、缩短开发进程,加速了生物技术的创新变革,加深人类对生命科学中的分子机制的认 知。开展基于人工智能技术的药物发现研究,符合科技革命和国家发展规划的需求,是落实“面向世界科技前沿、面向国家重大需求、面向人民生命健康”战略的重要举措。 本白皮书收集了目前国内外人工智能与药物发现交叉领域的最新理论研究成果,并介绍了人工智能技术在药物发现领域中的应用。编写过程中的贡献者包括:辛弘毅(第一章)、施建宇(第二章)、涂仕奎(第三章)、曾湘祥(第四章)、宋弢(第四章)、魏乐义(第五章)、刘世超(第六章)、刘琦(第七章)、李昊(第八章)、何松(第八章)、章文(统稿与第六章)及其博士生李梦露、刘旋和王紫嫣(整理与校稿),在此一并表示感谢。 目录 前言1 第1章人工智能与肿瘤靶点识别1 1.1人工智能与肿瘤靶点识别概述1 1.2人工智能与肿瘤建模2 1.2.1人工智能与肿瘤转录组模型2 1.2.2人工智能与单细胞表观肿瘤模型5 1.2.3人工智能与多模态肿瘤模型12 1.3人工智能与靶点识别15 1.3.1人工智能与基于单细胞RNA的靶点发现15 1.3.2人工智能与基于表观的靶点发现17 1.3.3人工智能与基于多组学测序技术的药物靶点发现18 1.4人工智能在肿瘤靶点识别中的发展前景21 1.5本章小节22 第2章人工智能与苗头化合物筛选23 2.1人工智能与苗头化合物筛选概述23 2.2基于深度学习的苗头化合物筛选25 2.2.1CPI数据库25 2.2.2蛋白质和化合物典型特征表示26 2.2.3基于深度学习的CPI预测模型27 2.3深度学习在苗头化合物筛选中的发展前景34 2.3.1趋势与挑战34 2.3.2实际应用35 2.4本章小节36 第3章人工智能与药物从头设计38 3.1基于人工智能的药物从头设计概述38 3.2深度生成模型与小分子药物从头设计39 3.2.1小分子药物合理结构的生成模型39 3.2.2满足生化性质要求的小分子药物生成模型40 3.2.3基于靶点蛋白结构的小分子药物生成模型43 3.3深度生成模型与大分子药物从头设计46 3.3.1基于深度学习的核酸类药物设计47 3.3.2基于深度学习的蛋白和多肽设计48 3.4本章小节50 第4章人工智能与药物重定位52 4.1药物重定位概述52 4.2药物重定位数据库52 4.3表示学习53 4.3.1基于序列的表示53 4.3.2基于网络/图的表示学习56 4.4药物重定位的深度学习模型57 4.4.1以靶点为中心的模型57 4.4.2以疾病为中心的模型60 4.4.3模型评估61 4.5药物重定位的应用62 4.6本章小节65 第5章人工智能与药物属性预测67 5.1人工智能与药物属性预测概述67 5.2多肽药物属性预测69 5.2.1多肽属性预测方法70 5.2.2研究难点73 5.3药物属性预测最新研究进展74 5.3.1基于元学习的多肽药物生物活性预测74 5.3.2基于图神经网络的多肽毒性预测75 5.4本章小节78 第6章人工智能与药物相互作用预测79 6.1人工智能与药物相互作用预测概述79 6.2人工智能与药物互作用预测方法80 6.2.1基于文献数据的提取方法80 6.2.2基于药物关联数据的预测方法83 6.3人工智能在药物相互作用预测中的发展前景89 6.3.1构建标准数据集89 6.3.2药物事件预测90 6.3.3预测高阶药物相互作用91 6.3.4整合多源数据分析92 6.4本章小节92 第7章药物发现中的大规模预训练模型93 7.1分子表征93 7.2预训练95 7.3分子预训练97 7.3.1基于MaskLanguageModel的分子预训练98 7.3.2基于生成式模型的分子预训练99 7.3.3基于对比学习的分子预训练100 7.3.4基于几何特征的分子预训练101 7.3.5基于领域知识的分子预训练102 7.4分子预训练范例103 7.4.1确定预训练任务与模型结构103 7.4.2构建运算平台104 7.4.3设计微调策略105 7.4.4模型微调与评估106 7.5本章小节107 第8章药物发现中的可解释人工智能模型108 8.1药物发现中的可解释人工智能模型概述108 8.2可解释人工智能技术(XAI)109 8.2.1可解释机器学习109 8.2.2图结构的可解释技术110 8.2.3建模后的可解释技术112 8.2.4知识嵌入的可解释技术114 8.2.5针对注意力机制能否提供可解释的辨析115 8.3可解释人工智能在药物设计中的应用116 8.3.1XAI与定量构效关系(QSAR)116 8.3.2XAI与联合用药118 8.3.3XAI与分子属性预测119 8.3.4XAI与药靶互作120 8.3.5XAI与药物不良反应预测121 8.3.6XAI与新药设计122 8.4可解释人工智能在药物发现中的前景展望122 8.5本章小节124 参考文献125 第1章人工智能与肿瘤靶点识别 1.1人工智能与肿瘤靶点识别概述 肿瘤药物研发是人工智能(Artificialintelligence,AI)的重要应用场景。靶点识别是肿瘤药物研发的关键抓手。近年来,在肿瘤多组学大数据的驱动下,人工智能逐渐成为肿瘤靶点研究中必不可少的研究手段。早期的肿瘤靶点研究模式较为简单,以检测肿瘤高突变率基因为主。目前已经获批进入临床的肿瘤靶向药大部分就是靶向这些高突变率的基因编码的致癌蛋白[1]。然而经过临床的长时间测试,人们发现,这样的靶向方案能覆盖的肿瘤患者群体过于有限,即使是能满足靶向治疗条件的患者,也很容易出现耐药甚至转移复发的情况[2]。近年来,生物分子测量技术的不断突破,使得人们能够从不同分子层面建立全面的肿瘤异常模型,为肿瘤靶点研究创造了新的契机。肿瘤靶点的研究从传统的关注高突变基因的单一思路,逐渐发展为多层面、多角度的研究思路[3]。随着技术的普及和成本的下降,无论是反映肿瘤病人个体间差异的批量组学数据,还是反映肿瘤细胞间差异的单细胞组学数据都在快速产生和累积。爆发式增长的肿瘤组学大数据,为人工智能在肿瘤研究上的应用提供了数据基础。同时,组学数据具有维度高、噪声大、数据类型多样等特点,分析难度较大,也确实需要量身定制的分析方法来进行去噪和模式抽提。 日益丰富的组学测量技术为发现新的肿瘤靶点提供了契机。组学通常指生物学中对各类研究对象(一般为生物分子)的集合所进行的系统性研究,如基因组学、蛋白质组学、转录组学、代谢组学等。传统的批量(bulk)组学技术是以个体为研究对象,将待测生物样本中所有细胞混合在一起进行分子测定,只能反应肿瘤个体间的差异。新兴的单细胞组学技术能对肿瘤样本中的每个细胞进行分子测量,全面刻画肿瘤细胞间及肿瘤免疫微环境的异质性,为破解肿瘤耐药性产生 机制、研发新的肿瘤靶点提供了强大工具[4,5]。近年来,组学测量技术不断融入主流的临床肿瘤学,科学研究表明可改善临床结果的多种分子靶向药也逐渐获批进入临床,加速了肿瘤治疗范式的改变,例如:曲妥珠单抗或威罗非尼等靶向药已成为表达HER2靶点的乳腺癌患者和有BRAF靶点突变的黑色素瘤患者的临床治疗标准,以免疫细胞为靶向目标的免疫检查点抑制剂也获批可用于治疗微卫星不稳定性特点的肿瘤患者[6]。 人工智能为基于组学数据的肿瘤靶点识别提供了强大的计算工具。人工智能,更具体地说是机器学习(Machinelearning,ML)分支,可以处理大规模异构数据集,并识别出数据中的潜藏模式。而随着技术的普及和成本的下降,肿瘤样本的批量组学和单细胞组学数据都在快速产生和累积,为人工智能在肿瘤研究上的应用提供了重要的数据基础。此外,组学数据具有维度高、噪声大、数据类型多样等特点,分析难度较大,需要量身定制的分析方法来进行去噪和模式抽提。目前,决策树、支持向量机等众多人工智能模型均已广泛应用到了组学数据建模和肿瘤靶点识别中[7,8]。 1.2人工智能与肿瘤建模 1.2.1人工智能与肿瘤转录组模型 1.2.1.1肿瘤转录组异质性 癌症的一大普遍特点是转录失调[9]。在细胞内部,调节网络由一组连接的途径组成,其中途径是细胞中发生的化学反应链,通路是基因的集合,这些基因相互作用可以实现特定的细胞功能,调节细胞的状态,它们共同构成了细胞调节网络。为了使细胞正常运作,通路基因的表达水平需要得到很好的控制。然而,正常细胞和癌细胞存在许多差异表达的基因,癌细胞中的异常表达可能通过抑制或刺激途径使途径失调,这可能会影响细胞的适应性(即增殖能力),这种转录组 上的差异即为癌症中的转录组异质性。转录组指的是细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA,细胞的转录组可以随外部环境条件转变[10]。转录组异质性在癌细胞中会急剧增加,这来源于DNA拷贝数异常,细胞所处环境的刺激,基因之间的相互作用混乱等。从转录层面来看,癌症是一种细胞调节网络混乱的疾病,因而进行转录组上的研究可为我们提供癌细胞更全面更独特的信息。对于基因组相同的细胞,也可能因其所处环境不同而表现出不同的转录状态。基于转录组的研究统称为转录组学,能够研究统计单个细胞或特定类型的细胞、组织、器官或发育