个性化联邦学习助力AI在药物研发中的应用 华为徐迟博士 目录 新药研发的意义 健康中国战略刚性需求 复杂性、突发性疾病严重危害我国人民生命与健康 4500多种疾病中90%的疾病无药可治 医药产业发展需求 •2019年全球药品(处方药)市场总金额1.11万亿美元,其中全球销售额前50品种(处方药,其中创新药达90%以上)达3220亿美元,占全球药品市场的28.95% •修美乐(阿达木单抗)连续9年蝉联全球“药王”,累计创造超过1500亿美元销售额 •索非布韦上市当年销售额即突破100亿美元 药物研发的流程是什么样的? 药物研发的本质是:针对指定靶点,不断设计、筛选、优化化合物;从成百上千万个化合物中选择出对目标靶点有效应的化合物,并且满足对人体的安全性要求 研发流程药物发现预临床研究 临床研究 I期、II期、III期) ( 审批和上市 成千上百万个化合物数百个化合物5-10个化合物 被FDA批准成药 药物发现的挑战和关键问题 投入大周期长 •8亿元是15年前的平均投入 •26亿美元是5年前的平均投入 靶标发现 药物开发药物开发 HMG-CoA还原酶发现19年 9年洛伐他汀上市 PD-(L)1发现14年 8年Nivolumab上市 ALK发现20年 7年克唑替尼上市 效率低转化慢 •传统方法以逐步实验筛选为主,失败率高 •数据获取技术壁垒高、成本高、保密性强 •药物发现的工作,及靶标发现的工作多由大学和科研机 构进行,后经过成果转化,被药企购买,转化很慢。 目录 近年来药物研发领域发生哪些技术变革? 实验学科+信息技术+AI技术,促使药物研发领域成为AI技术应用热点 研发流程药物发现预临床研究 临床研究 流行病学 药物化学 分子生物学 细胞生物学 I期、II期、III期) ( 审批和上市 实验学科 实验技术发展数据积累 物理化学 毒理学 生物化学 结构生物学 交叉学科 AI+云技术 科学领域交叉 化学信息学 计算生物学 生物信息学 计算化学 量子化学 分子模拟 信息技术融入 云算力 大数据技术 AI算法 大数据爆发 人工智能融入 人工智能可以加速新药研发的多个环节 AI技术 病人病情 进展预测 疾病机制发现 监督强化 药物知识 图谱靶点发现 预测学习 生成可解 模型释器 图算法… 生产效率优化 抗体优化 临床 分析 合成路径优化 大分 子 药物 药物基因组 学 蛋白质 靶点 细胞 影像 小分子药物 蛋白质结 构预测 生物标记物发现 麦肯锡公司预测人工智能领域十大发展趋势:通过 AI技术可以快速、低成本获得新型药物和治疗方法 药物活性预测 ADME/T预测 药物结构优化 人工智能药物发现概念开始得到验证 •DeepGenomics利用AI找到新药物靶点和候选药物 2019年准备申报IND就绪,预计两年内推进临床 •Exscientia与GSK的AI合作达到里程碑 2019年Exscientia向GSK交付了靶向COPD治疗新通路的高活性且具有体内药效的候 选化合物,测试了5轮共85个化合物 •Exscientia与住友制药的AI合作项目进入临床 2020年强迫症药物发现DSP-1181进入临床,发现优化过程仅用1年 •InsilicoMedicine利用AI平台快速发现DDR1候选药物 46天找到DDR1抑制剂,体内药效验证并推进到候选 •RecursionPharmaceuticals与武田制药AI合作达到里程碑 2019年Recursion宣布对6种特殊疾病找到新的候选药物,用时1.5年 Takeda对其中两个罕见病候选药物项目执行后续开发选项 华为云医疗智能体AI平台 HuaweiCloudEIHealth PoweredbyModelArts 基因组研究 临床研究 药物研发 EIHealth EIHealth Engine EIHealth Fundamentals 基因组引擎 AutoGenome,Fast-Bonito,NGS,TGS Notebook ML 临床研究引擎AutoCox,DeepKG,AICT DLGNNRL 药物研发引擎iPhord,FedAMP,HTVS KG MD AI市场 QM… ModelArts+DAYU Ascend+KunpengGPU,x86 基础组件专业组件市场 药物所&EIHealth合作成果: iPhord——从一级序列预测蛋白质/抗体3D结构 iPhord:端到端的蛋白质结构预测算法 蛋白质一级序列 •蛋白质折叠复杂而且挑战 •实验手段耗时长、试验成本高 iPhord算法iPhord-Antibody算法 •同源建模在缺少高质量模板的情况 下,无法预测得到好的3D结构 •可以通过AI算法,使用蛋白质一级 序列预测3D结构 蛋白质3D结构 抗体可变区CDR结构 靶点研究、抗体开发 中科院上海药物所联合华为,开发iPhord算法,从蛋白 质一级序列预测3D结构 药物所&EIHealth合作成果: 药物重定向预测——老药新用,加速药物寻找新应用 基于癌症基因组数据,预测疾病模型对于抗癌药物的敏感度 Gene expression Singledenseblock 药物重定 Denselayer FC265 FC512 CDenseClayer 向预测 “老药新用”,从已有药 Drugsensitivityscoreto265drugs FC265 FC 265 物发现其新的作用,可以 growth_rate=128 C Singledenseblock Denselayer 使用同一套测试数据进行10×交叉验证计算F1值,药物响应度由“半数抑制浓度“评估,是指凋亡细胞与全部细胞之比等于50%时所对应的药物浓度 Gene mutation FC512 以很快的方式开展药物研 CDenseClayer 究的开展。 NetforgeneexpressiondataNetforgenemutationdataNetfordataintegration growth_rate=512 药物协同预测 使用场景 1.输入用户感兴趣的细胞系或组织的基因表达、基因突变数据,推理出哪一个抗癌药物对这个细胞系、 组织更加有响应; 2.根据用户自有的一系列数据,使用迁移学习的技术进一步训练模型,再对新的数据进行推理。 同样的数据(O’Neiletal.,2016)和数据处理方法,所有指标上HUAWEI模型胜出。药物协同作用是药物间一种相互作用关系,特指两个或多个药物同时使用所引起的效果超过所有涉及的单个药物效果的总和,对机体可能造成有益或有害结果。可通过LOEWE分析将药物协同筛选试验量化。 药物所&EIHealth合作成果: AutoOmics——快速发现生物标志物,加速临床研究 使用AutoOmics自动整合建模多组学数据, 发现生物标记物 快速发现对于4种乳腺癌亚型预测贡献最大的基因表达、基因图标和蛋白表达 C C FC256 DNAmethylation TrainingmodelsusingTCGAbreastcanceromicsdata AutoML FC256 FC128 FC2048 生物标记物:在医学上通常是指在血液中的某种蛋白质,通过测量它,可以反映出某种疾病是否 Step1:Omicsdata AutoML AutoML AutoML CNV Genemutation Geneexpression Step2: Searchforoptimalsingle-omicsmodels Learningtargets Learningtargets Learningtargets Step3: Concatenatelatent+ Learningtargets FC64 layersfromtheoptimal Geneexpression Genemutation Proteinexpression NetforgeneexpressiondataNetforgenemutationdata C C C FC64 FC2048 FC16 FC64 FC512 FC1024 FC2048 Breastcancersubtypes FC64 Netforproteinexpressiondata Netfordataintegration 出现或严重程度 single-omicsmodels Top-10impactrankingoffeaturesonmodeloutput Step4: Searchforoptimalmulti-omicsmodel Geneexpression AutoML SCGB2A2SCGB1D2GSTT1GFRA1RBM20 MYH11HER2FASHINPP4B Acetyl-a-… Genemutation 051015 02040 Learningtargets SumofabsoluteSHAPvalues 药物所&EIHealth合作成果: 利用华为云高性能算力,加速药物筛选 筛选时长 30天1天 2020年 德国红点最佳设计奖 筛选、搜索、可视化一体的药物虚拟筛选云服务平台 通过华为云15,000核超大算力,完成了新冠21个蛋白质靶点与8500个已上市药物的筛选工作 分子动力学模拟工具 GROMACS耗时,6X提升 在基准数据上(768Ksize,包含25.6万个水分子及76.8万个原子)计算加速前后构建水分子动力学模型所需的时间 GROMACS广泛应用来模拟研究蛋白质、脂质、核酸等生物分子的性质,可用 于蛋白结构解析,药物研发,合成生物学等领域 通过华为云15,000核超大算力,完成了新冠21个蛋白质靶点与8500个已上市药物的筛选工作。将筛选时长从30天缩短到1天。抗新冠病毒药物筛选工作,作为ACS期刊JCIM封面文章发表 药物扩展空间数据库:DrugspaceX https://drugspacex.simm.ac.cn/ NucleicAcids Research,2020 http://doi.10.1093/nar/gkaa920 面对疫情快速启动应急攻关 •1/19/2020 成立抗击新冠联合攻关团队 •1/26/2020 解析首个新冠病毒靶标Mpro蛋白质晶体结构,并立即公布结构数据 图1.SARS-CoV-2Mpro蛋白酶与N3结合物晶体结构 •结构数据被国内外300多家实验室和公司用于新冠药物研发 •Mpro蛋白质晶体被ProteinDataBank评为2月明星分子 •公布30种老药、中药和天然产物抗新冠研究结果 •上海科技大学(饶子和/杨海涛)上海药物所(蒋华良/柳红/许叶春等) •武汉病毒研究所(肖庚富/石正丽/张磊砢等) 日夜兼程研制良药 •2/1/2020 筛选出新型抗病毒候选分子DC402234,并测定小分子Mpro复合物的晶体结构 •化合物与MproCys145 形成共价键 •对SARS-CoV-2具有 亚微摩尔级抑制活性 图2.SARS-CoV-2Mpro蛋白酶与11a,11b结合物晶体结构 •7/1/2020 向中国NMPA和美国FDA申请 DC402234的临床研究 •7月底获得美国FDA批件 •上海科技大学(饶子和/杨海涛)上海药物所(蒋华良/柳红/许叶春等) •武汉病毒研究所(肖庚富/石正丽/张磊砢等) 新冠不除研发不止 Drugs NaturalProducts 3CL水解酶Mpro •虚拟筛选出1033个候选化合物 •378个化合物具有分子水平活性 木瓜类蛋白酶PLpro •虚拟筛选出776个候选化合物 RNA多聚酶RDRP Compound Database •虚拟筛选出1334个候选化合物 图3.新冠靶标的可能作用机制图4.新冠靶标的高通量虚拟筛选 •筛选老药、天然产物和商品化合物等一百 八十余万化合物,发现候选化合物3143个 •已测试的化合物中,378个化合物具有分 子水平