-1- -2- -3- -1- 一、AI制药发展历程 在过去的20年中,作为生命科学和信息技术的两大前沿,生物医药和人工智能这两个领域均取得了重大里程碑进展并呈现融合发展的趋势,由此推动了AI制药的兴起。随着BT(生物技术)和IT(信息技术)的不断深化,AI制药行业快速发展的势头仍将持续,为人类健康事业提供更强动力。 图1-1AI制药大事件 来源:智药局 二、AI制药行业产业链条分析 近十年来,越来越先进的信息技术得以用于生物层面,随之而来的是相关数据及工具的极大充盈,AI制药得以拓展更加多元的发展方向和更加广阔的应用空间。 不仅仅局限于传统的小分子药物,AI在大分子药物、细胞和基因疗法领域的作用也不断获得印证,一大批相关Biotech随之涌现。与此同时,辉瑞、赛诺菲、拜耳、强生等跨国药企和包括药明康德、IQVIA在内的CXO企业也纷纷加入进来,投身AI技术赋能药物的研发之中。 图1-2AI制药行业产业链 来源:智药局 上游——AI制药产业链上游主要分两大类:提供AI技术和提供生物技术的企业。 提供AI技术的企业中,辅助制药的人工智能硬件设备包括服务器和芯片等。软件包括各类机器学习、深度学习以及其他人工智能算法,还有数据收集和处理平台、开源软件包以及云计算平台等辅助类软件。例如,AmazonWebServices(AWS)、GoogleCloudPlatform(GCP)、华为云等云平台和工具为AI制药提供了强大的计算和分析能力。 图1-3上游软件服务商与AI制药公司的合作 来源:智药局 提供生物技术的企业包括提供CRO服务的企业和提供先进设备的企业。前者主要为提供制药流程中不同阶段辅助服务的传统CRO企业,后者则凭借冷冻电镜、自动化实验室等设备等高端设备提供技术支持。 中游——随着上游AI技术和生物技术的发展,AI制药企业的中游部分呈多元化发展趋势。按照商业模式的不同可以分为:AI+Biotech、AI+CRO、AI+软件/服务三类;同时IT头部企业以及AI与其他技术的结合应用也占据部分中游市场。 AI+Biotech企业从药物本身的性质或治疗手段分类,又可以分为小分子药物、大分子药物以及细胞和基因疗法。公司的核心目标是在综合考虑收支的情况下尽可能地推进管线进展。 AI+CRO企业和AI+软件/服务企业的区别在于不同的业务性质带来的商业模式、团队规模等方面的差异。更加定制化的CRO业务为公司在药物机制理解、团队人员配置、成本费用开支上提出了更高要求,与之相匹配的,其在药物研发价值链条上参与分成的比例更高;而软件/服务则通过打造平台或软件间接地为AI制药提供帮助,这类企业更加考验底层算法的普遍适用性,客单价不高但容易产生规模效应,相关成本也较低。 同时,国内外头部互联网企业也通过对外投资、打造自有相关平台、提供算力及计算框架服务等手段,在AI制药领域积极布局。此外,AI与大模型、DEL、虚拟临床等技术的结合也成为传统制药公司融入AI技术的一种渠道。 下游——AI制药企业的下游分为传统药企、Biotech公司和CXO企业。传统药企既可以和中游企业合作管线来丰富药物种类,提高药物研发成功率,还可以利用已有的成熟销售渠道进行AI辅助研发药物的销售;Biotech公司是传统药企与AI制药企业合作的另一种模式,通过前期合作开发药物分子以及后期管线或药物授权获取收益;CXO企业同样可以从中游企业获取技术,以提高自身竞争力和市场占有率。 选择适合的AI制药公司进行合作,成为药企、Biotech和CXO最常见的参与方式。头部AI制药公司在传统药厂的合作的渗透率不断提升,以Exscientia为例,就已披露了和罗氏、拜耳、赛诺菲在内的顶级制药公司的合作。除此之外,部分公司还会选择软件服务合作,即AI+SaaS模式。Iktos在授权机器学习模块的同时,也包含了联合技术开发协议的形式,合作的制药公司将资助其新算法开发。但目前,这种合作模型并非国内创企变现的核心关注点。 数据库——近年来,AI制药领域数据库的迅猛发展,离不开大数据、机器学习、结构生物学等多个领域技术的不断进步和相互融合。这些技术的发展为大规模化学和生物数据的收集、分析和挖掘提供了有力支持,进一步推动了AI在制药领域的应用和发展。 AI制药数据库可包含:多组学系统数据库(如基因组学、转录组学、代谢组学等)、小分子化合物数据库、疾病生物学原理数据库、现存药物及靶点数据库、患者临床试验/动物模型数据库等。例如2022年DeepMind公开的蛋白质结构数据库,包含数2亿个已预测蛋白质结构。其他包括化学生物学数据库Chembl、转录组学数据库GEO、蛋白组学数据库PDB、靶点的综合数据库TTD、药物信息知识库DrugBank、临床数据数据库ClinicalTrials.gov等,这些数据被大量地用于基于AI技术的药物筛选、分子模拟和生物信息学分析,有助于加快新药发现和开发的过程。 -6- 一、AI制药技术原理 周期长、成本高、成功率低一直是新药研发领域的痛点。随着机器学习、深度学习等关键技术的快速发展,AI已应用至药物靶点发现、化合物筛选和成药性预测等多项药物研发环节,优势逐渐显现。当前驱动AI制药公司的技术分为两类:一类是以人工智能算法为核心技术,在硬件设备的支持下 和各类生物数据库的基础上开发模型进行新药研发;另一类是以前沿生物技术为核心,人工智能作为提高效率的工具辅助新药分子的发现和设计。 图2-1技术原理 当前应用在制药中的人工智能算法包括机器学习、深度神经网络、深度强化学习等多种类别,在不同的领域中各有优劣。 人工智能算法的支撑层包括数据和算力,数据的主要来源包括实验数据库、开源数据库(文本&结构)、物理模拟生成的数据库以及清理公开信息后构建的数据库;算力支持则依仗CPU、GPU等硬件设备。 图2-2人工智能三要素 生物技术的进步为AI制药行业带来了许多新的机遇和挑战,也使得这一领域能够更加快速地发展和创新。 图2-3生物技术 二、AI制药技术应用场景 目前而言,AI技术在传统制药中可以应用的领域包括靶点的发现和识别、药物从头设计、ADMET预测、临床试验等在内的八大模块,基本涵盖了药物发现、开发和临床的全流程。 图2-4AIDD应用场景 (一)靶点的发现和识别 目前,进行靶点预测的人工智能底层算法主要包括机器学习(ML)、深度学习(DL)、大型语言模型、知识图谱等。从方法上来讲,人工智能目前主要通过基于多组学分析、基于蛋白质序列、基于蛋白质结构和网络和基于网络药理学这四个技术路径来赋能靶点发现。 1.多组学分析和药物靶点预测 伴随着高通量测序技术的发展,海量的组学数据被积累起来。面对高度复杂、维度惊人的生物学数据,AI算法可以一定程度上跨越多组学数据中存在的“维数灾难”,通过多维度组学数据的整合和高通量功能筛选能够更加系统地发现与临床密切相关的靶点。 人工智能(AI),特别是深度学习(DL),非常适合处理复杂和非结构化数据,并且具有在多模态数据中发现非线性和多维数据。如图2-5所示,为InsilicoMedicine(英矽智能)用于靶点发现的PandaOmics平台。 图2-5PandaOmics平台 PandaOmics平台通过AI对患者基因组学和蛋白质组学等医学多组学数据的挖掘分析来实现,对正常组织和疾病组织比较,分析这两个组织的RNA或/和蛋白质差异表达,结合通路分析和强大的数据整合来发现靶点信息。 实例来源:英矽智能 2.基于序列的蛋白质可药靶性的发现 具有相似序列的蛋白质在一定程度上具有相似的结构和功能。因此,靶点与成功靶点的序列相似性分析是研究潜在靶点的可药靶性的重要途径。同时,靶点的序列信息还衍生了许多额外的描述符,比如蛋白质数据的表征方法里介绍的CTD描述符,除了基本的氨基酸组成之外,还包括由氨基酸组成计算的各种物化性质,如疏水性、极性、极化性、电荷等等。 针对这样的数据,人们开发了各种基于人工智能算法的方法来预测新的靶点,深度神经网络(DNN)和K最近邻算法(KNN)是常用的人工智能算法,DNN和KNN的算法原理见图2-6所示: 图2-6DNN和KNN的算法原理 3.基于蛋白质网络的可药靶性发现 基于网络的可药靶性发现的原理是在知识图谱及其嵌入(GRE)模型上,评估和推断不同生物实体之间的相互作用,从而发现新的可药靶性蛋白。 随着AlphaFold2的问世,越来越多的蛋白质结构得到验证,现有成熟的数据库包括PDB、SCOPe、CATH、AlphaFold、TTD等。除此之外,还有与其他分子相互的作用的信息等多种数据库,如蛋白质组数据库、蛋白质相互作用数据库、药物基因组学数据库、基因本体论数据库、药物及其治疗靶点的信息、药品数据库、药物-靶点关系数据库、药物不良反应数据库等。基于知识图谱预测可药靶性识别的方法,可以整合多源异质的生物医药信息,并获取其中的内在关联,在蛋白质可药靶性的识别上占据十分重要的地位。如图2-7所示,为TriModel模型原理图,TriModel模型是一种基于知识图谱嵌入的药物-靶标预测方法。 图2-7TriModel模型 TriModel模型,通过使用如KEGG、UniProt和DrugBank等现有的生物知识库生成了与药物-靶标相关的生物实体知识图谱。然后,训练TriModel模型来学习药物-靶标的有效向量表示。 实例来源:SamehKMohamed,VítNováček,AayahNounu.“Discoveringproteindrugtargetsusingknowledgegraphembeddings”Bioinformatics(2019) 4.基于网络药理学的靶标发现 网络药理学是一门结合生物信息学、网络科学和药物学等学科的新兴交叉学科。它基于大规模数据和计算机技术,探究药物分子与生物体内靶点、通路、基因等分子间的相互作用网络,以及这些相互作用对于药物的药效、毒性、代谢等影响。如图2-8所示,将药物、靶标等内容抽象成一个复杂的生物分子网络,可以通过它们之间的相互作用关系来认识疾病发生和发展的生物学机制。 图2-8网络药理学中药物成分-靶标网络图 实例来源:李楠,陈蕾,张琨.基于网络药理学探讨人参调控铁死亡抗阿尔茨海默病的潜在作用机制[J].现代药物与临床,2022,37(2):244-251. 未来网络药理学的研究将会涉及更多的多模态数据,如基因组学、转录组学、蛋白质组学、代谢组学等数据。面对多维度数据,人工智能技术在这方面的应用已经开始受到广泛关注,未来的网络药理学也将借助这些技术的发展,实现更加智能化和高效的分析和预测。 (二)虚拟筛选 AIDD初创企业大多数布局了先导化合物设计、优化和合成,利用人工智能算法学习和处理海量的知识和数据,建立高效的模型,实现快速筛选,找到符合要求的化合物。例如,以Schrödinger(薛定谔)、英矽智能、深势科技为代表的企业,均在此阶段有布局。 虚拟筛选是计算药物发现的一种手段。虚拟筛选(VS)一般可分两种,即基于结构的VS(SBVS)和基于配体的VS(LBVS)。 1.基于结构的虚拟筛选 基于结构的虚拟筛选,也称为基于靶标的虚拟筛选,这类药物设计方法包括常规的分子对接方法和从头设计等其他方法。其中如何准确预测小分子与靶标间的结合亲和力是这类药物设计方法中的核心问题。打分函数是一种可靠的描述结合亲和力的方法,目前,融合人工智能的基于结构的ML模型(SBML)和DL模型(SBDL)评分函数显示出比传统方法普遍更优的预测精度和灵活性。如图2-9所示,为Schrödinger公司的ActiveLearningGlide板块。 图2-9PandaOmics平台 ActiveLearningDocking板块通过将Glide对接和评分与机器学习模型的强大功能相结合,快速、准确且经济高效地筛选数十亿种可购买化合物。 实例来源:Sch