1 2 3 1 1.2 1.2.1 1.2.2 1.2.3 8 2.1 2.1.1 2.1.2 序号 时间 模型 发表期刊 架构 缺点 1 1980s BlastKNN / 输入:蛋白质序列;算法:通过比较目标蛋白与已知功能的蛋白质之间的相似性,然后采用一种相似性加权算法来预测目标蛋白的功能; 早期机器学习算法,效率低 2 2018年 DeepGO Bioinformatics 输入:蛋白质序列和PPI网络;算法:基于卷积神经网络(CNN)的深度学习分类模型,使用3-mer编码蛋白质序列,取序列特征。对于PPI网络,采用DeepWalk生成每个蛋白质的256维网络拓扑特征; 层次化分类网络需要巨大的内存资源,难以应用于大规模标签 3 2020年 DeepGOCNN Bioinformatics 输入:蛋白质序列;算法:从蛋白质序列中提取特征以预测功能,通过堆叠的CNN层来提取特征并预测蛋白质的功能 最大预测蛋白质长度为2000 4 2020年 DeepGOA IEEE/ACMTransactionsonComputationalBiologyandBioinformatics 输入:蛋白质序列和PPI网络;算法:使用Word2vec生成序列的残基级嵌入,然后输入到Bi-LSTM和多尺度CNN层中以提取全局和局部特征; 具有特殊特征的蛋白质功能无法预测,蛋白质序列最长为1000 5 2021年 DeepGraphGO Bioinformatics 输入:蛋白质序列和PPI网络;算法:端到端模型,利用GNNs从PPI网络中提取信息以预测蛋白质功能; 缺乏PPIs信息的新测序生物体难以预测 6 2021年 DeepFRI NatureCommunications 输入:蛋白质序列和结构;算法:融合了自监督语言模型和图卷积网络,从蛋白质序列的自监督模型中提炼出的序列特征及蛋白质结构来预测其功能; 蛋白质序列训练集局限于PDB 7 2022年 GAT-GO BriefingsinBioinformatics 输入:蛋白质序列和结构;算法:基于图注意力网络(GAT)的方法,它利用预训练的蛋白质序列语言模型。GAT-GO输入蛋白质序列,提取序列特征、残基级特征和结构特征,从而预测功能; 对于长序列蛋白质,对蛋白质结构数据精度要求很高 8 2024年 DeepGO-SE NatureMachineIntelligence 输入:蛋白质序列;算法:使用预训练的大型语言模型从蛋白质序列预测GO功能,通过生成多个近似GO模型,并用神经网络预测蛋白质功能的真值; 当序列与PPIs结合时性能最佳,许多新蛋白质没有已知的相互作用限制了组合模型的应用 2.2 序号 时间 模型 团队 架构 应用范围 1 2018年 DNN-PPI 天津大学团队 DNN-PPI基于深度神经网络,包含卷积神经网络(CNN)和长短期记忆(LSTM)两个独立的顺序层,从蛋白质序列中学习的特征以自动预测PPI。 预测蛋白质-蛋白质相互作用 3 2021年 AlphaFold-Multimer DeepMind 基于深度学习,先建立复合物的多序列比对,以推断进化关系,然后用与AlphaFold2基本相同的深度学习方法来预测三级结构。 预测蛋白质复合物三维结构 2 2021年 EquiDock 麻省理工学院 EquiDock模型,假设蛋白质内的构象在结合过程中没有发生构象变化的情况下,在单个未结合的结构中计算预测蛋白质-蛋白质复合物的3D结构的模型。 预测蛋白质-蛋白质复合物结构 6 2022年 EquiBind 麻省理工学院 以EquiDock为基础,依赖SE(3)-等变图神经网络,以配体分子图的随机三维构象和受体结构作为输入,预测结合蛋白质配体构象。 预测蛋白质-小分子复合物结构 4 2022年 DeepTrio 浙江大学团队 DeepTrio是一种使用掩码多个并行卷积神经网络进行蛋白质-蛋白质相互作用的一个深度学习框架,它允许模型学习相对性质并研究每个残基对预测结果的贡献,并通过热图可视化蛋白质的重要性图。 预测蛋白质-蛋白质相互作用 5 2022年 UniFold-Multimer 深势公司团队 端对端的蛋白质复合物结构预测,输入蛋白质多聚体的一级结构),预测蛋白质的三级结构,同时给出预测结果的置信度。 预测蛋白质复合物结构 7 2022年 TANKBind 星药科技联合复旦大学、中山大学共同研发 基于图神经网络模型,用三维结合构象表示分子之间的几何关系,从而提高预测的准确性。 预测蛋白质-小分子配体结构和亲和力 8 2022年 DIFFDOCK 麻省理工学院 基于深度学习的分析对接模型,以配体和靶标的结构信息作为输入,之后对配体进行了一定的构象转换(平移,旋转,扭转)来生成新的配体构象,最后则是对这些生成的配体进行一个合理性的评分以及排名。 预测蛋白质-小分子结合结构 9 2023年 DIFFDOCK-PP 麻省理工学院 算法整体思路与DiffDock接近,使用机器学习方法学习将未结合的蛋白质结构翻译和旋转为其结合构象,对评分模型生成的不同姿势,进行排序并选择最佳姿势。 预测蛋白质-蛋白质结合结构 10 2023年 HIGH-PPI 腾讯AILab联合香港科技大学、中国科学院大学相关团队 基于层次图学习技术的深度学习,描述蛋白质之间的相互作用,每种蛋白质就是一个节点,蛋白质之间的相互作用就是图的边,关键氨基酸或残基组合就是图的节点,物理位置相邻的残基以边相连。 预测蛋白质-蛋白质相互作用 11 2023年 RoseTTAFold2NA DavidBaker团队 端到端的深度学习方法,使用与RoseTTAFold相同的数据集进行训练,并增加了所有RNA、蛋白质-RNA和蛋白质-DNA复合物的结构信息。 预测核酸结构和蛋白质-核酸复合物结构 12 2023年 AlphaFold-latest DeepMind 最新版本的AlphaFold。 对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测 2.3蛋白质设计 序号 时间 模型 团队 架构 应用范围 1 2019年 trRosetta DavidBaker团队 基于结构神经网络的蛋白质序列设计方法。 蛋白质逆折叠 2 2022年 ProteinMPNN DavidBaker团队 基于图神经网络的蛋白质序列设计方法。 用于设计单体蛋白质、对称重复结构、纳米颗粒和目标蛋白质结合物。 3 2023年 RFDiffusion DavidBaker团队 基于扩散模型,结合预先训练的蛋白质结构预测模型RoseTTAfold的蛋白质设计方法。 用于稳定单体设计、对称低聚物设计、功能基序或酶活性位点的支架设计,以及蛋白质结 合物设计。 4 2023年 ProGen SalesforceResearch、TierraBiosciences和加州大学的研究团 以无监督学习的方式在一个大型多样的蛋白质序列数据库中进行训练,学习通用的蛋白质表示。训练后,ProGen可以根据提示从头生成蛋白质序列 从功能生成蛋白质序列 2.4蛋白质组学 应用范围 序号 时间 应用 团队 架构 1 2020年 PandaOmics平台 InsilicoMedicine(英矽智能) 通过AI对患者基因组学和蛋白质组学等医学多组学数据的挖掘分析,对正常组织和疾病分析,结合数据来整合靶点信 2 2022年 AI赋能的蛋白质组学平台 西湖大学郭天南团队 及西湖欧米 3 2024年 22 3.1新药研发 3.1.1 序号 成立时间 企业名称 平台 应用场景 最新融资轮次 商业模式 合作企业 管线情况/成果 1 2011年 ABSci IntegratedDrug Creation™平台 抗体药物研发——从头生成、先导化合物优化、细胞因子生物 2021年7月上市 自研管线/合作管线 诺华、梯瓦、维森特、IGM公司 数条药物管线 2 2012年 AbCellera 抗体药物开发平台 抗体药物研发 2020年纳斯达克上市 自研管线 阿斯利康、AImirall、艾伯维 数余条管线,ABCL575和ABCL635两条目前正在进行IND研究 3 2012年 LabGenius 基于机器学习的蛋白质 药物发现&EVATM蛋白质工程平台 抗体药物研发(癌症、炎症)——优化抗体 2020年A轮 合作 赛诺菲 LabGenius与赛诺菲合作优化NANOBODY®蛋白,获得积极成果 4 2013年 瀚科迈博 AI-计算机辅助抗体设计平台 抗体药物研发(肿瘤靶向治疗和肿瘤免疫治疗) 2023年A+轮 自研/合作管线 安科生物 8条管线,未进入临床 5 2014年 BenchSci 知识图谱连接的ASCEND平台 SaaS——重组蛋白、RNAi、动物模型、基因编辑技术等试剂的选择 2023年D轮 合作 赛诺菲、诺和诺德、艾伯维、武田制药、GSK、诺华 、强森、百济神州、默克 / 6 2017年 JuvenaTherapeutics JuvNET平台和专有蛋白质库 分泌蛋白设计 2022年A轮 自研管线 / 数余条管线,涉及多种肌病和代谢类疾病以及未披露的管线 7 2018年 GenerateBiomedicines Chroma生成式人工智能模型 蛋白质从头生成 2023年C轮 自研管线/合作管线 安进、美国安德森癌症中心 十余条管线,包括免疫学、传染性和肿瘤学等领域 8 2018年 NablaBio 蛋白质语言建模的人工智能蛋白质设计平台 AbMapTM平台 抗体药物设计-从头生成 2021年种子轮 自研管线 / 未披露 9 2019年 BigHatBiosciences 抗体药物开发平台 抗体药物研发——优化抗体、从头生成 2022年B轮 自研管线/合作管线 艾伯维、安进、默克 5条管线以及与安进和默克合作的未披露的管线 10 2021年 SeismicTherapeutic IMPACT™平台 蛋白质从头设计和优化 2022年A轮 自研管线 / 针对泛IgG蛋白酶和PD-1的2条管线,均处于IND授权开发阶段 11 2021年 华深智药 HelixonDesign抗体药物发现平台;OmegaFold蛋白质预 测 抗体药物研发 2022年A轮 自研管线 / 多条用于肿瘤和自身免疫性疾病的大分子药物管线 12 2022年 赛得康生物 AbZed蛋白模块技术平台 多特异性重组蛋白 2023年种子轮 自研/合作管线 晶泰科技 3条管线,未进入临床 13 2022年 呈元科技 生成式AI设计平台 SynCore 针对PPI靶点的环肽药物设计 2023年PreA轮 自研管线 罗氏 10条管线,未进入临床 3.1.2 序号 发布时间 技术/平台 来源 技术框架 应用场景 成果 1 2021年 AdvancedCovalentExploration (ACE)平台 MatchpointTherapeutics 基于机器学习算法,指导靶点的优先排序和特有骨架预测;识别致病蛋白的新型共价结合物并提供整个蛋白质组的选择性评估; 组学数据理解靶点和疾病关系,以及可成药蛋白质分子发现 研发管线最初将聚焦于免疫学领域,在赛诺菲和Vertex的支持下成立 的,旨在开发创新共价小分子药物; 2 2022年 PandaOmics3.0 InsilicoMedicine(英矽智能) 使用AI分析患者基因组学、转录组学和蛋白质组学等医学多组学数据; 潜在靶点识别和老药新用策略的开发 与剑桥大学合作发现阿尔茨海默病等多种疾病治疗新靶点;使用转录组数据,提名51个与衰老相关的潜在靶点;发现MYT1作为乳腺癌等癌症治疗靶点的潜力;等等 3 2023年 PandaOmics4.0— ChatPandaGPT InsilicoMedicine(英矽智能) 在PandaOmics中增加了基于Transformer的知