研报主要内容与关键数据总结
1. 分子三维空间结构建模
- 有效模型:分子图信息应保留,空间位置应独立于笛卡尔坐标系。
- 解决方案:
- 变换不变神经网络(equivariant neural networks)
- 张量场网络(tensor field networks)
- 旋转和平移不变注意力网络(E (n) equivariant graph neural networks)
- 体素化编码消息传递(geometric encoded message passing)
- Schnet(用于分子和材料的深度学习架构)
- PhysNet(用于预测能量、力、偶极矩和部分电荷的神经网络)
- DimNet(方向性消息传递的分子图)
2. 蛋白质-配体结合亲和力预测
- 目标:筛选与靶蛋白结合的药物。
- 过程:耗时且需要专家知识。
- 预测结合亲和力:加速此过程。
- 方法:
- 结构感知交互图神经网络(SIGN):
- 基于3D原子坐标构建定向交互图
- 保留距离和角度信息
- 采用局部极坐标系统
- 通过节点→边交互模式保留角度信息
- 通过边→节点交互模式区分多个空间关系
- 数据集:
- PDBbind:包含蛋白质-配体复合物的3D结构及实验亲和力。
- 测试集:4,057个复合物
- 训练集:13,283个复合物
- 基线模型:
- ML-LR, SVR, RF-Score
- CNN-Pafnucy, OnionNet
- Seq-GNN-GraphDTA: GCN, GAT, GIN
- Spa-GNN: SGCN, GNN-DTI, DMPNN, CMPNN, DimeNet
- 性能对比:我们的SIGN模型在两个基准测试中表现最佳。
3. 分子性质预测
- 目标:通过图方法学习分子表示,预测目标属性。
- 方法:
- 几何图对比学习(GeomGCL):
- 双视图分子图构造
- 几何增强的学习
- 2D-3D分子图对比优化
- 2D和3D视图的几何编码
- 自适应几何消息传递方案
- 数据集:MoleculeNet中的七个基准数据集。
- 基线模型:
- 消息传递方法
- AttentiveFP, CoMPT, DMPNN
- 几何增强的GNNs
- SGCN, MAT, HMGNN, DimeNet
- 对比学习方法
- InforGraph, MoCL
- 性能对比:我们的方法在所有基准测试中表现最佳。
总结
本研报详细探讨了分子三维空间结构建模和蛋白质-配体结合亲和力预测的方法。SIGN模型通过保留距离和角度信息,显著提升了预测精度。此外,GeomGCL方法通过双视图构造和自适应几何消息传递方案,在分子性质预测任务中表现出色。