简介gydF4y2Ba

近年来,分子表示学习在化学药物分析和发现研究中越来越受到重视gydF4y2Ba1gydF4y2Ba.受到机器学习的巨大成功的激励gydF4y2Ba2gydF4y2Ba,尤其是深度学习gydF4y2Ba3.gydF4y2Ba近年来,分子表示学习越来越多地探索基于机器学习的方法。这些方法被广泛应用于各种分子应用,如化学性质预测gydF4y2Ba4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba,药物分子生成gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba,和优化gydF4y2Ba9gydF4y2Ba.如何学习全面有效的分子表示仍然是一个开放的挑战。gydF4y2Ba

受自然语言处理(NLP)发展的启发gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba在美国,有一系列方法应用语言模型来处理基于字符串的分子表示,如SMILESgydF4y2Ba13gydF4y2Ba和SELFIESgydF4y2Ba14gydF4y2Ba.具体来说,这些分子串由循环神经网络编码(如门控循环单元(GRU))gydF4y2Ba15gydF4y2Ba长短期记忆(LSTM)gydF4y2Ba16gydF4y2Ba或变压器gydF4y2Ba12gydF4y2Ba,可以通过预测分子性质以监督的方式进行训练gydF4y2Ba17gydF4y2Ba.此外,为了处理大量未标记的数据,许多工作都关注自监督学习(SSL)框架。SSL解码器通常生成原始字符串gydF4y2Ba18gydF4y2Ba或其他输入分子的随机微笑gydF4y2Ba19gydF4y2Ba或者恢复分子串的掩码符号gydF4y2Ba20.gydF4y2Ba.由于弦的单维,分子图的重要拓扑结构被忽略了。因此,许多研究人员已经将他们的兴趣从一维分子串转变为二维图形gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba.鉴于SSL的成功,绘制基于SSL的预训练框架gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba,gydF4y2Ba25gydF4y2Ba,gydF4y2Ba26gydF4y2Ba,gydF4y2Ba27gydF4y2Ba在过去的几年里一直在快速增长。它们捕获了二维图的拓扑结构,并在分子分析任务中显示出积极的效果。然而,由于它们在各种图中的通用性,导致忽视了化学分子独特的结构性质,如环和官能团。gydF4y2Ba

最近有许多演示学习作品gydF4y2Ba5gydF4y2Ba,gydF4y2Ba22gydF4y2Ba,gydF4y2Ba28gydF4y2Ba,gydF4y2Ba29gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba31gydF4y2Ba,gydF4y2Ba32gydF4y2Ba,gydF4y2Ba33gydF4y2Ba考虑分子图的特点。Zhang等。gydF4y2Ba32gydF4y2Ba模型的聚类问题学习分子图案,和gnn编码的原子表示被分组成子图进行对比学习。Zhang等。gydF4y2Ba30.gydF4y2Ba设计自监督分子预训练框架,其前提任务是根据图上给定的顺序(深度优先搜索或宽度优先搜索)预测图元。Wang等。gydF4y2Ba5gydF4y2Ba提出了三种分子图结构增强模式,并通过对比学习对同一分子的不同增强进行对齐。Wang等。gydF4y2Ba33gydF4y2Ba并提出了一种分子学习的对比学习框架,不仅对分子对采样,还对基序对进行对比预训练。Wang等。gydF4y2Ba31gydF4y2Ba考虑到分子之间的化学反应关系,即,所有反应物的分子代表的总和应该等于所有产物的总和。尽管分子表征学习技术有所改进,但以往的工作仍未能解决以下问题和挑战:(1)如何充分保存和捕获分子结构?许多最新的分子学习方法gydF4y2Ba5gydF4y2Ba,gydF4y2Ba28gydF4y2Ba应用图增强构建不同视图,对比多个视图进行预训练。然而,一些通用的图数据增强(如边缘修改gydF4y2Ba34gydF4y2Ba或者图扩散gydF4y2Ba35gydF4y2Ba)往往会破坏分子的结构或属性,因此一些重要的化学性质极有可能被掩盖。除了整个拓扑结构外,基序也很有价值,对分子性质有重要影响。因此,保留完整的分子结构并直接纳入基序是分子学习的有益和挑战。(2)如何将更全面的信息融合到分子图表示中?随着GNN的发展gydF4y2Ba36gydF4y2Ba,gydF4y2Ba37gydF4y2Ba,gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba分子学习方法gydF4y2Ba29gydF4y2Ba,gydF4y2Ba31gydF4y2Ba利用GNN作为编码器骨干,其中节点在本地邻居之间流动信息,通过READOUT函数集成其所有节点表示来获得图表示。聚集邻里表示的模式缺乏全球规模。此外,READOUT操作只能将信息从低阶原子传递到高阶分子,而不能实现它们之间的相互作用。(3)如何设计自我监督预训练的借口任务?自监督预训练需要设计借口任务来优化骨干模型参数。借口任务在很大程度上影响了预训练模型的可迁移能力,这决定了模型在下游任务中能否达到令人满意的微调性能。因此,设计合理的借口任务以提高可迁移能力是自我监督预训练模型的关键。gydF4y2Ba

为了解决上述挑战,我们提出了一种用于分子性质预测的自监督学习框架,称为分层分子图自监督学习(HiMol)。数字gydF4y2Ba1gydF4y2Ba为HiMol的总体框架。HiMol由两个主要部分组成:分层分子图神经网络(HMGNN)和多级自监督预训练(MSP)。HMGNN提出了一种基于gnn的分层分子编码器,旨在解决前两个挑战。为了更好地探索分子图独特的内部化学结构,我们改进了分解分子基序结构的规则。分子基序表示一个分子的子结构,它通常包含许多化学特征。例如,羧基通常表示酸性。基序分解规则符合化学准则,避免破坏化学特性。我们在分子图中添加motif作为节点,以挖掘隐含的语义信息。此外,我们增加了一个图级节点,通过与正常节点和motif一起训练来学习分子图表示,以取代READOUT函数。图级节点从所有节点收集信息,并通过图级节点将全局信息传输回节点。 This circulation realizes the information interaction between different orders, which helps the model to learn more comprehensive representations. MSP designs multi-level pretext tasks as supervision signals of pre-training. Specifically, MSP designs three generative tasks that predict bond links, atom types, and bond types with the atom representations; MSP designs two predictive tasks that predict the number of atoms and bonds with the molecule representation. Compared with single-signal pre-training frameworks, multi-level pretext tasks help fuse more molecular information into molecule representations from diverse perspectives.

图1:HiMol示意图。gydF4y2Ba
图1gydF4y2Ba

HMGNN:首先将输入分子图分解为基序,将基序构建为基序级节点。此外,还添加了一个图级节点。该增广图通过增加结点-母题和母题-图边来构造。使用GNN学习增广图上的分层节点表示。MSP:编码的原子表示和分子图表示预测自我监督预训练的五个任务。gydF4y2Ba

综上所述,我们HiMol的优势如下:gydF4y2Ba

  • HiMol构建了一个层次GNN来编码分子。它便于将多阶信息整合到分子表示中。据我们所知,HiMol是第一个编码节点-基序-图层次信息的分子表示学习方法。gydF4y2Ba

  • HiMol基于化学规则构建基序,在不破坏化学结构的情况下挖掘分子亚结构的特征。gydF4y2Ba

  • HiMol增加了一个图级节点来模拟分子图表示。它使分子图表示法直接参与训练,实现局部特征和全局特征的双向传递。gydF4y2Ba

  • HiMol根据分子的层次表示设计多级自我监督的预训练任务。它提高了预训练框架的可转移潜力,并有助于学习更多有信息的分子表示。gydF4y2Ba

  • HiMol在包括分类和回归在内的下游分子性质预测任务中优于先进水平(SOTA)。这证明了我们提出的HiMol的有效性。gydF4y2Ba

结果gydF4y2Ba

HiMol框架gydF4y2Ba

我们的HiMol提出了一个自我监督的预训练框架来编码分子图的层次表示。HiMol主要包括分层分子图神经网络(HMGNN)和多级自监督预训练(MSP)。gydF4y2Ba

给定一个分子的SMILES,我们首先将它转换成一个图gydF4y2Ba\ (G = \左(V E \) \)gydF4y2Ba基于RDKITgydF4y2Ba41gydF4y2Ba,在那里gydF4y2BaVgydF4y2Ba而且gydF4y2BaEgydF4y2Ba分别表示原子和键集。然后分解gydF4y2BaGgydF4y2Ba变成一系列的主题gydF4y2Ba\ ({V} _ {{{{{rm \ {m}}}}}} = \左\ {{V} _ {{{{{rm \ {m}}}}}} ^ {1}, {V} _ {{{{{rm \ {m}}}}}} ^{2},…,{V} _ {{{{{rm \ {m}}}}}} ^ {k} \右\}\)gydF4y2Ba,gydF4y2BakgydF4y2Ba是母题的数量。母题的分解在金砖国家的基础上又增加了一个规则gydF4y2Ba42gydF4y2Ba,即打破较大的环片段,并选择其最小环作为生成的母题。所有母题节点gydF4y2BaVgydF4y2Ba米gydF4y2Ba都被纳入gydF4y2BaVgydF4y2Ba,以及对应原子和图案之间的边gydF4y2BaEgydF4y2Ba米gydF4y2Ba被链接和合并成gydF4y2BaEgydF4y2Ba.此外,我们还增加了一个图级节点gydF4y2BaVgydF4y2BaggydF4y2Ba,同时,边缘之间的所有主题和gydF4y2BaVgydF4y2BaggydF4y2Ba被追加到初始图中gydF4y2BaGgydF4y2Ba.增广图gydF4y2Ba\ (\ widetilde {G} \)gydF4y2Ba输入到gnn以学习分层表示,包括原子级表示gydF4y2Ba\({{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm{一 }}}}}}}}}\ 在{{\ mathbb {R}}} ^ {V | | \ * d} \)gydF4y2Ba,图案级表示gydF4y2Ba\({{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm{米 }}}}}}}}}\ 在{{\ mathbb {R}}} ^ {k \ * d} \)gydF4y2Ba,以及图级表示gydF4y2Ba\({{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm {g }}}}}}}}}\ 在{{\ mathbb {R}}} ^ {d} \)gydF4y2Ba.在MSP过程中,原子级表示法用于预测原子类型、键连接和键类型;图级表示法用于预测原子和键的数量。交叉熵损失和平滑L1损失分别用于优化原子级和分子级的学习。gydF4y2Ba

至于下游任务的微调,图级表示通过2层多层感知器(MLP)来预测分子性质。预训练的GNN权重被转移到微调模型中,并在标签的监督下与MLP参数一起继续更新。更多关于HiMol方法的细节见Methods。gydF4y2Ba

分子性质预测gydF4y2Ba

为了评估HiMol对分子性质预测的有效性,我们对来自MoleculeNet的不同数据集进行了分类和回归任务。表格gydF4y2Ba1gydF4y2Ba报告二元分类任务ROC-AUC(%)结果的均值和标准差。我们将观察到的结果总结如下。(1)我们的HiMol在六个数据集中的四个数据集上实现了最强的性能。对于其余的数据集,HiMol在Tox21上仍然具有竞争力的性能。虽然MolCLR在ClinTox上表现出了显著的效果,但它在其他数据集上的表现并不令人满意。平均而言,HiMol比最佳基线提高了2.4%。实验结果证明了我们的分层图学习模型HiMol的优越性和有效性。(2)在所有SOTA方法中,基于motif的模型G_Motif和MGSSL的性能优于其他基线,说明motif结构的捕获在分子图学习中起着重要作用。但是,它们仅使用motif预测作为预训练的借口任务,gnn提取的隐藏表示在下游任务的微调过程中并不直接包含motif信息。我们的HiMol通过GNN主干编码motif结构,这有利于分子表示,在微调过程中更好地学习和预测分子的内部性质。 (3) We give two different scales of HiMol models, in which the layer numbers of GIN for HiMol (SMALL) and HiMol (LARGE) are respectively 3 and 5. The LARGE version performs slightly better, which may be explained as the deeper GNN being able to capture more structural information.

表1基于分类基准的分子性质预测性能。gydF4y2Ba

回归结果见表gydF4y2Ba2gydF4y2Ba.根据MoleculeNet的建议,平均绝对误差(MAE)被用作物理化学数据集(ESOL, FreeSlov和Lipophilicity)的评估指标,而均方根误差(RMSE)是量子力学数据集(QM7, QM8和QM9)的指标。表的观察结果gydF4y2Ba2gydF4y2Ba总结如下。MoCL的回归结果gydF4y2Ba28gydF4y2Ba由于在QM9上预训练过程中计算相似矩阵的开销较大,所以在官方论文中没有给出相应的结果。(1) HiMol在六个数据集中的五个数据集上优于所有基线,并在剩余的QM8上达到具有竞争力的性能。值得注意的是,在具有挑战性的数据集QM9上,MAE比最强基线下降了55.5%。(2)与分类任务的结果相似,在回归任务中,LARGE版本相对于small版本具有较小的优势。gydF4y2Ba

表2回归基准上的分子性质预测性能。gydF4y2Ba

分子表征的可视化gydF4y2Ba

为了直观地展示HiMol学习到的表示,我们使用t-SNEgydF4y2Ba43gydF4y2Ba将它们投射到二维空间和不同的颜色来区分分子属性标签。请注意,我们只是在测试集中可视化微调的分子表示,其中不包括基本真理。从无花果。gydF4y2Ba2gydF4y2Ba,在分类和回归任务中,分子表现形式都按照它们的标签分组。例如,在图中。gydF4y2Ba2gydF4y2Baa, Class标签表示BACE-1抑制剂结合的二元结果。标记为0和1的分子分别在左上方和右下方分组。类似地,在图中。gydF4y2Ba2gydF4y2BaB,从左上到右下,分子的exp值越来越高。此外,在图。gydF4y2Ba2gydF4y2Bac, d,可以观察到QM9上分子的两个重要性质的可视化呈现具有高度的一致性。图中的可视化。gydF4y2Ba2gydF4y2Ba证明我们的HiMol可以提取分子的内部性质。在其他数据集中也可以观察到类似的结论(见补充图)。gydF4y2Ba1)gydF4y2Ba.gydF4y2Ba

图2:我们的HiMol在下游测试集上获得的分子表示的可视化。gydF4y2Ba
图2gydF4y2Ba

一个gydF4y2BaBACE(类):颜色表示BACE-1抑制剂结合结果的二进制标签。gydF4y2BabgydF4y2Ba亲油性(exp):颜色表示辛醇/水分配系数。gydF4y2BacgydF4y2BaQM9 (homo):颜色表示分子所占据的最高分子轨道能量(homo)。gydF4y2BadgydF4y2BaQM9 (lumo):颜色表示分子的最低未占据分子轨道能(lumo)。gydF4y2Ba

为了进一步证明我们的预训练框架的有效性,我们将在补充图中没有预训练的下游任务中微调的分子表示可视化。gydF4y2Ba2gydF4y2Ba.与图相比。gydF4y2Ba2gydF4y2Ba,未进行预训练的可视化结果对于不同性质的分子来说是混乱的。预训练提高了HMGNN编码器的性能,有利于在下游任务中学习更多的化学性质。gydF4y2Ba

分子表征相似性排序gydF4y2Ba

为了进一步研究通过HiMol预训练的分子表示中包含的语义信息,我们评估了查询分子与其他分子之间的相似性,并绘制出最相似的前5个分子。查询分子之间的余弦相似度gydF4y2Ba问gydF4y2Ba候选分子gydF4y2BacgydF4y2Ba计算公式如下:gydF4y2Ba

$${{{{{{{\ rm {sim}}}}}}}} (q、c) = \压裂 {{{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm {g }}}}}}}}}^{ q} \ cdot {{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm {g }}}}}}}}}^{ c}}{\ \绿色 {{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm {g }}}}}}}}}^{ q} \ \绿色\左右\绿色 {{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm {g }}}}}}}}}^{ c} \ \绿色}$ $gydF4y2Ba
(1)gydF4y2Ba

在哪里gydF4y2Ba\({{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm {g }}}}}}}}}^{ 问}\ {{\ mathbb {R}}} ^ {d} \)gydF4y2Ba而且gydF4y2Ba\({{{{{{{{\ 男朋友{H }}}}}}}}}_{{{{{{{{\ rm {g }}}}}}}}}^{ R c} \在{{\ mathbb {}}} ^ {d} \)gydF4y2Ba分别是查询分子和候选分子的图表示。然后对所有候选分子的相似度进行排序,查询ZINC9452931的前5个分子如图所示。gydF4y2Ba3.gydF4y2Ba.从图中我们可以观察到,这五种分子的结构和官能团与查询相似。具体来说,前5个相似的分子拥有查询的所有原子类型,即C, H, N, O, s,并且所有分子中都存在两个环共用一条边的结构。Top@1分子不仅具有与查询相似的环结构,而且具有NC(=O)和C(=O)等相同的链结构。分子表示相似性排序实验表明,我们的框架HiMol可以学习含有化学语义信息的分子表示。同时,对基序进行编码有利于识别功能基团、环等分子亚结构。关于其他查询分子的更多结果见补充图。gydF4y2Ba3.gydF4y2Ba.gydF4y2Ba

图3:查询ZINC9452931按分子表示相似度排名前五的分子可视化。gydF4y2Ba
图3gydF4y2Ba

给出了所有分子的SMILES。gydF4y2Ba

微调模式分析gydF4y2Ba

为了研究不同的微调策略对模型预测任务的影响,我们探索了冻结模式和完全微调模式。它们都继承了预先训练好的分层分子图神经网络的权值。冻结模式冻结HMGNN的参数,只更新下游分类器的权值,而全微调模式在微调时端到端训练HMGNN和分类器的所有权值。此外,我们在没有预训练的情况下评估HiMol和香草GINgydF4y2Ba38gydF4y2Ba,通过受监督的下游任务直接训练它们。表格gydF4y2Ba3.gydF4y2Ba显示了所有方法的两种不同版本,其中SMALL版本和LARGE版本分别用3层和5层gnn编码分子图。从结果可以看出:(1)完全微调模式比冻结模式更有优势,这表明我们提出的HMGNN在预测任务中起决定性作用;(2)未经预训练的Himol相对于GIN表现更好,说明HMGNN具有提取更丰富结构信息的能力;(3) HiMol在预训练后获得了更好的性能,验证了我们提出的多级自监督预训练策略可以有效训练模型参数并将知识传递到下游数据。gydF4y2Ba

表3不同微调模式的分类性能。gydF4y2Ba

数字gydF4y2Ba4gydF4y2Ba进一步显示了上述四种模式的训练分类和测试分类ROC-AUC曲线。可以观察到,与其他方法相比,完整的HiMol可以更快地收敛到最佳性能。此外,预训练的方法(HiMol及其冻结模式)在训练曲线和测试曲线方面比其他两种未进行预训练的模式具有更好的稳定性,说明我们的预训练框架提高了微调的稳定性。gydF4y2Ba

图4:不同微调模式下的ROC-AUC分类曲线训练与测试。gydF4y2Ba
图4gydF4y2Ba

实线是训练曲线;虚线是测试曲线。gydF4y2Ba

训练前的消融研究gydF4y2Ba

为了分析我们提出的HiMol框架每个部分的有效性,我们在预训练过程中对HMGNN和MSP进行了消融实验。数字gydF4y2Ba5gydF4y2Ba说明了HMGNN和MSP的烧蚀实验结果。gydF4y2Ba

图5:HiMol预训练对分类基准的消融效果。gydF4y2Ba
图5gydF4y2Ba

一个gydF4y2Ba不同烧蚀的HMGNN在训练前的表现。gydF4y2BabgydF4y2Ba不同烧蚀的MSP在训练前的表现。gydF4y2Ba

在无花果。gydF4y2Ba5gydF4y2Baa,我们将HiMol与两个预训练版本进行比较。HMGNN w/o motif-level表示分子图只增加图级节点和节点图边,而不分解motif。HMGNN w/o图级通过对motif级表示执行均值池来获得图级表示。我们可以观察到以下结论:(1)HiMol去除基序的性能在所有基准上都变差,这意味着编码基序在分子表征学习中的重要作用。HiMol对motif进行分解,学习层次表示,有利于学习更多的分子结构特征和功能。(2)用图池化的压缩表示代替图级节点表示,也使分子性质预测性能略有下降。增强一个图级节点优于均值池函数,因为它可以通过motif节点间接学习多阶特征,并且可以在训练过程中将全局信息传递给所有原子节点。相互之间,原子节点不仅集成了局部邻域信息,还捕获了子结构和全局图信息。这些正常节点与图级节点之间的多层次交互提高了HMGNN的学习性能。gydF4y2Ba

MSP的消融版本如图所示。gydF4y2Ba5gydF4y2Bab.无原子级的MSP在预训练中只包含图级的借口任务(原子和键的数量)。类似地,图级MSP只包含原子级的借口任务(绑定链接、原子类型和绑定类型)。MSP w / ogydF4y2BaαgydF4y2Ba简单地求和所有的损失值,删除gydF4y2BaαgydF4y2Ba要平衡的权重参数。可以观察到,与单一借口任务相比,多层次自我监督任务的组合提高了预训练的全面性迁移能力。此外,可学习的权重gydF4y2BaαgydF4y2Ba调整不同部分损失的重要性,可以更好地协调多级任务之间的关系,提高预训练的性能。gydF4y2Ba

讨论gydF4y2Ba

主题编码gydF4y2Ba

首先,我们建议在学习原子表示的同时对构造的motif进行编码。HiMol通过基序来挖掘分子的子结构。现有的分子表示学习方法有很多gydF4y2Ba29gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba考虑母题结构。他们通常将大规模数据库中的分子分解为motif,建立motif字典,然后在分子表示学习的预训练过程中,将motif预测作为自监督的借口任务。然而,这些方法都存在一些缺点:(1)当构造的基序字典较大时,基序预测的计算量较大。(2)母题仅作为自监督信号,难以被隐藏表征直接纳入。我们在编码器部分对每个分子中包含的motif进行编码,直接将motif结构集成到隐藏表示中。此外,增加基序级节点能更好地捕捉原子与基序之间的隶属关系。gydF4y2Ba

图像编码gydF4y2Ba

除了图案级节点,我们还在分子图中增加了一个图级节点,该节点参与聚集过程以提取分子表示。大多数分子学习方法使用香草gnn作为骨干,并通过READOUT函数将节点表示压缩为图表示,即MAX, SUM和MEAN等图池方法。gnn的处理过程在附注中介绍gydF4y2Ba1gydF4y2Ba.它可以方便地处理不同大小的图数据,但图级表示无法参与学习。伯特模型gydF4y2Ba11gydF4y2Ba,gydF4y2Ba44gydF4y2Ba提出在序列上附加一个标记,其表示被视为序列级特征。提到BERT, GraphormergydF4y2Ba45gydF4y2Ba向图中添加一个虚拟节点,该节点与所有节点链接并更新,虚拟节点的特征是图表示。受上述工作成功的启发,我们增加了一个图级节点,通过参与所有原子的聚合和更新来提取分子图表示。然而,相关方法只是将图级节点与普通节点连接起来,不利于获取子图结构。为了集成motif节点,我们将图级节点与motif节点连接以实现分层聚合。与READOUT相比,我们的HiMol在加入分子基序结构后实现了图节点的训练和更新,并实现了与多阶节点的交互。gydF4y2Ba

结论gydF4y2Ba

在本文中,我们提出了层次分子图自监督学习(HiMol)来学习分子表示。具体而言,我们设计了分层分子图神经网络(HMGNN)骨干来编码节点-基序-图的层次表示,挖掘基序隐含的化学语义信息,实现多阶特征间的交互。此外,我们将多级分子依赖任务构建为自监督信号,从多个角度捕获更全面的信息。大量的分子性质预测实验表明,HiMol较SOTA方法有很大的改进。gydF4y2Ba

分子表示的优越性能反映了我们HiMol框架的潜力,并且在HiMol的基础上有有趣和有前途的未来工作。(1)除二维图形外,结合不同维度的分子特征。(2)模拟分子生成过程,将模型扩展到分子生成和优化任务。gydF4y2Ba

方法gydF4y2Ba

分层分子图神经网络gydF4y2Ba

提出了一种分层分子图神经网络(HMGNN)来编码和表示分子图,主要包括三个部分:(1)基序构建;(2)增广图构造;(3)分层表示编码器。gydF4y2Ba

首先,我们将每个输入分子图分解成一组motif。金砖算法是一种传统的分子碎片图方法,它设计化学规则来破坏化学键。具体来说,BRICS根据键能不能结合,在结构上将分子分解为多个功能片段。然而,金砖基于有限的化学规则拆分分子,导致分解的粗粒度。在金砖四国分解后,一些大型主题仍然包含一些更一般和功能的子结构进行划分。因此,我们在BRICS的基础上增加了一个分解规则,即将多个由共同化学键连接的环子结构分解为最小环。数字gydF4y2Ba6gydF4y2Ba阐述了母题构建的过程。gydF4y2Ba

图6:motif构建概况。gydF4y2Ba
图6gydF4y2Ba

构建过程包括三个步骤:(1)根据BRICS对给定的分子图进行分解。(2)通过附加规则进一步分解分子。(3)将分解的母题构造为母题级节点。gydF4y2Ba

所有获得的图案都作为节点添加gydF4y2BaVgydF4y2Ba米gydF4y2Ba分子图。自然,节点图案的边缘gydF4y2BaEgydF4y2Ba米gydF4y2Ba在每个motif节点和它覆盖的所有原子节点之间添加。由于最终输出是分子图表示,我们构造了一个图级节点gydF4y2BaVgydF4y2BaggydF4y2Ba进入分子图,并将其与所有基序节点连接,形成基序图边gydF4y2BaEgydF4y2BaggydF4y2Ba.最后的增广图表示为:gydF4y2Ba

$ $ \ widetilde {G} = \离开(\ widetilde {V} \ widetilde {E} \右),\ widetilde {V} = [V, {V }_{{{{{{{{\ rm{米 }}}}}}}}},{ V }_{{{{{{{{\ rm {g }}}}}}}}}],\ widetilde {E} = [E {E }_{{{{{{{{\ rm{米 }}}}}}}}},{ E }_{{{{{{{{\ rm {g }}}}}}}}}]$$gydF4y2Ba
(2)gydF4y2Ba

在构造图上gydF4y2Ba\ (\ widetilde {G} \)gydF4y2Ba,我们使用GNN编码分层分子表示。图同构网络(GIN)gydF4y2Ba38gydF4y2Ba是应用最广泛的分子图编码表示方法。受此启发,我们应用GIN作为HiMol的骨干模型,HiMol的聚合模式gydF4y2BalgydF4y2BatgydF4y2BahgydF4y2Ba层数如下:gydF4y2Ba

$${{{{{{{{\ 男朋友{h }}}}}}}}}_{ v} ^ {l }={{{{{{{{\ rm{延时 }}}}}}}}}_{{{{{{{{\ rm{一 }}}}}}}}}^{ l} \离开 ({{{{{{{{\ 男朋友{h }}}}}}}}}_{ v} ^ {l - 1} + \ mathop{总和\}\ limits_ {u \ {{{{{{{\ mathcal {N}}}}}}}} \离开(v \右)}\离开了 ({{{{{{{{\ 男朋友{h }}}}}}}}}_{ v} ^ {l - 1 }+{{{{{{{{\ rm{延时 }}}}}}}}}_{{{{{{{{\ rm {b }}}}}}}}}^{ l} \离开 ({{{{{{{{\ 男朋友{X }}}}}}}}}_{ 紫外线 }^{{{{{{{{\ rm {b }}}}}}}}}\ 右)\ \右)$ $gydF4y2Ba
(3)gydF4y2Ba

在哪里gydF4y2Ba\({{{{{{{{\ rm{延时 }}}}}}}}}_{{{{{{{{\ rm{一 }}}}}}}}}^{ l} \)gydF4y2Ba而且gydF4y2Ba\({{{{{{{{\ rm{延时 }}}}}}}}}_{{{{{{{{\ rm {b }}}}}}}}}^{ l} \)gydF4y2Ba表示原子和键特征跃迁的MLPgydF4y2BalgydF4y2Ba层,分别gydF4y2Ba\({{{{{{{{\ 男朋友{X }}}}}}}}}_{ 紫外线 }^{{{{{{{{\ rm {b }}}}}}}}}\)gydF4y2Ba的键合特征gydF4y2BaugydF4y2BavgydF4y2Ba,gydF4y2Ba\({{{{{{{{\ 男朋友{h }}}}}}}}}_{ v} ^ {0 }={{{{{{{{\ 男朋友{X }}}}}}}}}_{ v }^{{{{{{{{\ rm{一 }}}}}}}}}\)gydF4y2Ba输入原子的特征是gydF4y2BavgydF4y2Ba.原子和键的详细输入特征见补充表gydF4y2Ba1gydF4y2Ba.与其他基线不同的是,我们HiMol的初始分子特征包含了原子节点的程度以及键是否成环,这包含了更多的分子结构信息。我们提出的HMGNN可以同时编码分子图以获得多级表示,包括原子级、基序级和分子级表示。学习到的分子水平表示可以直接用于下游任务,而不需要READOUT操作。gydF4y2Ba

多层次自我监督的预培训gydF4y2Ba

利用HMGNN对分层表示进行编码后,设计生成式和预测式借口任务,执行多级自监督预训练(Multi-level Self-supervised pretraining, MSP)。不同借口任务对应的自我监督学习类型在补充说明中有所描述gydF4y2Ba2gydF4y2Ba.gydF4y2Ba

对于原子级表示,我们设计了三个生成任务,包括键链接、原子类型和键类型,旨在重建图结构和属性。具体来说,三个具有ReLU激活函数的2层mlp分别投射原子级表示来预测三个生成任务。交叉熵损失用于优化原子级表示,如下所示:gydF4y2Ba

$ ${1} _{链接}= - \ mathop{总和\}\ limits_ {{v} _ {}, {v} _ {j} \ v} {y} _ {ij} \ log{\帽子{y}} _ {ij} + (1 - {y} _ {ij}) \ log(1 -{\帽子{y}} _ {ij}) $ $gydF4y2Ba
(4)gydF4y2Ba
$ $ {1} _ {atom \ _type} = - \压裂{1}{V | |} \ mathop{总和\}\ limits_ {V \} \ mathop{总和\}\ limits_ {k = 1} ^ {{k} _ {atom}} {y} _ {V, k} \ log{\帽子{y}} _ {V, k} $ $gydF4y2Ba
(5)gydF4y2Ba
$ ${1} _{债券\ _type} = - \压裂{1}{E | |} \ mathop{总和\}\ limits_{在E E \} \ mathop{总和\}\ limits_ {k = 1} ^ {{k} _{债券}}{y} _ {E、k} \ log{\帽子{y}} _ {E、k} $ $gydF4y2Ba
(6)gydF4y2Ba

在哪里gydF4y2BaygydF4y2Ba我gydF4y2BajgydF4y2Ba之间的链接。gydF4y2BavgydF4y2Ba我gydF4y2Ba而且gydF4y2BavgydF4y2BajgydF4y2Ba,gydF4y2BaygydF4y2BavgydF4y2Ba,gydF4y2BakgydF4y2Ba= 1表示节点的原子类型gydF4y2BavgydF4y2Ba是gydF4y2BakgydF4y2Ba,gydF4y2BaygydF4y2BaegydF4y2Ba,gydF4y2BakgydF4y2Ba= 1表示边的键合类型gydF4y2BaegydF4y2Ba是gydF4y2BakgydF4y2Ba.相应的gydF4y2Ba\ ({y} \ \帽子)gydF4y2Ba是预测值。gydF4y2BaKgydF4y2Ba一个gydF4y2BatgydF4y2BaogydF4y2Ba米gydF4y2Ba而且gydF4y2BaKgydF4y2BabgydF4y2BaogydF4y2BangydF4y2BadgydF4y2Ba是原子类型和键类型的数量。gydF4y2Ba

对于图级表示,对分子的整体性质执行两个预测任务,即原子和键的数量。同样地,使用两个分别具有softplus激活函数的2层mlp来预测图级任务。基于SmoothL1损失,预测任务损失如式(gydF4y2Ba7gydF4y2Ba)及(gydF4y2Ba8gydF4y2Ba).gydF4y2Ba

$ $ {1} _ {atom \ _num} = \左\{\ 0.5开始{数组}{你}\ *{\离开({y} _{一}-{\帽子{y}} _{} \右)}^{2},\四如果| \离开({y} _{一}-{\帽子{y}} _{} \右)| < 1 \ \ | \离开({y} _{一}-{\帽子{y}} _{} \右)| -0.5 \四如果| \离开({y} _{一}-{\帽子{y}} _{} \右)| \通用电气1 \结束数组{}\ $ $gydF4y2Ba
(7)gydF4y2Ba
$ ${1} _{债券\ _num} = \左\{\ 0.5开始{数组}{你}\ *{\离开({y} _ {b} -{\帽子{y}} _ {b} \右)}^{2},\四如果| \离开({y} _ {b} -{\帽子{y}} _ {b} \右)| < 1 \ \ | \离开({y} _ {b} -{\帽子{y}} _ {b} \右)| -0.5 \四如果| \离开({y} _ {b} -{\帽子{y}} _ {b} \右)| \通用电气1 \结束数组{}\ $ $gydF4y2Ba
(8)gydF4y2Ba

在哪里gydF4y2BaygydF4y2Ba一个gydF4y2Ba而且gydF4y2BaygydF4y2BabgydF4y2Ba分别是原子数和键数;gydF4y2Ba\ ({y} \ \帽子)gydF4y2Ba是预测值。gydF4y2Ba补充方法gydF4y2Ba从表示法描述转换过程gydF4y2BaHgydF4y2Ba到预测值gydF4y2BaygydF4y2Ba.最后,我们添加一个可学习的向量权值gydF4y2Ba\(左\α= \[{\α}_{1},{\α}_{2},{\α}_{3},{\α}_{4},{\α}_{5}\右]\)gydF4y2Ba采用softmax函数归一化,平衡多个损失。总体目标计算如下:gydF4y2Ba

$ $ L ={\α}_{1}{1}_{链接}+{\α}_ {2}{1}_ {atom \ _type} +{\α}_{3}{1}_{债券\ _type} +{\α}_ {4}{1}_ {atom \ _num} +{\α}_{5}{1}_{债券\ _num} $ $gydF4y2Ba
(9)gydF4y2Ba

数据集gydF4y2Ba

对于HiMol的预训练,我们使用了来自ZINC15的250K未标记分子样本gydF4y2Ba46gydF4y2Ba数据集。为了评估HiMol的有效性,我们对来自MoleculeNet的12个数据集进行了分子性质预测实验gydF4y2Ba47gydF4y2Ba,包括6个分类任务数据集和6个回归任务数据集。通过scaffold-split将所有下游数据集分成80/10/10%进行训练/验证/测试,该方法根据分子结构进行拆分,比随机拆分更具挑战性。各数据集的统计数据汇总在补充表中gydF4y2Ba2gydF4y2Ba.gydF4y2Ba

基线gydF4y2Ba

为了评估我们提出的HiMol的有效性,我们进行了不同类型的自我监督学习SOTA作为基准。我们比较了各种通用图学习方法,包括GraphSAGEgydF4y2Ba39gydF4y2Ba, GPT_GNNgydF4y2Ba48gydF4y2Ba, AttributeMaskgydF4y2Ba49gydF4y2Ba, ContextPredgydF4y2Ba49gydF4y2Ba, InfoGraphgydF4y2Ba50gydF4y2Ba, GraphLoGgydF4y2Ba26gydF4y2Ba, GraphCLgydF4y2Ba25gydF4y2Ba、JOAOgydF4y2Ba51gydF4y2Ba.此外,我们比较了几种专门为分子图设计的方法,即MoCLgydF4y2Ba28gydF4y2Ba, MolCLRgydF4y2Ba5gydF4y2Ba, G_MotifgydF4y2Ba29gydF4y2Ba、MGSSLgydF4y2Ba30.gydF4y2Ba.基线的详细描述见补充说明gydF4y2Ba3.gydF4y2Ba, SSL类型汇总见“补充表”gydF4y2Ba3.gydF4y2Ba.gydF4y2Ba

实验配置gydF4y2Ba

所有实验均在Linux服务器上进行,使用Nvidia GeForce GTX 1080 Ti GPU和Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz。在预训练阶段,HiMol使用Adam优化器运行100个epoch,学习率为0.001。我们训练了LARGE和SMALL版本,以3层和5层GIN作为HMGNN的骨干。配置GIN骨干的退出率为0.5。批大小设置为32,数据装载器的工人数量为8。所有层次的隐藏表示都是512维的。gydF4y2Ba

在优化阶段,我们实现了一个以ELU激活函数为分类器的2层MLP。预训练HMGNN和分类器的权重均由Adam优化器优化,学习速率分别为1e-4 ~ 1e-3。对于每个下游任务,我们对100个epoch进行微调,并报告五次运行的平均测试结果。批大小为32个,工人人数为4人。嵌入维数为512,与预训练阶段相同。辍学率在[0.5,0.7]范围内调整。微调过程中每个数据集的参数设置在补充表中报告gydF4y2Ba4gydF4y2Ba.gydF4y2Ba

为了公平起见,我们在同一个数据集ZINC15上根据它们的官方代码预训练所有基线,MoCL除外gydF4y2Ba28gydF4y2Ba.MoCL没有实现迁移学习,预训练时计算ZINC15数据集的相似矩阵计算量很大。因此,我们采用与正式工作相同的方式:对每个下游数据集进行预训练,然后对同一数据集进行微调,以完成分子性质预测任务。所有基线在下游数据集上保持相同的分割比例和方式。gydF4y2Ba