论文翻译:Convolutional Networks on Graphs for Learning Molecular Fingerprints-用于学习分子指纹的图形卷积网络

       我们介绍了一种直接在图上操作的卷积神经网络。这些网络允许端到端学习预测管道,其输入是任意大小和形状的图形。我们提出的体系结构概括了基于圆形指纹的标准分子特征提取方法。我们表明,这些数据驱动的特征更具有可解释性,并且在各种任务中具有更好的预测性能。

最近的材料设计工作使用神经网络来预测新分子的性质,从例子中归纳。这个任务的一个困难是,输入到预测器的分子,可以是任意大小和形状。目前,大多数机器学习管道只能处理固定大小的输入。目前的技术是使用现成的指纹软件来计算固定维的特征向量,并将这些特征作为全连接深度神经网络或其他标准机器学习方法的输入。这个公式后面是(28日3、19)。在训练过程中,分子指纹向量被视为固定的。在本文中,我们用一个输入为原始分子图的可微神经网络代替了该堆栈的底层——计算分子指纹向量的函数。在这个图中,顶点代表单个原子,边代表键。这个网络的底层是卷积的,因为相同的局部过滤器被应用到每个原子和它的邻居。经过几个这样的层之后,一个全局池步骤结合了分子中所有原子的特征。
这些神经图指纹比固定指纹有几个优点:

预测性能。通过使用数据适应手头的任务,机器优化的指纹可以提供比固定指纹更好的预测性能。
我们表明,神经图指纹匹配或优于标准指纹在溶解度、药物疗效和有机光电效率数据集的预测性能。
可解释性。标准指纹完全清晰地编码每个可能的片段,没有片段之间的相似性概念。相比之下,神经图指纹的每个特征都可以被相似但不同的分子片段激活,使特征表示更有意义。

圆形的指纹:

分子指纹的最新技术是可扩展的连通性循环指纹(森林)[21]。圆形指纹[6]是摩根算法[17]的一种改进,设计用于编码分子中存在的子结构,以一种不受原子重标影响的方式。圆形指纹通过将固定的哈希函数应用到前一层相邻区域的连接特征上,从而生成每一层的特征。这些哈希的结果被当作整数索引,其中1被写入指纹向量在图中每个节点的特征向量所给出的索引处。图1(左)显示了这个计算架构的草图。忽略碰撞,指纹的每个索引表示一个特定子结构的存在。每个索引所代表的子结构的大小取决于网络的深度。因此层的数量被称为指纹的“半径”。环形指纹类似于卷积网络,因为它们在局部各处应用相同的操作,并在一个全局池步骤中合并信息。

图1:左:标准圆形指纹和神经图形指纹的计算图的可视化表示。首先,根据被指纹分子的拓扑结构构造一个图,其中节点表示原子,边表示键。在每一层,信息在图中的邻居之间流动。最后,图中的每个节点打开固定长度指纹向量中的一位。右图:更详细的草图,包括每个操作中使用的债券信息。

创建一个可区分的指纹可能的网络架构空间很大。本着从已知的良好构型出发的精神,我们设计了圆形指纹的可微泛化方法。这一节描述了我们用可微分模拟来替换圆形指纹中的每一个离散操作。哈希在循环指纹的每一层应用哈希函数的目的是结合关于每个原子及其邻近子结构的信息。这确保了片段中的任何变化,,无论多小,都会导致不同的指纹索引被激活。我们用神经网络的单层代替哈希操作。当局部分子结构以不重要的方式变化时,使用平滑函数可以使激活类似。循环指纹索引使用索引操作将所有节点的特征向量组合成整个分子的单个指纹。每个节点在其特征向量的散列确定的索引处将指纹的单个位设置为1。这种类似池的操作将任意大小的图转换为固定大小的向量。对于小分子和大指纹长度,指纹通常是稀疏的。我们使用softmax操作作为可微分的索引模拟。本质上,要求每个原子将自己归类为属于一个类别。所有这些分类标记向量的总和产生最终的指纹。这个操作类似于标准卷积神经网络中的池化操作。

图2:圆形指纹(左)和神经图指纹(右)的伪代码。差异用蓝色突出显示。每一个不可微的操作都被一个可微的模拟代替。

          规范化的圆形指纹是完全相同的,无论在每个邻域的原子的顺序。这种不变性是通过根据邻近原子的特征和键特征进行排序来实现的。我们对这种排序方案进行了实验,并将局部特征变换应用于局部邻域的所有可能排列。规范化的一种替代方法是应用置换不变函数,例如求和。出于简单性和可伸缩性的考虑,我们选择了求和。圆形指纹可以解释为随机权值较大的神经图指纹的一种特殊情况。这是因为,在大输入权值的限制下,tanh非线性接近阶跃函数,当将其连接成一个简单的哈希函数时。此外,在大输入权重的限制下,softmax操作符接近于单热编码的argmax操作符,后者类似于索引操作。

       算法1和算法2对这两种算法进行了总结,突出了它们的区别。给定一个指纹长度,和F的特征在每个层,神经指纹图像的参数包含一个单独的输出权重矩阵的大小F×L对于每个层,以及一组hidden-to-hidden重量大小的矩阵F×F在每一层,每个可能的原子数量的债券可以在有机分子(5)。

实验
         我们进行了两个实验来证明具有较大随机权重的神经指纹与圆形指纹的行为类似。首先,我们检查了循环指纹之间的距离是否与基于神经指纹的距离相似。图3(左)显示了圆形指纹与神经指纹之间成对距离的散点图。指纹长度为2048,根据溶解度数据集[4]中的分子对计算。使用Tanimoto(又名Jaccard)相似性度量的连续泛化来测量距离:

距离之间的相关性为r = 0.823。图右侧的点线表明,对于某些分子对,二进制ECFP指纹完全没有重叠。
其次,我们检验了随机权重较大的神经指纹与圆形指纹的预测性能。图3(右)显示了溶解度数据集的平均预测性能,使用指纹上的线性回归。两种方法的性能曲线相似。相比之下,具有小随机权值的神经指纹的性能遵循一条不同的曲线,而且要好得多。这表明,即使使用随机权重,相对平稳地激活神经指纹也有助于泛化性能。

图3:左:用圆形指纹和随机权重较大的神经图指纹测量的分子之间成对距离的比较。右:圆形指纹(红色)、固定大随机权重的神经图指纹(绿色)和固定小随机权重的神经图指纹(蓝色)的预测性能。具有较大随机权值的神经图指纹的性能与圆形指纹的性能相似。

检查学习特性
为了证明神经图指纹是可解释的,我们展示了在指纹向量中最激活个体特征的子结构。圆形指纹向量的每个特征都只能由单个半径的单个片段激活,除非发生意外碰撞。相比之下,神经图指纹特征可以通过相同结构的变化激活,使其具有更强的可解释性,允许更短的特征向量。图4显示了最大程度激活指纹最具预测性特征的片段。指纹网络被训练作为一个线性模型的输入,预测溶解度,作为[4]测量。第一行显示的特征与溶解度有正的预测关系,并且大部分被含有亲水性R-OH基团的片段激活,R-OH是溶解度的标准指标。底列所示的特征,强烈预测不溶性,被非极性重复环结构激活。

片段最活化的亲溶解度特征

最具抗溶解度活性的片段

图4:检查为预测溶解度而优化的指纹。这里显示的是典型的分子片段(蓝色突出显示),它们最能激活指纹的不同特征。顶行:最能预测溶解性的特性。最能预测不溶性的特征。

毒性特征我们训练了相同的模型架构来预测毒性,在[26]中两个不同的数据集中测量。图5显示了在两个独立的数据集中最大程度激活毒性预测特性的片段

在SR-MMP数据集上被毒性特征激活的片段

NR-AHR数据集中毒性特征最活跃的片段

图5:用于预测毒性的可视化指纹图谱。这里显示的是具有代表性的分子片段样本(红色突出显示),它们最能激活毒性的特征。第一行:最具预测性的特征识别出含有一个硫原子与一个芳香环相连的基团。最具预测性的特征是稠环芳香烃,也被称为多环芳香烃,一种众所周知的致癌物质。

他们构建了类似的可视化结果,但采用了半人工的方式:为了确定哪些有毒片段激活了给定的神经元,他们搜索了手工制作的有毒子结构列表,并选择了与给定神经元最相关的那个。相反,我们的可视化是自动生成的,不需要预先限制可能答案的范围。

猜你喜欢

转载自blog.csdn.net/com_fang_bean/article/details/107574560