Decoder整体流程：

DSP预测在哪个节点应该断开，并预测在该断开位点 $n_d$ 是否应该有一个child node 或者多个 child node
$n_c$ 再预测这些child node的类型 $x_c$
连接断开位点 $n^{*}(t)$ 和这些 child node $n_c$ 【连接的键的选择、连接的时候中间的atom的选择】（关于怎么连接它们，则通过NFA-app-p以及NFA-app-c两种方法确定如何进行连接）

一、Molecule Representations and Notations

我们使用molecular graph $\mathscr{G}_{x}$ 以及 junction tree $\mathscr{T}_{x}$ 来表示一个分子 $M_x$ .
Molecular graph $\mathscr{G}_{x}$ 表示为 $\mathscr{G}_{x} = (\mathscr{A}_{x}, \mathscr{B}_{x})$
$\mathscr{A}_{x}$ 是 $M_x$ 中的原子集合， $\mathscr{B}_{x}$ 是 $M_x$ 中的键的集合

在junction tree 表示 $\mathscr{T}_{x}=\left(\mathscr{V}_{x}, \mathscr{E}_{x}\right)$ 中， $M_x$ 中的所有的环和键被提取为 $\mathscr{V}_{x}$ 中的结点
在 $\mathscr{E}_{x}$ 中，具有公共原子的节点用边连接，
因此，每一个结点 $\in \mathscr{V}_{x}$ 是 $\mathscr{G}_{x}$ 中的一个子结构（例如环、连接着原子的键），
我们将节点 $n$ 中包含的原子表示为 $\mathscr{A}_{x}(n)$ ，并将 $\mathscr{T}_{x}$ 中与 $n$ 相连的节点表示为其邻居，表示为 $\mathcal{N}_{x}(n)$ ，因此每个边 $\left(n_{u}, n_{v}\right) \in \mathscr{E}_{x}$ 实际上符合 $n_u$ 和 $n_v$ 之间通用的原子 $\mathscr{A}_{x}\left(n_{u}\right) \cap \mathscr{A}_{x}\left(n_{v}\right)$

请注意：
原子（atom）和键（bonds）是用于molecular graph 表示的术语，
节点（nodes）和边（edges）用于junction tree 表示。
在本文中，所有的 embedding 向量默认为列向量，用小写粗体字母表示;
所有矩阵都用大写字母表示。关键符号如表3所示：
在这里插入图片描述

二、Molecular Difference Encoder (Modof-encoder)

Modof-encoder将成对的分子作为输入，然后把它们不同的地方encoder成向量 $z_{xy}$

Algorithm S1

在这里插入图片描述

给定两个分子 $\left(M_{x}, M_{y}\right)$ ,

GMPN：Modof (Algorithm S1 in Section S14) 使用“message passing networks”学习到 $M_{x}$ ， $M_{y}$ 的差异的Embedding 表示为graphs $\mathscr{G}_{x}$ and $\mathscr{G}_{y}$ ，

TMPN：然后表示为 junction trees $\mathscr{T}_{x}$ and $\mathscr{T}_{y}$

Step 1. Atom Embedding over Graphs (GMPN 图消息传递网络)

Modof 首先使用 Embedding 来表示原子，通过在分子 graphs 上沿键传播信息来捕获原子类型及其局部邻域结构；
Modof 使用 an one-hot encoding $x_i$ 表示原子 $a_i$ 的类型，
An one-hot encoding $x_{ij}$ 表示 $a_i$ and $a_j$ 的连接键的类型（ $b_{ij}$ ） .
其中，每一个键 $b_{ij}$ 与 $m_{ij}$ ， $m_{ji}$ 的信息相关联（ $m_{ij}$ 表示 $a_i$ 到 $a_j$ 的信息传播，反之亦然）。

$m_{i j}^{(t)}$ 表示 GMPN 的第t 次 iteration ：

$\ { a j } m k i ( t − 1 ) ) \mathbf{m}_{i j}^{(t)}=\operatorname{ReLU}\left(W_{1}^{a} \mathbf{x}_{i}+W_{2}^{a} \mathbf{x}_{i j}+W_{3}^{a} \sum_{a_{k} \in \mathcal{N}\left(a_{i}\right) \backslash\left\{a_{j}\right\}} \mathbf{m}_{k i}^{(t-1)}\right)$

when $t == 1$ :
$\mathbf{m}_{i j}^{(1)}=\operatorname{ReLU}\left(W_{1}^{a} \mathbf{x}_{i}+W_{2}^{a} \mathbf{x}_{i j}\right.)$

$m_{k i}^{(0)}$ 被初始化为0，
$W_{i}^{a \prime} \mathrm{s}(i=1,2,3)$ 是可学习的参数矩阵

因此，message $m_{ij}^{(t)}$ encoder 了在graph中所有从 $b_{ij}$ 到 $a_j$ 长度为 t 的路径
经过 $t_a$ 次信息传递的迭代，原子embedding $a_j$ 被如下规则更新：
$\mathbf{a}_{j}=\operatorname{ReLU}\left(U_{1}^{a} \mathrm{x}_{j}+U_{2}^{a} \sum_{a_{i} \in \mathscr{N}\left(a_{j}\right)} \mathrm{m}_{i j}^{\left(1 \cdots t_{a}\right)}\right)$

$\mathbf{m}_{i j}^{\left(1 \cdots t_{a}\right)}$ 是在所有iteration过程中的信息的连接和，
$U_{1}^{a}$ , $U_{2}^{a}$ 是可学习的参数矩阵
因此，原子embedding $a_j$ 聚合了 $a_j$ 的 $t_a$ -hop的所有邻居的信息，是为了提升原子的embedding represtation 能力

Step 2. Node Embedding over Junction Trees (TMPN 树消息传递网络)

Modof将连接树中的节点encodes 为embedding，通过沿着树边缘传递消息来捕获它们的局部邻域结构。
为了更丰富的产生结点的表示，Modof首先将节点 $n_u$ 中的原子信息聚合到嵌入的 $s_u$ 中，树边 $e_{uv}$ 共享的原子信息通过以下池化方式存入嵌入 $s_{uv}$ 中:

$\mathbf{s}_{u}=\sum_{a_{i} \in \mathscr{A}\left(n_{u}\right)} \mathbf{a}_{i}$
$\mathbf{s}_{u v}=\sum_{a_{i} \in \mathscr{A}\left(n_{u}\right) \cap \mathscr{A}\left(n_{v}\right)} \mathbf{a}_{i}$

Modof还使用了一个可学习的嵌入 $x_u$ 来表示节点 $n_u$ 的类型。因此，在TMPN的第t次迭代中，从节点 $n_u$ 到 $n_v$ 的 $m_{uv}^t$ 更新如下:

$\ { n v } m w u ( t − 1 ) ) \mathbf{m}_{u v}^{(t)}=\operatorname{ReLU}\left(W_{1}^{n} \operatorname{ReLU}\left(W_{2}^{n}\left[\mathbf{x}_{u} ; \mathbf{s}_{u}\right]\right)+W_{3}^{n} \mathbf{s}_{u v}+W_{4}^{n} \sum_{n_{w} \in \mathcal{N}\left(n_{u}\right) \backslash\left\{n_{v}\right\}} \mathbf{m}_{w u}^{(t-1)}\right)$

其中 $x_u,s_u]$ 是 $x_u$ 和 $s_u$ 的信息融合，从而可以更好的表示节点信息；
$W_{i}^{n_{1}} \mathrm{~s}(i=1,2,3,4)$ 是可学习的参数矩阵；
与 GMPN 相似， $\mathbf{m}_{u v}^{(t)}$ encoder了在树中所有从 $e_uv$ 到 $n_v$ 长度为 t 的边。迭代完成后，节点的embedding $n_v$ 被更新为：
$\mathbf{n}_{v}=\operatorname{ReLU}\left(U_{1}^{n} \operatorname{ReLU}\left(U_{2}^{n}\left[\mathbf{x}_{v} ; \mathbf{s}_{v}\right]\right)+U_{3}^{n} \sum_{n_{u} \in \mathscr{N}\left(n_{v}\right)} \mathbf{m}_{u v}^{\left(1 \cdots t_{n}\right)}\right)$

$U_{i}^{n \text { 's }(i=1,2,3)}$ 是可学习的参数矩阵

Step 3. Difference Embedding (DE)

$M_x$ 和 $M_y$ 的embedding的差异通过池化从 $\mathscr{T}_{x}$ 到 $\mathscr{T}_{y}$ 的节点：

$\mathbf{h}_{x y}^{-}=\sum_{n_{x} \in\left\{\mathscr{V}_{x} \mid \mathscr{V}_{y}\right\} \cup\left\{n_{d} \in \mathscr{V}_{x}\right\}} \mathbf{n}_{x},$
$\mathbf{h}_{x y}^{+}=\sum_{n_{y} \in\left\{\mathscr{V}_{y} \mid \mathscr{V}_{x}\right\} \cup\left\{n_{d} \in \mathscr{V}_{y}\right\}} \mathbf{n}_{y},$

$n_x / n_y$ 只出现在 $\mathscr{T}_{x}$ / $\mathscr{T}_{y}$ 中并通过TMPN从中学习到的节点嵌入。

请注意，在上述方程中， $n_d$ 是断开的位置，并且 $\mathscr{T}_{x}$ and $\mathscr{T}_{y}$ 都有共同的断开位点 $n_d$ 。
因此， ${h}_{x y}^{-}$ 本质上表示应该在 $M_x$ 中在断开位点 $n_d$ 处移除的fragment，
${h}_{x y}^{+}$ 本质上表示应该在断开位点 $n_d$ 处添加到 $M_x$ 的fragment，是为了将 $M_x$ 修改为 $M_y$

与VAE一样，通过计算全连接层 µ(·) 和 Σ(·) 的均值和对数方差，将两个差分嵌入的 ${h}_{x y}^{-}$ 和 ${h}_{x y}^{+}$ 映射为两个正态分布。然后，从这两个分布中采样潜在向量 ${z}_{x y}^{-}$ 和 ${z}_{x y}^{+}$ ，并将它们连接到一个潜在向量 $z_{xy}$ 中，即:

$\mathbf{z}_{x y}^{-} \sim N\left(\mu^{-}\left(\mathbf{h}_{x y}^{-}\right), \Sigma^{-}\left(\mathbf{h}_{x y}^{-}\right)\right)$
$\mathbf{z}_{x y}^{+} \sim N\left(\mu^{+}\left(\mathbf{h}_{x y}^{+}\right), \Sigma^{+}\left(\mathbf{h}_{x y}^{+}\right)\right)$
$\mathbf{z}_{x y}=\left[\mathbf{z}_{x y}^{-} ; \mathbf{z}_{x y}^{+}\right]$

Thus, $z_{xy}$ encodes the difference between $M_x$ and $M_y$

三、Algorithm S2 ：Molecular Difference Decoder (Modof-decoder)

Modof-decoder 首先识别出在优化过程中应该被保留的scaffold，然后移除不在scaffold 中部分来得到中间表示
改变中间表示 $M *$ 为 $M_y$ ：通过广度优先 Algorithm S3 有序的添加新的节点到 $T *$
Algorithm S4描述了Modof-pipe的优化

在这里插入图片描述

Modof 首先decoder差异的embedding $z_{xy}$ (Eqn 4) 为可编辑的操作，从而可以改变 $M_x$ into $M_y$ .

Modof 首先预测在 $\mathscr{T}_{x}$ 中的断开位点 $n_d$ ，
这个断开位点 $n_d$
将 $\mathscr{T}_{x}$ 拆为很多片段（fragments），fragments的数量取决于断开位点 $n_d$ 周围的邻居结点的数量 $\mathcal{N}\left(n_{d}\right)$
Modof 然后预测哪一个fragments 将会被移除，然后将剩余的fragments与断开位点 $n_d$ 合并为中间表示 $*=\left(\mathscr{G} *, \mathscr{T}^{*}\right)$
之后，Modof从 $n_d$ 开始依次将新的片段附加到 $(\mathscr{G} *, \mathscr{T}^{*})$ ，decoder总共有4步：

Step1. DSP 断开位点预测

输入 Mx的Tree表示、Mx和My的差异Embedding
输出断开位点 $n_d$
在这里插入图片描述

DSP是为了预测在 $T_x$ 中的每一个结点 $n_u$ 断开的概率：
$f_{d}\left(n_{u}\right)=\left(\mathbf{w}^{d}\right)^{\top} \tanh \left(W_{1}^{d} \mathbf{n}_{u}+W_{2}^{d} \mathbf{z}\right), \forall n_{u} \in \mathscr{V}_{x}$ ，

其中 $n_u$ 是在 $\mathscr{T}_{x}$ 中 $n_u$ 的embedding， $W_d$ 和 $W_{i}^{d}$ 分别是可学习的向量和矩阵，将断开评分最大的节点预测为断开点 $n_d$ 。直觉上讲，Modof 考虑了 $n_u$ 的邻居或局部结构和“有多大可能”编辑操作(用z表示)可以应用于 $n_u$ 。为了学习到 $f_d$ ，Modof 使用树 $\mathscr{T}_{x}$ 中ground-truth断开点的负对数似然作为损失函数。

Step 2. RFP 移除片段预测

输入断开位点 $n_d$ 周围的节点 $n_u$ 、Mx的差异Embedding
输出待移除的节点 $n_r$
在这里插入图片描述

下一步，Modof 预测在 $\mathscr{T}_{x}$ 中的哪个 fragment应该被移除。对于连接在 $n_d$ 的每个节点 $n_u$ ，Modof 进行预测的规则如下：
$f_{r}\left(n_{u}\right)=\sigma\left(\left(\mathbf{w}^{r}\right)^{\top} \operatorname{ReLU}\left(W_{1}^{r} \mathbf{n}_{u}+W_{2}^{r} \mathbf{z}^{-}\right)\right), \forall e_{u d} \in \mathscr{E}_{x}$

$\sigma$ 是sigmode函数， $W^r$ 和 $W_{i}^{r_{1}^{\prime} \mathrm{s}}(i=1,2)$ 分别是可学习的参数向量和参数矩阵；
预测得分 >0.5 则被判定为移除，因此，可以删除多个片段，也可以不删除。
直觉上讲，Modof 考虑了fragment的局部结构以及有多大可能性被移除（表示为 $z^-$ ），为了学习到 $f_{r}$ ，Modof 最小化二进制交叉熵损失来最大化预测的得分。

Step 3. IMR 中间表示

输入待移除的节点 $n_r$ 、 $M_x$ 是完整的图和树的表示
输出 $M_x$ 的scaffold $M^*$
在这里插入图片描述

在 fragment被移除后，Modof 合并剩余的 fragments 与断开位点 $n_d$ 作为中间表示（ $M^{*}=\left(\mathscr{G} *, \mathscr{T}^{*}\right)$ ）

在fragment被移除后， $M^{*}$ 可能不是一个 valid 的分子（因为一些键被破坏了）。
$M^{*}$ 代表 $M_x$ 的 scaffold，在优化过程中应该保持不变。Modof首先移除一个fragment 以识别这样的支架，然后在支架上添加一个fragment 来修饰分子。

Step 4. NFA 新片段附着

输入 $M_x$ 的scaffold $M^*$ 、断开位点 $n_d$ 、 $M_y$ 的差异性Embedding
输出优化好的分子 $M_y$
在这里插入图片描述

按照自动编码器的想法，Modof将差异嵌入 $z_{xy}$ 解码为编辑操作，将 $M_x$ 更改为 $M_y$ (Algorithm S3 in Section S14). 具体来说，Modof首先预测 $T_x$ 中的一个节点 $n_d$ 为断开位点。这个节点将把 $T_x$ 分割成几个片段，结果片段的数量取决于 $n_d$ 的相邻节点 $N(n_d)$ 的数量。然后，Modof预测要从 $M_x$ 中移除哪些片段，并将剩余的片段与 $n_d$ 合并为一个中间表示的 $M^{*}=\left(G^{*}, T^{*}\right)$ 。之后，Modof从 $n_d$ 到 $G^{*}, T^{*})$ 依次连接新的片段。

Modof 使用如下的四种预测来序列化的附着新的节点到 $T^{*}$ ，这种预测将会被迭代，在每个附着点 $T^{*}$ 中，开始于 $n_d$ 。
在第 t 次附着新的节点被表示为： $n^{*}(t)\left(n^{*(0)}=n_{d}\right)$ ，其对应的分子图和树分别表示为： $\mathscr{G}^{*(t)}\left(\mathscr{G}^{*(0)}=\mathscr{G}^{*}\right) \text { and } \mathscr{T}^{*(t)}\left(\mathscr{T}^{*(0)}=\mathscr{T}^{*}\right)$

Algorithm S3: Modof New Fragment Attacher NFA

通过广度优先（一层一层的遍历，直至找到目标结点而深度优先是沿着一条路径不断往下，直至找到目标结点） Algorithm S3 有序的添加新的节点到 $T *$
在这里插入图片描述

Step 4.1. Child Connection Prediction (NFA-cp)

NFA-cp是为了预测是否应该在 $n^{*(t)}$ 处附着新的节点，而不是预测scaffold上所有的节点是否应该附着新的节点
返回 $n^{*(t)}$ 是否应该有一个新的子节点附加到它上面，并计算附着在该节点上的概率：

$f_{c}\left(n^{*(t)}\right)=\sigma\left(\left(\mathbf{w}^{c}\right)^{\top} \operatorname{ReLU}\left(W_{1}^{c} \mathbf{n}^{*(t)}+W_{2}^{c} \mathbf{z}^{+}\right)\right)$

$\mathbf{n}^{*(t)}$ 是 $n^{*(t)}$ 的embedding（ $n^{*(t)}$ 是在 $\mathscr{T}^{*(t)}$ ， $\mathscr{G}^{*(t)}$ 中学到的）， $z^+$ 表明了有多少 $\mathscr{T}^{*(t)}$ 应该被expanded，
在这里插入图片描述

Step 4.2. Child Node Type Prediction (NFA-ntp)

输入 $n^{*(t)}$ ：被附着新节点的位置、 $M^*$ 分子的scaffold、 $z^+_{xy}$ My的不同的片段的部分
返回待添加的新子节点 $n_c$ 、添加的子节点的类型 $x_c$
在这里插入图片描述

$n^{*(t)}$ 的新子节点表示为 $n_c$ 。Modof通过计算可以连接到 $n^{*(t)}$ 上的所有类型的节点的概率来预测 $n_c$ 的类型，如下所示:
$f_{l}\left(n_{c}\right)=\operatorname{softmax}\left(U^{l} \times \operatorname{ReLU}\left(W_{1}^{l} \mathbf{n}^{*(t)}+W_{2}^{l} \mathbf{z}^{+}\right)\right)$

Softmax() 将向量转为概率值， $U^1$ and $W^l_i$ 是可学习的矩阵，Modof为新的子节点 $n_c$ 分配了对应于最高概率的子节点类型 $x_c$ 。
Modof 通过最小化交叉熵来最大化子节点的学习可能性 $f_l$ 。

Step 4.3. Attachment Point Prediction (NFA-app)

输入 $n^{*(t)}$ ：被附着新节点的位置、 $n_c$ ：被附着的节点、 $G^*$ ：分子graph的scaffold、 $z^+_{xy}$ My的不同的片段的部分
返回：对父节点 $n^{*(t)}$ 上的每个候选附着点进行评分，记为 $a_p^*$ 、对子节点 $n_c$ 上的每个候选附着点进行评分，记为 $a_c^*$
在这里插入图片描述

如果节点 $n^{*(t)}$ 被预测有一个子节点 $n_c$ ，则下一步是连接 $n^{*(t)}$ 和 $n_c$ 。如果 $n^{*(t)}$ 和 $n_c$ 共享一个或多个原子（例如， $n^{*(t)}$ 和 $n_c$ 形成一个融合环，从而共享两个相邻的原子)可以根据化学规则明确地确定为附着点(s)），Modof将通过原子(s)连接 $n^{*(t)}$ 和 $n_c$ 。否则，如果 $n^{*(t)}$ 和 $n_c$ 有多个连接构型，则Modof分别预测 $n^{*(t)}$ 和 $n_c$ 处的附着原子。

Step 4.3.1. Attachment Point Prediction at Parent Node (NFA-app-p)

Modof对父节点 $n^{*(t)}$ 上的每个候选附着点进行评分，记为 $a_p^*$ ，如下：
$g_{p}\left(a_{p}^{*}\right)=\left(\mathbf{w}^{p}\right)^{\top} \tanh \left(W_{1}^{p} \mathbf{a}_{p}^{*}+W_{2}^{p} \mathbf{x}_{c}+W_{3}^{p} \times \operatorname{ReLU}\left(U_{2}^{n}\left[\mathbf{x}^{*(t)} ; \tilde{\mathbf{s}}^{*(t)}\right]\right)+W_{4}^{p} \mathbf{z}^{+}\right)$

Step 4.3.2. Attachment Point Prediction at Child Node (NFA-app-c)

Modof对子节点 $n_c$ 上的每个候选附着点进行评分，记为 $a_c^*$ ，如下：

$g_{c}\left(a_{c}^{*}\right)=\left(\mathbf{w}^{o}\right)^{\top} \tanh \left(W_{1}^{o} \mathbf{a}_{c}^{*}+W_{2}^{o} \mathbf{x}_{c}+W_{3}^{o} \mathbf{a}_{p}^{*}+W_{4}^{o} \mathbf{z}^{+}\right)$

Algorithm S4: Molecule Optimization via Modof-pipe

给定一个分子 $M_x$ 、相似性约束 $\delta$ 、最大的采样数目 $K$ 、允许的最大迭代次数，
在相似性约束 $\left(\operatorname{sim}\left(M_{x}, M_{y}\right) \geq \delta\right)$ 的前提下，Modof-pipe 迭代优化 $M_x$ 到 $M_y$ ，其中 $M_y$ 有更好的性质： $\left(\operatorname{plog} \mathrm{P}\left(M_{y}\right)>\operatorname{plog} \mathrm{P}\left(M_{x}\right)\right)$

在这里插入图片描述

Algorithm S5: Molecule Optimization via $Modof-pipe^m$

给定一个分子 $M_x$ 、相似性约束 $\delta$ 、最大的采样数目 $K$ 、允许的最大迭代次数、每次迭代 $m$ 的最大输入分子数、在 $Modof-pipe^m$ 的最大输出数。
在第 t 次的迭代中，在相似性约束下， $Modof-pipe^m$ 优化每个输入的分子，表示为 $M_{x}^{(t)}(i)$ ，变成 $K$ 个解码的分子，表示为 $\left\{M_{y}{ }^{(t)}(i, k) \mid k=1, \cdots, K\right\}$ ，然后 $Modof-pipe^m$ 在 $\left\{M_{y}{ }^{(t)}(i, k) \mid k=1, \cdots, K\right\}$ 选择不超过m个独一无二的最好的分子为了在下一个 $t + 1$ 迭代中进一步优化。在所有的decoded分子中 $\cup_{i}\left\{M_{y}{ }^{(t)}(i, k) \mid k=1, \cdots, K\right\}$ 最好的 $b$ 个分子将会是 $Modof-pipe^m$ 的最终的输出。

在这里插入图片描述

A Deep Generative Model for Molecule Optimization via One FragmentModification 2 【encoder和decoder详解】

Decoder整体流程：

一、Molecule Representations and Notations

二、Molecular Difference Encoder (Modof-encoder)

Algorithm S1

Step 1. Atom Embedding over Graphs (GMPN 图消息传递网络)

Step 2. Node Embedding over Junction Trees (TMPN 树消息传递网络)

Step 3. Difference Embedding (DE)