Neural Graph Matching Networks for Chinese Short Text Matching

在这里插入图片描述

  Neural Graph Matching Networks for Chinese Short Text Matching

1.介绍

中文短文本匹配不同于英文，中文分词可能是错误的、模糊的或不一致的，从而损害最终的匹配性能。比如下图：字符序列“南京市长江大桥”经过不同的分词可能表达为不同的意思。
在这里插入图片描述
本文针对这种情况提出了一种用于中文短文本匹配的神经图匹配方法(GMN)。不是将每个句子分割成一个单词序列，而是保留所有可能的分割路径，形成一个单词格图（segment1，segment2，segment3），如上图所示。GMN以一对词格图为输入，根据图匹配注意机制更新节点的表示。

2 Problem Statement

给定两个中文句子：
$S^a$ ={ $c$ $^a$ $_1$ ,…, $c$ $^a$ $_A$ }， $S^b$ ={ $c$ $^b$ $_1$ ,…, $c$ $^b$ $_B$ }
目标是预测这两个句子的语义是否相等。

本文提出了一种基于图的匹配模型，它不是把每个句子分割成一个词序列，而是保留所有可能的分割路径，形成一个词格图 $G$ = ( $V$ ， $E$ )。 $V$ 是节点集，包括词典中匹配单词的所有字符子序列。 $E$ 是边集。如果一个节点 $v_i$ ∈ $V$ 与原句中的另一个节点 $v_j$ ∈ $V$ 相邻，那么它们之间就有一条边 $e$ $_i$ $_j$ 。 $N$ $_f$ $_w$ ( $v_i$ )表示节点 $v_i$ 在其正向的所有可达节点的集合，而 $N$ $_b$ $_w$ ( $v_i$ )表示节点 $v_i$ 在其反向的所有可达节点的集合。

对于两个图 $G^a$ = ( $V^a$ ， $E^a$ )和 $G^b$ = ( $V^b$ ， $E^b$ )，图匹配模型是预测它们的相似性，这表明原始句子 $S^a$ 和 $S^b$ 是否具有相同的含义。

3 Proposed Framework

如下图所示，模型由三个组件组成:上下文节点嵌入模块(BERT)、图匹配模块和关系分类器:
在这里插入图片描述

3.1 Contextual Node Embedding

对于图中的每个节点 $v_i$ ，其初始节点嵌入是上下文字符表示的attentive pooling：

首先连接原始的字符级句子，形成一个新的序列：
.
将其输入BERT获得每个字符的上下文表示：
.

假设节点 $v_i$ 由 $n_i$ 个字符token组成：
在这里插入图片描述
用一个两层的前馈网络(FNN)为每个字符 $c$ $_s$ $_i$ $_+$ $_k$ 计算的具有特征的得分向量 $u$ $^-$ $_s$ $_i$ $_+$ $_k$ ，即

$u$ $^-$ $_s$ $_i$ $_+$ $_k$ = FFN( $c$ $_s$ $_i$ $_+$ $_k$ )。
然后用基于特征的多维softmax归一化得到 $u$ $_s$ $_i$ $_+$ $_k$ （softmax（ $u$ $^-$ $_s$ $_i$ $_+$ $_k$ ））。对应的字符嵌入 $c$ $_s$ $_i$ $_+$ $_k$ 用归一化分数 $u$ $_s$ $_i$ $_+$ $_k$ 加权，得到初始节点嵌入：
在这里插入图片描述

3.2 Neural Graph Matching Module

神经图匹配模块将上下文节点嵌入作为节点 $v_i$ 的初始表示 $h_0$ ，然后通过两个子步骤更新其表示:消息传播和表示更新。

 不失一般性，使用图Ga的节点来描述节点表示的更新过程，Gb中的节点更新过程也是类似的。

Message Propagation

在第 $l$ 步中， $G^a$ 中的每个节点 $v_i$ 不仅从其可到达的节点在两个方向上聚集消息 $m$ $^f$ $^w$ $_i$ 和 $m$ $^b$ $^w$ $^i$ ：
在这里插入图片描述
而且还从图 $G^b$ 中的所有节点聚合消息 $m$ $^b$ $^1$ $_i$ 和 $m$ $^b$ $^2$ $_i$ ：

这里 $α$ $_i$ $_j$ ， $α$ $_i$ $_k$ ， $α$ $_i$ $_m$ ， $α$ $_i$ $_q$ 是注意力系数。 $W$ $^f$ $^w$ 和 $W$ $^b$ $^w$ 是注意力系数参数在等式（1）（2）中共享。此外，定义：

在这里插入图片描述

通过这种共享机制，该模型具有一个很好的性质，即当两个图完全匹配时，有
在这里插入图片描述

它们不完全相等的原因是节点 $v_i$ 只能聚合图 $G^a$ 中其可达节点的消息，而cross可以聚合 $G^b$ 中所有节点的消息。

Representation Updating

在聚合消息之后，每个节点 $v_i$ 将更新：从 $h$ $^l$ $^-$ $^1$ $_i$ 到 $h$ $^l$ $_i$ 的表示。这里首先用多视角余弦距离比较两个消息 $m$ $^s$ $^e$ $^l$ $^f$ $_i$ 和 $m$ $^c$ $^r$ $^o$ $^s$ $^s$ $_i$ ：
在这里插入图片描述
其中 $k$ ∈{ $1$ ， $2$ ，…， $P$ } 。 $w$ $^c$ $^o$ $^s$ $_k$ 是一个参数向量，它为不同维度的消息分配不同的权重。用 $P$ 距离 $d_1$ ， $d_2$ ，…， $d_P$ 更新 $v_i$ 的表示：

其中[,]表示两个向量的连接。 $d_i$ =[ $d_1$ ， $d_2$ ，…， $d_P$ ]，FFN是一个具有两层的前馈网络。
在更新节点表示 $L$ 步之后，将获得每个节点 $v_i$ 的图感知表示 $h^L$ $_i$ 。 $h^L$ $_i$ 不仅包括来自其可达节点的信息，还包括与另一个图中所有节点成对比较的信息。两个图 $G^a$ 和 $G^b$ 的图级表示 $g^a$ 和 $g^b$ 是通过仔细汇集每个图中所有节点的表示来计算的。