解读 IASM《Interactive Attention for Semantic Text Matching》

互动关注本地互动

我们模型的输入是一对源文本和目标文本(q,d)。 源文本q由m的序列组成单词(q1,q2,...,qm)和目标文本d由a组成n个单词的序列(d1,d2,...,dn)。 预训练词每个单词qi∈q和dj∈d的嵌入可以通过在诸如知识之类的外部资源上进行表征学习。 因此,我们可以获得源文本Q = {q1,q2,...,qm}的表示形式和目标文本D = {d1,d2,...,dn}的表示形式。

在这里,我们可以基于源文本Q和目标文本D的预训练表示,通过源文本q和目标文本d之间的词级相似度来获得匹配矩阵A。

                                                                 A_{ij} = Sim(q_{i}, d_{j} )

我们利用余弦相似度作为Sim函数。 该匹配矩阵指定对象q和d之间的元素交互作用的空间。 另外,匹配矩阵A可以是用于从一些外部知识图提取的二部图的邻接矩阵。

匹配矩阵上交互式注意力的体系结构由三个组件组成。

  • 针对源文本的交互式基于注意力的学习。
  • 针对目标文本的交互式基于注意力的学习。
  • 匹配分数计算。

图1说明了作为2通道交互注意力的前两个组件。它们被设计为学习源文本和目标文本的新表示形式,以通过在匹配矩阵A及其转置中传递的消息来利用这两个组件之间的全局和局部相关性 。 具体来说,我们通过与本地互动的互动关注来实现此目标。

源文本的交互式注意力学习

给定匹配矩阵A,它表示d和q之间的词级相似性,我们将其作为目标文本和源文本之间的关系矩阵。 对于由预训练词嵌入{qi}组成的源文本Q的表示,我们对匹配矩阵AT及其转置进行交互式关注,以学习源文本q中每个单词的新表示。 更具体地,对具有匹配矩阵的目标文本d中的所有单词进行交互式注意。 这样,它可以整合来自目标文本中所有单词{dj}的相关性信息,以丰富源文本q中每个单词的表示形式。 对于第一层,我们有

                                                         Q{}'= f_{q}(A^{T} QW_{q})

在这里,输入的交互式信息被累积并通过类似神经网络的函数fq传递,例如线性变换和ReLU。 Q是源文本的原始表示,它由预训练的词嵌入{qi}组成。 此过程可以是多层。 对于第(2n + 1)层,n = 0、1、2,...,我们有

                                                    Q^{(2n+1)} = f_{q}(A^{T}Q^{(2n-2)})W_{q}^{(2n-2)})

扫描二维码关注公众号,回复: 10194181 查看本文章

对于第(2n)层,n = 1,2,...,

                                                     Q^{(2n)} = f_{q}(AQ^{(2n-1)})W_{q}^{(2n-1)})

其中W(2n + 1)q和W(2n)q是权重矩阵。 不同奇数层的权重矩阵可以共享相同或不同的权重矩阵。 相同的设置可以应用于偶数层。

目标文本的交互式注意力学习

源文本的交互式注意力学习,不在赘述。

匹配分数计算

为了获得源文本和目标文本之间的匹配分数,我们在两个不同的通道(即源通道和目标通道)上进行了两次比较。 我们比较了原始源文本表示形式Q和新学习的目标表示形式D^{(2n + 1)}之间的差异,这是在奇数层交互注意之后获得的。 两者之间的距离计算为Dist(Q,D^{(2n + 1)})。 我们比较了原始目标文本表示形式D和新奇学习源表示形式Q^{(2n + 1)}之间的差异,该差异是在奇数层交互注意之后获得的。 两者之间的距离计算为Dist(D,Q^{(2n + 1)})。 每个Q和D应该在进行Dist()之前进行标准化。 您可以选择适当的距离指标,例如 欧几里得和余弦。 在这里,我们利用的距离度量是欧氏距离。 因此,评分函数定义如下。

                                              

其中α and β 是超参数。

IASM的学习

要了解我们的IASM的参数,我们考虑一种排名标准。 直观地,给定一个真对(q,d),如果目标文本d缺失,我们希望模型能够预测正确的目标文本。 对于每对真实的源文本和目标文本对(q,d),我们采样了几个否定样本。 训练的目的是学习所提出的模型,以便它可以成功地对真实对(q,d)进行排名,以排在所有其他可能的负样本之前。 因此,我们定义一个损失以使这种直觉正式化:.

                                                 

其中M +是真实的源和目标文本(q,d)对的集合,M-包含通过负采样构造的损坏的对,该采样对替换了真实(q,d)中的源文本或目标文本,γ> 0是a 分隔真对和破损对的边距,并且[x] + = max(0,x)表示x的正部分。

发布了104 篇原创文章 · 获赞 97 · 访问量 26万+

猜你喜欢

转载自blog.csdn.net/weixin_37947156/article/details/103086901