论文解读:Semantic Neural Machine Translation using AMR

论文解读:Semantic Neural Machine Translation using AMR

  机器翻译主要得益于语义表征能力,为了缓解数据的稀疏性,作者提出一种神经机器翻译方法,利用AMR(Abstract Meaning Representation)作为语义增强,结合LSTM进行端到端的学习。此模型较为简单,因此做简单介绍。

一、简要信息

序号 属性
1 模型名称 semantic-nmt
2 所属领域 自然语言处理
3 研究内容 神经机器翻译
4 核心内容 Att-BiLSTM, AMR,GRN
5 GitHub源码 https://github.com/freesunshine0316/semantic-nmt
6 论文PDF https://arxiv.org/abs/1902.07282)

二、相关背景

  绝大多数的机器翻译工作中,通常使用RNN或CNN用于捕捉句子的语义表征,通常其获取的信息量较为发散(让神经网络自己去挖掘句子中词与词之间的序列关系),往往机器翻译的数据非常稀疏,少量的数据容易让神经网络产生过拟合的学习,因此绝大多数的神经机器翻译模型会添加额外的信息用于增强,例如带有图像的多模态机器翻译,结合知识图谱的机器翻译等。本文则是利用句子的语法结构来增强机器翻译。

  通常语法结构有依存关系树,如下图中(a)所示,其可以分析出主语谓语宾语,构成简单的事实,比如图中的事实为John gave wife present。
在这里插入图片描述
另外就是AMR,其是基于依存关系树生成的图,其由Banarescu[1]提出。根结点为(a)中的起始点gave单词,依次对应相关的名词,每个叶子结点则表示最终对应的人名、事物或其修饰词。因为名词之间可能会存在语义关系,因此AMR是一个有向图结构。AMR具体详细可见参考文献[1],AMR可以通过一系列的工具包自动生成,例如JAMR。

三、提出的方法

  如图所示:
在这里插入图片描述
作者提出的模型主要分为三个部分,编码器包含两个部分分别为基于注意力的长短期记忆神经网络(Att-BiLSTM)和基于图递归网络GRN的AMR编码器;解析器则为自回归模型。

1、Att-BiLSTM

  这一部分想必大家都已经很熟悉了,代码层面上则是一层带有LSTM记忆单元的RNN网络的输出层通过加权求和形式,输出为一个向量(对于一个句子),本文记做 c m 1 c_{m-1}

2、GRN based AMR Encoder

  GRN是一种利用时间序列的图神经网络,其输入为一个拓扑结构 G = ( V , E ) G=(V,E) ,包括结点 V V 和边 E E 。拓扑结构则为每个句子的AMR图,每个结点 v j v_j 用向量 a j a^j 表示,初始化时为0向量。记 g = a j v j V g={a^j}|v_j\in V 表示所有结点向量的集合,或表示为一个矩阵。

  在训练GNN时,有两种方法学习每个结点的表示,一种是基于图卷积网络GCN,一种是基于图递归网络GRN,它们分别借鉴了CNN和RNN的思想。本文使用的是GRN网络,简单做一个介绍:
t t 轮迭代就相当于RNN中的第 t t 个时间序列,每轮迭代主要包括上一轮迭代的隐状态和当前的外来数据,其中外来数据即为AMR图中每个结点的对应的词向量。
(1)外来数据:为了保证输入数据符合拓扑结构,作者定义数据格式:

ϕ j = ( i , j , l ) E i n ( j ) x i , j l \phi_j = \sum_{(i,j,l)\in E_{in}(j)}x_{i,j}^l

ϕ ^ j = ( j , k , l ) E o u t ( j ) x j , k l \hat{\phi}_j = \sum_{(j,k,l)\in E_{out}(j)}x_{j,k}^l

其中 x i , j l x_{i,j}^l 表示三元组 ( v i , l , v j ) (v_i,l,v_j) 的向量表示, x i , j l = W ( [ e l ; e v i ] ) + b x_{i,j}^l=W([e_l;e_{v_i}])+b E i n E_{in} E o u t E_{out} 分别表示当前的结点 v j v_j 存在(不存在)三元组 ( v i , l , v j ) (v_i,l,v_j) 中。需要注明的是,上述两个公式是对结点 v j v_j 的表示,循环所有三元组,只要三元组存在 v j v_j 的累和到 ϕ j \phi_j 中,否则累和到 ϕ ^ j \hat{\phi}_j 中。

(2)上一状态的隐状态:

ψ j = ( i , j , l ) E i n ( j ) a t 1 i \psi_j = \sum_{(i,j,l)\in E_{in}(j)}a_{t-1}^i

ψ ^ j = ( j , k , l ) E o u t ( j ) a t 1 k \hat{\psi}_j = \sum_{(j,k,l)\in E_{out}(j)}a_{t-1}^k

其中 a t 1 i a_{t-1}^i 表示上一时刻 v j v_j 的表示,
递归公示如图所示,其本质上是LSTM。
在这里插入图片描述

3、Decoder

  模型图可见,当预测某一个句子中的一个单词时,根据上一个已预测的单词的隐状态,有权重的选择整个原始句子中重要的部份来预测下一个单词,同时也有权重的选择最后一个时刻 T T 的AMR图中重要的结点作为增强,作者在AMR图输出部分和LSTM一样堆叠了一个Attention,公式如下:
ϵ ^ m , i = v ^ 2 T t a n h ( W a a T i + W ^ s s m + b ^ 2 ) \hat{\epsilon}_{m,i}=\hat{v}_2^{\mathbb{T}}tanh(W_aa_{T}^{i}+\hat{W}_ss_m+\hat{b}_2)

α ^ m , i = e x p ( ϵ ^ m , u ) j = 1 N e x p ( ϵ ^ m , u ) \hat{\alpha}_{m,i} = \frac{exp(\hat{\epsilon}_{m,u})}{\sum_{j=1}^{N}exp(\hat{\epsilon}_{m,u})}

预测部分则为: P v o c a b = s o f t m a x ( V [ s m , c m 1 , c ^ m 1 ] ) P_{vocab} = softmax(V[s_m,c_{m-1},\hat{c}_{m-1}]) ,其中 c ^ m 1 = i = 1 N α ^ m , i a T i \hat{c}_{m-1}=\sum_{i=1}^{N}\hat{\alpha}_{m,i}a_{T}^{i}

参考文献:
【1】Banarescu, Laura & Bonial, Claire & Cai, Shu & Georgescu, Madalina & Griffitt, Kira & Hermjakob, Ulf & Knight, Kevin & Koehn, Philipp & Palmer, Martha & Schneider, Nathan. (2013). Abstract Meaning Representation for Sembanking. 178-186.
【2】利用AMR进行摘要式文本综述

发布了96 篇原创文章 · 获赞 158 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/qq_36426650/article/details/104166291