Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder

Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder


这是2019AAAI微软的一篇文章。

知识点

  1. 通过BPE或者word pieces算法实现源语言和目标语言端词汇共享(NMT常用方法)。
  2. encoder模块和decoder模块中的 self-attention 模块和非线性方程模块(前馈神经网络) 参数共享。
  3. 实验中使用了不同的BLEU,有 multi-bleu.perl,还有 sacreBLEU。
  4. 未来工作中提到了参数正则化以及将本文的方法应用到多语言翻译。

摘要

共享源语言和目标语言端词汇表和词嵌入已经成为NMT中很流行的一种做法。词级别的共享所取得的成功激发我们做更进一步的努力:我们考虑模型级别的共享并且将NMT模型中的整个encoder和decoder部分连接在一起。我们共享了Transformer中的encoder和decoder模块,得到了一个紧凑型模型叫做Tied Transformer。实验结果表明这个简单的模型在相似语言对和非相似语言对中都有很好的效果。我们取得35.52的BLEU得分在IWSLT 2014的德语到英语的翻译上。在WMT 2014英语到德语的翻译上,没有使用/使用平行数据,取得了28:98/29:89 的BLEU得分。在WMT 2016无监督德语到英语的翻译任务上取得了22:05的BLEU 得分。

介绍

第一段主要讲了:在NMT中共享源语言和目标语言端词汇是一种通用方法,通过BPE或者Word Piece算法(前面讲Bert的时候讲过,也是通过BPE来实现)可以实现。

第二段讲了参数共享的一些例子,从而引出本文的方法。

第三段讲了本文所使用的参数共享方法。

第四段介绍了本文的实验结果。

背景

第一段讲了NMT的结构(凑字数)。

第二段讲了参数共享的例子。2015年Dong利用一个encoder多个decoder实现一对多语言的翻译;2016年Luong使用多个encoder一个decoder实现多对一语言翻译;2016年Firat设计了一个多个encoder多个decoder加上不同语言对之间共享attention机制来实现多对多语言翻译;还有人通过单一的encoder-decoder模型来实现多对多语言的翻译。

第三段讲了Transformer,也是凑字数的吧。

模型结构

文中说了一大堆,列了一大堆公式,我感觉完全是把简单问题复杂化,可能是想用一大堆公式让别人看不懂,然后觉得你做的工作很难,这样迷惑审稿人比较文章比较容易中吧,其实简单的概括起来就一句话:

encoder模块和decoder模块中的 self-attention 模块和 非线性方程模块(前馈神经网络) 参数共享

模型结构如下图,蓝线是Encoder部分,黄线是Decoder部分。虚线框中两个绿色的模块参数共享。

在这里插入图片描述

其实看文章这两个地方就可以得到该结论:

在这里插入图片描述
在这里插入图片描述
中间过程的一些公式也稍微做下解释吧,便于大家理解(虽然不理解也没关系):

Encoder部分:

在这里插入图片描述
l 是层数,i 代表第 i 个单词,H是隐向量集合,先将 l-1 层的隐向量输入得到self-attention,然后在通过前馈神经网络得到该层(l 层)输出的隐向量 h,最后得到 l 层的隐向量集合 H_l。

Dncoder部分:

在这里插入图片描述
该部分 S 是隐向量集合,该部分唯一不同的是,得到 self-attention 之后,将得到的结果和 Encoder 部分的输出 H(encoder部分得到的隐向量集合)一起作为输入得到了跨语言 attention。其他的和Encoder部分相同。

理论分析部分又列了一大堆公式,懒得看了,感兴趣的可以自己去研究一下。

实验结果

就不具体分析了,做了很多组实验,我只是看到用了很多GPU,训练了好多天,对于我等穷人而言,难啊。。。。。

还有一点是作者对于不同的任务用了不同的BLEU,有 multi-bleu.perl,还有 sacreBLEU。

未来工作

  1. 首先,我们研究了硬参数共享。如何实现参数的软约束,如参数距离的正则化是一个有趣的课题。
  2. 第二,如何将这一思想应用到多语言翻译中值得探讨。
  3. 第三,我们将研究这个想法是否适用于其他应用,如文本摘要和问答。
发布了52 篇原创文章 · 获赞 7 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/weixin_38937984/article/details/102072482