Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders

知识点
摘要
引言
本文方法

这是2019ACL的一篇文章。

本文借鉴《Unsupervised Neural Machine Translation》一文的思想，只是把两种语言之间的翻译改为四种语言之间的翻译。效果比较好而已。

文章链接：

Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders

知识点

共享编码器，每种语言有各自的解码器。
实现了多语言翻译，文中是4种语言。
使用了去噪自编码器和回译过程，根据本文的任务做了相关改变。

摘要

在本文中，我们提出了一种多语言无监督NMT方案，该方案可使用共享编码器和
多个解码器。我们的方法基于对每种语言的自编码器进行降噪并在英语和多种非英语语言之间进行反向翻译。这产生了通用编码器，该通用编码器可以将参与训练的任何语言编码为一种语言表示形式，以及特定于语言的解码器。我们在仅使用单语语料库的实验表明，多语种无监督模型比单独训练的双语模型表现更好，在WMT测试集上实现了高达1.48 BLEU点的改进。我们还观察到，即使我们没有针对所有可能的翻译方向训练网络，但网络仍然可以利用编码器生成语言间表示的能力以多对多的形式进行翻译。

引言

在这项工作中，我们建议使用共享编码器和特定于语言的解码器，通过一个源到多个目标，以及将多个目标到一个源转换，在一种无监督的NMT培训中将多种语言结合起来。我们提出的方法在训练期间的每次迭代中仅需要2 *（n − 1）个逆向翻译。具体来说，我们仅使用单语语料训练NMT系统，使用6种翻译方向使用4种语言（英语，法语，德语和西班牙语）在12个方向上进行翻译。我们将英语作为主要语言，并将三种非英语语言的嵌入映射到英语嵌入空间中。我们训练网络使所有四种语言降噪，并在英语和非英语语言之间进行反向翻译。我们使用BLEU评分对在newstest13和newstest14上进行评估。我们发现多语言模型优于双语模型1.48个 BLEU点。我们还发现，即使在训练过程中没有明确看到这些语言对，该网络也可以在非英语（法语，德语和西班牙语）对之间进行翻译。要在非英语对之间进行翻译，推理时不需要修改网络。我们还将评估非英语对的表现，并获得最高BLEU分数13.92。

我们当前工作的主要贡献如下：

我们提出了一种策略来训练多语言无监督的NMT，实现一个源到多个目标，多个目标到一个源的翻译。
我们的实证研究表明，联合训练多种语言可以改善单独训练的双语模型。
实验还表明，无需训练网络以进行多对多翻译，网络就可以在参与培训的所有语言之间进行翻译。

本文方法

我们提出的方法主要包括两个步骤：

我们通过跨语言嵌入映射将多种语言映射到共享的潜在空间中。
使用共享表示，我们通过降噪和反向翻译，在共享编码器和特定于语言的解码器的帮助下，仅使用单语语料来训练NMT。

Cross-lingual Embedding

就是facebook第一篇中的工作，即给定源语言的embedding，就可以根据学习到的转换矩阵生成目标语言的embedding。

首先，学习两个单语嵌入空间X和Y。然后使用GAN，学习转换矩阵W，将X映射到Y。训练鉴别器以区分W X和Y，同时训练W通过使W X和Y尽可能相似来防止鉴别器这样做。使用W，可以学习到一个常见单词的小型双语词典。通过正交Procrustes方法，导出了一个在X和Y空间之间转换的新转换矩阵W。
在这里插入图片描述
通过使用新的W提取新的翻译对，可以多次重复此步骤。使用CSLS生成了两种语言之间的新翻译对。

Multilingual Embeddings

通常，对于n种语言，我们选择一种语言L1作为锚，以将其他n-1种语言映射到其嵌入空间。
为此，我们首先针对n种语言中的每一种训练单语单词嵌入。然后一个接一个地将n − 1种语言的每种嵌入映射到L1的嵌入空间。在我们的实验中，我们考虑了4种语言，即英语，法语，西班牙语和德语。我们通过固定英语嵌入来为法语，西班牙语和德语创建三种跨语言嵌入。

Multilingual NMT Training

在缺乏真正的源-目标对的情况下，我们依赖于合成源-目标对，在目标端有一个真实的单语句子，在源端有一个合成的等效目标。

我们提出的多语言无监督的NMT培训策略是受到Artetxe等人(2018)最近的一项工作的启发。

对源句和目标句进行去噪自编码;
源与目标的反向翻译

对于n种语言L1;L2;:::;Ln，在每次迭代中，我们对n种语言进行去噪，从L1反向翻译到其他n−1种语言，再从n−1种语言反向翻译到L1。如图一所示。

在我们的实验设置中，我们有4种语言，L1是英语。在去噪自编码步骤中，一种语言中的句子随机打乱单词顺序，然后训练解码器去预测原始的句子。在回译步骤中，为了训练源到目标方向上的系统，首先使用推理模式的系统（使用共享编码器和源语言解码器）将目标句子翻译为源句子，以生成伪源-目标平行的句子，然后用生成的伪平行数据训练源-目标方向上的网络。目标到源方向上的训练跟上述过程类似。
在这里插入图片描述

小小鸟要高飞

发布了52 篇原创文章 · 获赞 7 · 访问量 4万+

私信关注