Artetxe - 2019ACL - Bilingual Lexicon Induction through Unsupervised Machine Translation

Bilingual Lexicon Induction through Unsupervised Machine Translation

知识点
摘要
介绍
方法介绍
实验设置
实验结果

这是2019年ACL的一篇文章，这篇是在facebook小哥第一篇文章的基础上做的改进，主要用来生成双语词典，效果更好一些。

文章链接：

Bilingual Lexicon Induction through Unsupervised Machine Translation

代码链接：

https://github.com/artetxem/monoses

知识点

从输入词嵌入中得到了短语embeddings，然后使用产生的跨语言短语嵌入来构建一个短语表，接着生成基于短语的机器翻译系统，最后用生成的翻译系统做翻译来生成双语词典。
其他方法是先生成词典再生成翻译系统，而此方法是先生成翻译系统再生成词典。

摘要

最近的一项研究在双语词汇归纳方面取得了良好的成果，该研究将两种语言中独立训练的词嵌入对齐，并通过最近邻或相关检索方法使用产生的跨语言词嵌入诱导词翻译对。在这篇论文中，我们基于最近的无监督机器翻译工作提出了一种替代方法来解决这个问题。我们不是直接从跨语言词嵌入中归纳出双语词汇。我们使用它们来构建一个短语集，并将其与语言模型结合起来，然后使用生成的机器翻译系统生成一个合成的平行语料库，然后使用统计词汇对齐技术从其中提取双语词汇。因此，我们的方法适用于任何词嵌入和跨语言映射技术,并且它不需要任何额外的资源，除了单语语料库用于训练词嵌入。当在完全相同的跨语言词嵌入上进行评估时，我们提出的方法比最近邻平均提高6个精度点，比CSLS检索平均提高4个精度点，在标准的MUSE数据集上取得了新的 state-of-the-art 效果。

介绍

跨语言词嵌入映射近年来引起了广泛的关注。这些方法通过独立地培训不同语言中的词嵌入，并通过线性转换将它们映射到共享空间。虽然早期的方法需要一个训练字典来找到初始对齐，但完全无监督的方法已经成功地获得了基于对抗性训练或自学习的可比较的结果（前面博客中介绍的方法）。

这些方法的一个突出应用是双语词汇归纳法(BLI)，即使用产生的跨语言嵌入来构建一个双语词典。为了达到这个目的，我们通常会通过获取目标语言中相应的最近邻来归纳每个源单词的翻译。然而，有人认为这一基本方法存在缺陷，从而激发了其他检索方法（facebook第一篇文章中介绍的方法）。

在本文中，我们更进一步，不是直接从跨语言词嵌入中归纳出双语词典，而是使用它们来构建一个无监督的机器翻译系统，并从与之产生的合成平行语料库中提取出双语词典。这使我们能够利用强大的语言模型，通过统计词对齐自然地提取翻译。同时，我们的方法可以替代传统的检索技术，因为它可以处理任何跨语言的词嵌入，它不需要任何额外的资源，除了用于训练他们的单语语料库。该方法取得了很好的效果，因此，我们的结论是，与最近的趋势相反，未来的BLI研究不应该只专注于直接检索方法。

方法介绍

我们方法的输入是一组跨语言词嵌入和用来训练他们的单语语料库。实验中使用fastText词嵌入，然后由VecMap（《 A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings》(2018ACL)中的方法）映射得到跨语言词嵌入。

我们方法的总体思路是建立一个无监督的基于短语的统计机器翻译系统（如facebook第三篇），并使用它生成一个合成的平行语料库，从中提取双语词典。为此，我们首先从输入词嵌入中得到短语embeddings，方法是取每种语言中40万个最常见的二元组和40万个最常见的三字母组，并为其分配所包含单词的质心。完成之后，我们使用产生的跨语言短语嵌入来构建一个短语表（《Unsupervised statistical machine translation》(2018EMNLP)中的方法）。更具体地说，我们通过提取每个源短语的100个最近邻来提取候选翻译词，并用softmax函数对它们的余弦相似性进行评分:

在这里插入图片描述
其中，温度τ是使用在反向方向上引出的字典上的最大似然估计来估计的。除了两个方向上的短语翻译概率，我们还通过将目标短语中的每个单词与最有可能生成它的源短语中的单词对齐，并取其各自翻译概率的乘积，来估计正向和反向词汇加权。然后，我们将此短语表与目标语言语料库中估计的失真模型和5-gram语言模型结合起来，从而生成基于短语的机器翻译系统。为了优化所得模型的权重，我们使用了Artetxe等人提出的无监督调整程序（《An effective approach to unsupervised machine translation》中的方法）(2019ACL)。它结合了循环一致性损失和每个单语语料库中的2000个句子子集的语言建模损失。

完成上述操作，我们通过使用生成的机器翻译系统对源语言单语语料库进行翻译，来生成综合平行语料库。然后，我们使用 FastAlign带有默认超参数和grow-diag-finaland对称启发式的方法对这个语料库做单词对齐。最后，我们根据对齐的语料库构建一个短语表，并通过丢弃所有非字母组合条目从中提取双语词典。对于具有多个词条的单词，我们根据其直接翻译概率对翻译候选者进行排名。

实验设置

为了将我们提出的方法与其他BLI方法进行面对面的比较，实验设置需要固定单语言词嵌入训练方法，跨语言映射算法和评估字典。另外，为了避免任何优势，我们的方法不应看到比用于训练单语嵌入所使用的语料更进一步的单语语料。不幸的是，现有的BLI数据集仅发布经过预训练的词嵌入，
而不是用来训练他们的单语语料库。因此，我们决定使用标准MUSE数据集中的评估词典。但是，我们并没有使用预先训练好的Wikipedia词嵌入，而是从维基百科中自己抽取单语语料库并且训练我们自己的词嵌入，以尽可能地符合原始设置。这使我们可以在完全相同的条件下将我们提出的方法与以前的检索技术进行比较，同时使我们的结果尽可能与MUSE数据集以前的工作报告结果具有可比性。

更具体地说，我们使用WikiExtractor从Wikipedia转储中提取纯文本，并使用标准Moses工具对生成的语料库进行预处理，方法包括句子拆分、标点符号规范化、带有主动连字符拆分的标记化和小写字母转换。然后，我们使用带默认超参数的跳跃图fastText为每种语言训练词嵌入，将词汇表限制在200,000个最频繁的标记词中。MUSE数据集中的词嵌入是使用这些完全相同的设置进行训练的，因此我们的嵌入仅在用于提取训练语料库的Wikipedia转储和应用于它的预处理上有所不同，原始数据集中没有对此进行记录。完成此操作后，我们使用VecMap中的无监督模式将这些单词嵌入映射到跨语言空间，该模式基于嵌入的语言内相似度分布构建初始解决方案，并通过自学习迭代地改进它。最后，我们使用我们提出的方法归纳出双语词典，并与以前的检索方法（标准最近邻，反向最近邻，反向softmax和CSLS）进行比较。按照惯例，我们使用precision at 1作为我们的评估指标。