Artetxe - 弱监督双语词嵌入学习Learning bilingual word embeddings with (almost) no bilingual data

@[TOC](Learning bilingual word embeddings with (almost) no bilingual data)

这是2017ACL的一篇文章。这是一种弱监督的方法，使用了少量的平行语料来学习双语词嵌入。

文章链接：

Learning bilingual word embeddings with (almost) no bilingual data

代码链接：

摘要

双语词嵌入的学习大多依赖于大型的平行语料库，这对于大多数语言对来说是很难获得的。这激发了一个活跃的研究线来放宽这一要求，使用的方法是使用文档对齐的语料库或只有几千个单词的双语词典。在这项工作中，我们使用一种非常简单的自学习方法，结合任何基于字典的映射技术，进一步减少了双语资源的需求。我们的方法利用了嵌入空间的结构相似性，使用最少的双语证据，如25个单词的字典，甚至自动生成的数字列表，获得的结果可与使用更丰富资源的系统相媲美。

引言

在这项工作中，我们将大型双语词典的需求减少到了较小的种子词典。我们的方法最多可以使用25个单词对，而只要假设对所涉及语言有一些基本知识，就可以直接获得。该方法还可以使用简单生成的数字种子词典（即1-1、2-2、3-3、4-4 …），从而无需任何实际的双语数据就可以学习双语单词嵌入。在任何一种情况下，我们都能获得非常有竞争力的结果，与使用其他更为丰富的双语资源的其他最新方法相媲美。
所提出的方法是对现有映射技术的扩展，其中词典用于学习嵌入映射，而嵌入映射用于以自学习的方式迭代生成新词典（请参见图1）。尽管简单，但我们对隐式优化目标的分析表明，该方法正在利用独立训练的嵌入的结构相似性。文章结构如下：

第2节中分析先前的工作。
第3节介绍了自学框架。
第4节介绍了实验。
第5节分析了基本的优化目标。
第6节介绍了错误分析。

在这里插入图片描述

Proposed self-learning framework

如第2.1节所述，双语嵌入映射的常见评估任务（和实际应用）是引入双语词典，即获取训练词典中缺少的源词的翻译，然后将其与标准测试字典进行评估。这样，可以说种子（序列）字典用于学习映射，然后用于生成更好的字典（至少在更大的意上）。
算法1总结了这个框架。

在这里插入图片描述

根据这一观察结果，我们建议以自学习的方式将算法1中的输出字典用作同一系统的输入，假设输出字典确实比原始字典更好，则该字典应该用来学习更好的映射和，否则，第二次词典更好。然后可以迭代地重复该过程，以每次都获得希望更好的映射和字典，直到满足某些收敛标准为止。算法2总结了我们提出的替代框架。

我们的方法可以与任何嵌入映射和字典归纳技术结合使用（请参阅第2.1节）。但是，出于多种原因，效率变得至关重要。首先，通过将学习逻辑封闭在一个循环中，总的训练时间将随着迭代次数增加。更重要的是，我们的框架要求在每次迭代时明确构建整个字典，先前的工作往往会在以后的运行时按需诱导各个单词的翻译。此外，从第二次迭代开始，必须使用此诱导的完整字典来学习嵌入映射，而不是通常完成的较小的种子字典。在接下来的两个小节中，我们分别描述了我们在考虑这些效率要求的情况下采用的嵌入映射方法和字典归纳法。

3.1 Embedding mapping

如第2.1节所述，学习嵌入映射的大多数先前方法都使用梯度下降的变体。在更有效的精确替代方案中，我们决定采用Artetxe等人（2016）的替代方案，因为其简便性和良好的结果。接下来，我们介绍他们的方法，根据我们的自学习算法的要求，采用形式化以明确地合并字典。

令X和Z表示两种语言的词嵌入矩阵，从而 $X_{i*}$ 对应于第i个源语言词嵌入，而 $Z_{i*}$ 对应于第 j 种目标语言嵌入。而Artetxe等（2016）假设这两个矩阵根据字典对齐，我们放弃了这个假设，将字典明确表示为二进制矩阵D，因此如果第 i 个源语言单词与第 j 个目标语言单词对齐，则Dij = 1。然后，目标是找到最佳映射矩阵W*，以使字典条目Dij的映射源嵌入 $X_{i*}$ W和目标嵌入 $Z_{i*}$ 之间的平方欧几里得距离之和最小。
在这里插入图片描述
按照Artetxe等人（2016）的方法，我们在预处理步骤中对嵌入矩阵X和Z进行长度归一化并平均居中，并将W约束为正交矩阵（即WW ^T = W ^TW = I），以强制执行单语言不变性，防止单语性能下降，同时产生更好的双语映射。在这种正交性约束下，最小化平方欧几里德距离就等于最大化点积，因此可以将上述优化目标重新构造为：
在这里插入图片描述
其中Tr（·）表示跟踪算子（主对角线中所有元素的总和）。W* = UV ^T给出了此问题的最佳正交解，其中X ^T DZ =UΣV ^T是X ^TDZ的奇异值分解。由于字典矩阵D是稀疏的，因此可以相对于字典条目的数量在线性时间内有效地计算出它。

3.2 Dictionary induction

如第2.1节所述，几乎所有以前的工作都基于嵌入映射将最近邻检索用于单词翻译归纳。在最近邻居检索中，为每个源语言单词分配了目标语言中最接近的单词。在我们的工作中，我们将映射的源语言嵌入和目标语言嵌入之间的点积用作相似度度量，大致等于余弦相似度，因为我们将长度归一化然后平均居中作为预处理步骤（请参阅第3.1节）。这样，按照第3.1节中的表示法，我们将Dij设置为1，如果 $j = argmax_{k}\left ( X_{i*}W \right )\cdot Z_{k*}$ ，否则Dij = 0。

尽管我们发现独立地计算所有单词对之间的相似性度量速度非常慢，但是可以使用流行的线性代数库轻松地对整个相似性矩阵XW Z ^T的计算进行向量化，从而获得较大的性能提升。但是，使用大词汇量时，所得的相似度矩阵通常太大而无法容纳在内存中。因此，我们无需一步一步地计算整个相似矩阵XW Z^T，而是使用矢量化矩阵乘法迭代地计算其子矩阵，每次都找到它们对应的最大值，然后将结果合并。

小小鸟要高飞

发布了52 篇原创文章 · 获赞 7 · 访问量 4万+

私信关注

Artetxe - 弱监督双语词嵌入学习Learning bilingual word embeddings with (almost) no bilingual data

摘要

引言

相关工作

Proposed self-learning framework

猜你喜欢