Low-resource Neural Machine Translation

调研了一下目标领域少数据的机器翻译问题，持续更新中

Low-Resource MT
指在source domain有大量数据，而target domain数据很少，希望能迁移一些知识来提高target domain翻译的效果。

Low-Resource 常用作法

扩大数据集，e.g. 用单语数据
pivot-based method，也常见于zero-source问题，找一个中间domain，A->B，B->C

Related Work

2016 Transfer Learning for Low-Resource Neural Machine Translation
第一个将transfer方法用于MT任务，low resource的setting，希望促进少数据一方的翻译效果
Parent/child model 将large corpus训练的模型参数作为small corpus的初始参数，将认为与需要迁移知识相关的参数维持不变，比如说一方是英法，一方是英德，翻译英语的encoder就保持不变，即英语embedding保持不变，只训练后半decoder
2017 Low-Resource Neural Machine Translation with Transfer Learning
这篇似乎没有正式发表，没有找到相关的记录
Transfer方法基本follow上一篇文章，不同之处在于source和target domain不太一样，所以只迁移参数，encoder参数需要继续训练。
还有一个是为了解决比训练集数据更长句子的问题，使用了attention机制。
2017 Regularization techniques for fine-tuning in neural machine translation
这篇与low resource没有关系，考虑的是out of domain数据很多的supervised MT情况，解决in-domain训练中overfitting的问题。这个方法可能可以在训练source domain的时候作为参考。
方法就是加惩罚项，作者用了三种方法，drop out，L-2 norm和他们自己提出的tuneout。dropout用的是A Theoretically Grounded Application of Dropout in Recurrent Neural Networks的方法。tuneout基本差不多，不同的是drop的时候不是把参数置为零，而是置为out-of-domain模型的参数。感觉有点类似finetune，在以之前的参数为起点，在这个基础上update。
实验结果是Fine-tuning + dropout + MAP-L2效果最好，比较奇怪的是只用drop out和L2效果基本没变，一起用之后反而提高了。
2017 Transfer Learning across Low-Resource, Related Languages for Neural Machine Translation
这篇也是16年Zoph工作的扩展。Zoph考虑的是有一个相同语言的迁移，即一对是A->B，另一对是C->B，对于B语言，直接固定住word embedding，将parent model中A语言的embedding vector随机分给C语言。那么有可能A，C中有相似的词，所以这篇文章考虑了A，C语言相似的情况，利用BPE对A，C进行进一步切分，一同迁移这些知识。

Low-resource Neural Machine Translation

猜你喜欢