【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

本文是Facebook AI team发表在EMNLP2018，个人觉得比较有意思。文章主要目的是验证NLP领域做迁移学习的可行性，在多种NLP任务上进行sentence level的embedding，实验得出在NLI任务上进行预训练的表达在迁移学习的效果上是最好的，作者认为这是由于NLI任务使得句子向量中蕴含了句法或知识等对句子含义的理解。文章同时还探索了做NLI迁移学习的不同模型，实验表明BiLSTM-maxpooling作为编码器效果最好。文章用具体任务来做Sentence Representations预训练这种方式还是很自然也很有想法的。

(1)基本的NLI模型结构

训练这种模型通常有两种不同的方式：一种是基于句子的编码方式，显示的分离单个句子的编码，二是允许使用两句话编码的联合方法，即使用从一个句子到另一个句子的交叉特征或注意力。本文采用第一种

(2)encoder方案

本文使用的七种主流的encoder方案进行对比:

在后续的迁移任务中效果最好的是BiLSTM-MaxPooling，

但其中提到的Inner-attention和H ierarchical ConvNet architecture也很有意思，这里把结构图列出来：

(3)在不同的任务上证明了本文提出的NLI预训练进行迁移学习的可行性

(4)embedding size对效果的影响

可以看出增大embeding size对迁移学习的提升是有好处的。

【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

猜你喜欢