【论文阅读笔记】Supervised Learning of Universal Sentence Representations from Natural Language Inference Da

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cskywit/article/details/88592132

       本文是Facebook AI team发表在EMNLP2018,个人觉得比较有意思。文章主要目的是验证NLP领域做迁移学习的可行性,在多种NLP任务上进行sentence level的embedding,实验得出在NLI任务上进行预训练的表达在迁移学习的效果上是最好的,作者认为这是由于NLI任务使得句子向量中蕴含了句法或知识等对句子含义的理解。文章同时还探索了做NLI迁移学习的不同模型,实验表明BiLSTM-maxpooling作为编码器效果最好。文章用具体任务来做Sentence Representations预训练这种方式还是很自然也很有想法的。

(1)基本的NLI模型结构

训练这种模型通常有两种不同的方式:一种是基于句子的编码方式,显示的分离单个句子的编码,二是允许使用两句话编码的联合方法,即使用从一个句子到另一个句子的交叉特征或注意力。本文采用第一种

(2)encoder方案

本文使用的七种主流的encoder方案进行对比:

在后续的迁移任务中效果最好的是BiLSTM-MaxPooling,

但其中提到的Inner-attention和H ierarchical ConvNet architecture也很有意思,这里把结构图列出来:

(3)在不同的任务上证明了本文提出的NLI预训练进行迁移学习的可行性

(4)embedding size对效果的影响

可以看出增大embeding size对迁移学习的提升是有好处的。

 

猜你喜欢

转载自blog.csdn.net/cskywit/article/details/88592132