Self-training Improves Pre-training for Natural Language Understanding,NAACL2021

在这里插入图片描述
本文研究了半监督学习中通过自监督训练利用非标记数据的一种方法。具体来说,引入了SentAugment,这是一种数据增强方法,它从有标签的数据中计算特定于任务的查询嵌入,从从网络上爬取的数十亿个无标签的句子库中检索句子(/(ㄒoㄒ)/~~果然是Facebook AI才配做的工作啊)。与以前的半监督方法不同,本文的方法不需要域内无标记数据,因此更普遍适用(我觉得咋不太实用呢,主要是数据量太大了穷逼应该用不起吧?)。
其实本文的思路很简单,捋一遍论文就知道了。

Approach

总体的结构图如图所示:
在这里插入图片描述

Large-scale sentence bank

本文的方法依赖于一个大规模的无监督句子语料库,也就

猜你喜欢

转载自blog.csdn.net/qq_36618444/article/details/123276233
今日推荐