论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

640?wx_fmt=png

论文链接：https://arxiv.org/pdf/1805.09927.pdf

来源：ACL2018

Motivation：

远程监督是以一种生成关系抽取训练样本的方法，无需人工标注数据。但是远程监督引入了噪音，即存在很多的假正例。本文的出发点非常简单，希望通过强化学习的方法来训练一个假正例的判别器，它可以识别出数据集中的假正例，并加入到负例集中。产生更加干净的训练集，从而提高分类器的性能。

Relatedwork：

对于远程监督的噪音，之前常用的做法是加attention机制，给以真正例更大的权重，给以假正例较小的权重，单这种方法是次优的。本文有一个有意思的地方，作者在文中指出，他在提交了ACL之后，发现已经有一篇相同的工作. Reinforcement learning for relation classification from noisy data（参照论文笔记），是 feng 等人发表在AAAI 2018上的，两篇文章从立意到方法都基本一致，唯一不同的就是强化学习的reward不同。feng 等人的论文中 reward 来自预测概率，而这篇论文的 reward 是分类器的性能的改变。

Model:

640?wx_fmt=png

远程监督中的强化学习框图

模型的整体结构如上图所示。首先对每一个关系，生成相应的正负样本，划训练集和验证集。在每一个epoch中，利用了 policy based 的 agent，对训练集的正样本做筛选，对每个句子选择保留或者移除到负样本集，得到筛选后的训练集。然后在此训练集上训练关系抽取分类器，在验证集上做测试得到分类的F1值。根据分类器的 F1 值的变化得到 reward，最后利用 policy gradient 对参数作更新。下面介绍RL方法中几个基本要素：