论文阅读 | Reinforced Training Data Selection for Domain Adaptation

论文地址： https://www.aclweb.org/anthology/P19-1189/

已有研究工作：

TDS，training data selection，可以用来解决监督模型中的数据跨域、分布不匹配的问题，可以去除噪声和不相干的样本。一般的方法是将整个数据集在某种度量标准下进行评分或排序，然后选择前n项。作者认为这样的方法不能体现出领域知识的有效特征，也不能应用于不同的数据性质。对于更通用的度量方法，需要对超参数，也就是阈值的设定有进一步的研究。而且，它和模型训练是相互独立的，不能获得来自任务的反馈。

本文的工作和创新点：

TDS本身是一个有指数复杂度的组合优化问题，不可能穷尽所有组合。因此解决思路是视为一个决策序列。本文使用RL来解决，目标是正确度量训练样本和目标域之间的相关性，根据特定任务所选样本获得的反馈来指导选择过程。模型包括一个产生选择概率的部分SDG（selection distribution generator）一个用于学习数据表示的特征提取器，一个用于测量所选数据性能的分类器。

研究方法：

模型的主要结构如下图所示。

Predictor：包括特征提取器和分类器两个部分。特征提取器是将选择的数据转换为向量表示，输入包括两个部分，一部分是目标域中提取得到的未标记的数据，另一部分是从原域中选择出来的数据。分类器是在一轮TDS结束之后，评估它的表现部分，它的输入来自于特征提取器，它评估的结果也会反馈给特征提取器。

SDG：本身是一个MLP，在每一步中，SDG获得输入来自于特征提取器，产生的输出表示每个实例被选择的概率。

联合训练框架：使用策略梯度将SDG和Predictor联合训练，整体的流程如下：