自适应域半监督情感分类:Adaptive Semi-supervised Learning for Cross-domain Sentiment Classification

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Abstract

我们的方法明确地最小化了嵌入特征空间中的源实例和目标实例之间的距离。在最小化源和目标之间差异的情况下,我们通过整合半监督学习的思想来利用目标域中的附加信息,为此,我们联合使用熵对称化和自集成自举(bootstrapping)两种正则化方法来合并未标记的目标数据进行分类器细化。

1 Introduction

传统方法高度依赖于枢轴(pivot)特征的启发式选择,这可能对不同的应用场合敏感。因此,学习到的新表示法不能有效地减小域的差异。
此外,这些工作仅利用未标记的目标数据进行表示学习,而感知分类器仅在源域上进行训练。
利用未标记的目标数据来改进分类器的研究并不多,尽管它可能包含有益的信息。如何有效地利用未标记的目标数据仍然是领域适应的一个重要挑战。
在这项工作中,我们认为来自未标记目标数据的信息有利于域适应,并提出了一个新域适应模型监督学习框架(DAS)来更好地利用它。
我们的主要直觉是将问题视为一个半监督学习任务,将目标实例视为未标记的数据,假设通过域不变表示学习可以有效地缩短域距离。具体地说,该方法在多任务学习环境中联合执行特征自适应和半监督学习。对于特征适应,它显式地缩小了两个域的编码表示之间的距离。在此基础上,结合熵最小化和自集成自举两种半监督正则化方法,利用未标记的目标数据进行分类器优化。

2 Related Work

Domain Adaptation

Blitzeret al.(2007)提出了一种基于结构对应学习(SCL)的方法,该方法使用pivot特征预测来诱导一个投影的特征空间,该空间对源域和目标域都有效。选取的核心词涵盖了常见的领域不变观点词。后续的研究旨在更好地对齐特定领域词(Pan et al.,2010;Heet al.,2011;Wu and Huang,2016)。这样可以减少领域差异。最近,Yu和Jiang(2016)借用了SCL的pivot特征预测思想,并将其扩展到一个基于神经网络的带有辅助任务的解决方案。在他们的实验中,由于实值词嵌入的使用,SCL得到了显著的改善。

一些方法高度依赖于主元特征的选择,在我们的方法中,我们为此目的正式构造了一个目标。类似的思想已经在许多计算机视觉问题中得到了探索,在这些问题中,通过应用目标鼓励底层域的表示是相似的,比如最大平均差异(MMD),在NLP任务中,Li等人。(2017)和Chen等人。(2017年)两人建议使用对抗性训练框架,以减少领域差异。在他们的模型中,加入一个子网络作为域鉴别器,同时学习深层特征来混淆判别器。在我们的模型中,他具有与MMD和对抗训练相似的直觉。我们将在实验中与它们作详细的比较。

Semi-supervised Learning

在我们的模型中,我们通过特征自适应来减少域离散性,然后采用半监督学习技术从未标记的数据中学习。我们使用熵最小化和自集自举作为正则化来合并未标记的数据。

3 Model Description

3.1 Notations and Model Overview

我们的大多数实验都是在无监督的领域适应设置下进行的,我们没有来自目标领域的标记数据。
在这里插入图片描述
在这里插入图片描述
我们还提供了一些结果,在这种情况下,我们假设有少量的标记目标样本可用。
在这里插入图片描述
我们的目标是学习域不变的和同时对两个域有区别的特征表示,因此我们同时考虑三个因素在我们的目标中:

  1. 最小化标记源示例的分类错误
  2. 最小化域差异
  3. 通过半监督学习获取未标记数据
    在这里插入图片描述
    在下面的小节中,我们将分别为(2)和(3)分别解释如何在细节中执行特征自适应和域自适应半监督学习。

3.2 Feature Adaptation

与以往的工作(Blitzer等人,2007;Yu and Jiang,2016)不同,我们的方法不尝试通过中心词对齐特定领域的单词。在我们的初步实验中,我们发现在一个大型语料库上预先训练的单词嵌入能够充分地捕捉到这些信息。即使不进行自适应,采用预先训练过的单词嵌入的朴素神经网络分类器也能取得很好的效果。
在这里插入图片描述
在这里插入图片描述
MMD的主要思想是将两个分布之间的距离估计为Hilbert空间中投影嵌入的样本均值之间的距离,MMD是通过一个特征核来隐式计算的,特征核用于确保样本均值是内射的,当且仅当分布相同时,MMD为零。
在我们的实现中,为了简化计算和学习,我们跳过了由特征核诱导的映射过程。我们简单地将分布距离估计为当前嵌入空间中样本均值之间的距离。虽然这种近似方法不能保留基本分布的所有统计特征,但我们发现它在我们的问题上可以与MMD相媲美。
在这里插入图片描述

3.3 Domain Adaptive Semi-supervisedLearning (DAS)

在这里插入图片描述在这里插入图片描述
这里的挑战是 y i t y^{t}_i 未知,因此我们试图通过半监督学习来估计它。为此,我们使用熵最小化和bootstrapping。我们稍后将在我们的实验中证明这两种方法都是有效的,并且综合运用它们会产生最好的结果。

Entropy Minimization

在这里插入图片描述
假设通过特征自适应,通过最小化熵惩罚,可以有效地减少域差异,分类器的训练受未标记目标数据的影响,通常会使目标样本与决策边界之间的边距最大化,从而提高对目标域的预测置信度。

Self-ensemble Bootstrapping

另一种评估 y i t y^{t}_i 的方法与 bootstrapping 相关。其目的是估计未知标签作为从前一轮训练中学习到的模型预测。在以往的研究中(Jiang and Ziai,2007;Wu et al.,2009)已经探索过bootstrapping来适应域,但是在他们的方法中,域差异并没有通过特征自适应显式最小化。在这种情况下,使用 bootstrapping 或其他半监督学习技术可能会恶化结果,因为分类器可能会对目标数据造成不良影响。
在这里插入图片描述
损失适用于所有文档。它用于对未标记的目标数据进行 bootstrapping ,还可以作为一种正则化来鼓励使得网络预测在不同的训练阶段是一致的。
在这里插入图片描述
算法1说明了提出的领域自适应半监督学习(DAS)框架的整体训练过程。
在这里插入图片描述
在这里插入图片描述
自集成自举是自举训练的一种泛化形式,它只使用上一轮训练的输出(Jiang and Ziai,2007;Wu et al.,2009)。集合预测可能更接近目标数据的正确、未知标签。

4 Experiments

现有的基准数据集,如Amazon benchmark(Blitzer et al.,2007)通常删除两个域中带有中性标签的评论。这是有问题的,因为目标域的标签信息在无监督的自适应设置中无法访问。此外,删除中性实例可能会使数据集偏向于像我们这样基于最大利润的算法,因为生成的数据集删除了所有不确定的标签,只留下高置信度的示例。因此,我们自己构建新的数据集。原始Amazon基准测试的结果在质量上是相似的,为了完整性,我们将这部分放在了附录中,因为之前的大多数工作都报告了它的结果。

Small-scale datasets

在所有的小规模数据集实验中,我们使用源域的集合1作为唯一的源,并在训练过程中评估目标域的训练模型集1。由于我们无法控制培训期间未标记数据的标签分布,我们考虑两种不同的设置

  • Setting (1) 只有目标域的集合1被用作未标记的集合。这告诉我们,当目标域具有接近平衡的标签分布时,方法如何执行。由于我们也在目标域的集合1上求值,这也被认为是一个转导(transductive)设置。
  • Setting (2) 源域和目标域中的集合2用作未标记集。由于SET2是直接从数百万条评论中取样的,它能更好地反映现实生活中的情绪分布。

Large-scale datasets

我们进一步在四个更大的数据集上进行实验: IMDB,Cellphone 和 Baby 来自亚马逊的大型数据集。详细的统计数据在Table1b中进行了总结。我们将所有的评论保留在原始数据集中,并考虑一个转换的设置,所有的目标示例都用于培训(没有label信息)和评估。在训练期间,我们执行抽样以平衡每个minibatch B ( s ) B^{(s)} 中标记源数据的类。

4.3 Selection of Development Set

理想情况下,开发集应该从与测试集相同的分布中提取。然而,在无监督的领域适应性设置下,我们在训练阶段没有任何可作为开发集的标记目标数据。在我们所有的实验中,对于每一对域,我们从源域的训练集中抽取1000个示例作为开发集。我们将网络训练为一个固定的时间段,并且在这个开发集上具有最小分类误差的模型被保存以供评估。如果有效地减少了域差异,则目标域的行为应该与源域相似,这种方法很好地解决了这些问题。

猜你喜欢

转载自blog.csdn.net/g534441921/article/details/107209308