论文阅读笔记:Cross-Domain Sentiment Classification with Target Domain Specific Information

      本文是复旦大学在第56届ACL会议上发表的文章。主要目的是通过原域大量带有标签的数据及目标域少量带有标签的数据的训练,对目标域大量无标签数据进行分类。

原文链接

摘要:

      现有的跨领域情感分类大多集中在提取域不变的特征,而域特定信息对于情感分类也是十分重要的,因此本文提出一种方法,同时抽取原域和目标域的域特定、域不变信息,然后利用原域和目标域的域不变信息训练一个域不变分类器,利用目标域的域特定信息训练一个域特定信息,然后将这两个分类器进行联合训练,实验表明本文提出的方法与现在最先进的方法相比具有更好的表现。(下图中重叠部分为域不变信息,其余部分为特定信息)

方法:

      表示大量带标签的原域数据,表示少量带标签的目标域数据,表示大量不带标签的目标域数据。目标是通过建立一个分类器对进行分类。

1.Central Moment Discrepancy (CMD)

      这篇文章首先介绍了CMD度量,这是用来测量两个随机变量的概率随机分布差异的,计算公式如下,其中X,Y是有界随机样本,在[a,b]上有不同的分布。

是X的经验期望向量,

是X的k阶样本中心距向量。

     通俗的说就是如果样本X,Y的概率分布相似,那么他们的每阶中心距也是相近的,即样本概率分布越相似,CMD值越小。

2.Extract Domain Invariant and Domain Specific Representations

    文章的整体结构图如上所示,在这一步使用两个特征映射器抽取原域和目标域的域特定和域不变的信息,过程如下:

         Et表示域特定映射器,Ec表示域不变映射器,H^s_{spec}H^t_{spec}表示原域和目标域经E_{t}映射后的域特定信息,H^s_{inv}H^t_{inv}表示原域和目标域经E_{c}映射后的域不变信息。(本文作者并没有说明映射的具体过程是如何进行的)。在进行特征映射后,为了使原域和目标域的域不变信息分布相近,域特定信息分布不同,这里引入两个损失函数,用到了上一步的CMD度量,使L_{sim}最小化可以使H^s_{inv}H^t_{inv}的分布相似,得到更一般化的域不变信息;使L_{diff}最小化,可以使H^s_{spec}H^t_{spec}的分布不同,更有利于抽取目标域的特定信息。

同时利用隐藏表示H^t_{spec}H^t_{inv},本文对目标域的样例建立了一个自动编码器,公式如下(本文也没有具体介绍自动编码器的具体实现过程)(个人理解D把目标域H^t_{inv}不变和目标域H^t_{spec}特定的特征生成目标向量,从而更好的提取目标域的特定信息,从X到H,E是编码的作用,D是解码的作用,利用映射后的特征生成目标域的向量表示,利用D生成的向量与真实样例的差值最小化,可以有助于抽取目标域的特征向量)

并用均方误差计算了损失函数:

3.Co-Training with Domain Invariant and Domain Specific Representations 

 使用H^t_{spec}即目标域的特定信息训练域特定的分类器Ft,H^s_{inv}H^t_{inv}即原域和目标域的域不变信息训练域不变分类器Fc,Fc的目标是最小化下面的代价函数:

Fc分类器的损失函数

 其中α,γ,λ为权重,Lc是域不变分类器的损失函数,表示所有样例的负对数似然函数,公式如下:

类似的,对于分类器Ft,目标最小化代价以及分类器Ft的损失函数如下:

对分类器进行训练后,将两个分类器进行联合训练,在每次迭代后,两个分类器中各自将预测分类准确度最高的一个样例会被放到训练集中。

实验:

本文在四个领域(书籍,DVD,电子产品,厨房应用)的亚马逊产品评论上进行了实验,进行了12组域适应的二分类(将评论三星以上的分为积极,三星及以下分为消极)任务,每组包括2000条标记了的原域样例,2000条未标记的目标域样例,50条标记的目标域样例,与当前最先进的方法进行了对比,每种方法的平均准确率如下。

 通过实验发现,如果将BD,EK分为一组,跨组的域适应效果比同组的效果更好,由此,本文对不同域之间的相似性进行了分析,本文用A-distance来测量两个域之间的距离。如图所示。

 由上图可以发现:

1.同组的距离都比跨组的距离小(BD,EK都在BK,DE下面)

2.COCMD(本文提出的方法)比SO(对比方法),域特定距离大,域不变距离小

为了便于观察,本文将隐藏空间设为二维进行了可视化分析,如下图所示:

 可以发现,本文提出的方法,域不变分布大致相同(第二栏),域特定分布不同(第三栏),对比方法SO(只在原域进行训练)组内分布有很大的重叠,跨组分布有明显的间隔(第一栏) 

猜你喜欢

转载自blog.csdn.net/weixin_44740082/article/details/88780742
今日推荐