论文笔记《Domain Adapted Word Embeddings for Improved Sentiment Classification》

原文链接
本文发表于自然语言处理领域顶级会议 ACL 2018

摘要

通用的词语embedding是在大规模语料下训练出来的具有通用性的特点,但在特定领域表现欠佳,而特定领域的词语embedding仅在特定领域能够使用,欠缺通用性。本文提出了一种兼具通用性和领域性的词语embedding方式,实验效果不错。

模型

设矩阵 W D S R | V D S | × d 1 的每一列都是特定领域的词语的embedding向量,令 w i , D S D S 中词语 i 的embedding,其中 V D S 是该领域词语的集合, d 1 是词向量的维度。类似的,我们设 W G R | V G | × d 2 为通用词语向量组成的矩阵。设 V = V D S V G , 令 w i , G V 中词语 i 的embedding。令 ϕ D S ϕ G 分别为 w i , D S w i , G 的映射矩阵,我们进行如下映射:

w ¯ i , D S = w i , D S ϕ D S

w ¯ i , G = w i , G ϕ G

这样我们就可以通过去使 w ¯ i , D S w ¯ i , G 相关度最大,从而列式计算出 ϕ D S ϕ G 来,本文把这种操作称之为CCA,公式如下所示:
这里写图片描述
其中 ρ ϕ D S ϕ G 的相关度, E V 中所有单词的期望。


线
d 个维度的CCA可以被递归地求出来:假设我们已经求出来了前 d 1 个维度,那么第 d 个维度可以通过求解使相关函数最大的变量来得出(约束条件为第 d 个维度与前 d 1 个维度不相关),设 Φ D S R d 1 d Φ G R d 2 d W D S W G 中向量的映射的集合,其中 d <= m i n { d 1 , d 2 }


单词的最终embedding表示由 w ^ i , D A = α w ¯ i , D S + β w ¯ i , G 得出,其中 α β 通过解如下优化问题得出:
这里写图片描述
解得 α = β = 1 2 ,于是我们得出:

w ^ i , D A = 1 2 w ¯ i , D S + 1 2 w ¯ i , G

由于 w ¯ i , D S = w i , D S ϕ D S w ¯ i , G = w i , G ϕ G ,这是一个线性的关系,这样一来公式(2)就可能就无法求得最佳的 w ¯ i , D S w ¯ i , G ,因为 w i , D S w ¯ i , D S 以及 w ¯ i , G w i , G 可能不是一个简单的线性关系。
为了避免这种情况,本文使用核函数将最初的输入数据映射到高维空间之后再采用CCA方法求解,本文采用的核函数为:
这里写图片描述

猜你喜欢

转载自blog.csdn.net/u014475479/article/details/81591790