论文笔记《Domain Adapted Word Embeddings for Improved Sentiment Classification》

原文链接
本文发表于自然语言处理领域顶级会议 ACL 2018

摘要

通用的词语embedding是在大规模语料下训练出来的具有通用性的特点，但在特定领域表现欠佳，而特定领域的词语embedding仅在特定领域能够使用，欠缺通用性。本文提出了一种兼具通用性和领域性的词语embedding方式，实验效果不错。

模型

设矩阵 $W_{DS} \in R^{|V_{DS}|\times d_1}$ 的每一列都是特定领域的词语的embedding向量，令 $w_{i,DS}$ 为 $DS$ 中词语 $i$ 的embedding，其中 $V_{DS}$ 是该领域词语的集合， $d_1$ 是词向量的维度。类似的，我们设 $W_{G} \in R^{|V_{G}|\times d_2}$ 为通用词语向量组成的矩阵。设 $V_{\bigcap}=V_{DS}\bigcap V_G$ ，令 $w_{i,G}$ 为 $V_{\bigcap}$ 中词语 $i$ 的embedding。令 $\phi_{DS}$ 和 $\phi_{G}$ 分别为 $w_{i,DS}$ 和 $w_{i,G}$ 的映射矩阵，我们进行如下映射：

{\bar{w}}_{i, D S} = w_{i, D S} ϕ_{D S}

$\overline{w}_{i,DS}=w_{i,DS}\phi_{DS}$

{\bar{w}}_{i, G} = w_{i, G} ϕ_{G}

$\overline{w}_{i,G}=w_{i,G}\phi_{G}$
这样我们就可以通过去使

{\bar{w}}_{i, D S}

$\overline{w}_{i,DS}$ 与

{\bar{w}}_{i, G}

$\overline{w}_{i,G}$ 相关度最大，从而列式计算出

ϕ_{D S}

$\phi_{DS}$ 和

ϕ_{G}

$\phi_{G}$ 来，本文把这种操作称之为CCA，公式如下所示：
这里写图片描述

其中

ρ

$\rho$ 为

ϕ_{D S}

$\phi_{DS}$ 和

ϕ_{G}

$\phi_{G}$ 的相关度，

E

$E$ 为

V_{⋂}

$V_{\bigcap}$ 中所有单词的期望。

$\color{red}{（两条横线之间的这一段先别看，原文没太看懂）}$
第 $d$ 个维度的CCA可以被递归地求出来：假设我们已经求出来了前 $d-1$ 个维度，那么第 $d$ 个维度可以通过求解使相关函数最大的变量来得出（约束条件为第 $d$ 个维度与前 $d-1$ 个维度不相关），设 $\Phi_{DS} \in R^{d_1*d}$ 和 $\Phi_{G} \in R^{d_2*d}$ 为 $W_{DS}$ 和 $W_{G}$ 中向量的映射的集合，其中 $d<=min\lbrace d_1,d_2 \rbrace$

单词的最终embedding表示由 $\hat{w}_{i,DA}=\alpha \overline{w}_{i,DS}+\beta \overline{w}_{i,G}$ 得出，其中 $\alpha$ 和 $\beta$ 通过解如下优化问题得出：
这里写图片描述
解得 $\alpha = \beta = \frac{1}{2}$ ，于是我们得出：

{\hat{w}}_{i, D A} = \frac{1}{2} {\bar{w}}_{i, D S} + \frac{1}{2} {\bar{w}}_{i, G}

$\hat{w}_{i,DA}=\frac{1}{2} \overline{w}_{i,DS}+\frac{1}{2} \overline{w}_{i,G}$
由于

{\bar{w}}_{i, D S} = w_{i, D S} ϕ_{D S}

$\overline{w}_{i,DS}=w_{i,DS}\phi_{DS}$ 和

{\bar{w}}_{i, G} = w_{i, G} ϕ_{G}

$\overline{w}_{i,G}=w_{i,G}\phi_{G}$ ，这是一个线性的关系，这样一来公式(2)就可能就无法求得最佳的

{\bar{w}}_{i, D S}

$\overline{w}_{i,DS}$ 和

{\bar{w}}_{i, G}

$\overline{w}_{i,G}$ ，因为

w_{i, D S}

$w_{i,DS}$ 和

{\bar{w}}_{i, D S}

$\overline{w}_{i,DS}$ 以及

{\bar{w}}_{i, G}

$\overline{w}_{i,G}$ 和

w_{i, G}

$w_{i,G}$ 可能不是一个简单的线性关系。
为了避免这种情况，本文使用核函数将最初的输入数据映射到高维空间之后再采用CCA方法求解，本文采用的核函数为：
这里写图片描述

论文笔记《Domain Adapted Word Embeddings for Improved Sentiment Classification》

摘要

模型

猜你喜欢