3. 基于Negative Sampling的模型

3.1 选取负样本

选取负样本需要按照一定的概率分布，Word2vec的作者们经测试发现：最佳的分布是 $\frac {3}{4}$ 次幂的Unigram distribution。

Unigram distribution的定义
Unigram来自于Unigram Model（即，一元模型），认为语料库中所有词出现的概率都是互相独立的。
因此，Unigram distribution是在语料库中随机选择，即，高频词被选中的概率大，低频词被选中的概率小。
其概率分布公式如下：
$p(w)=\frac {[count(w)]^{\frac {3}{4}}}{\sum_{u \in D}[count(u)]^{\frac {3}{4}}}$

3.2 CBOW模型

CBOW模型中，是已知词 $w$ 的上下文 $C o n t e x t (w)$ ，需要预测 $w$ 。

假设已选定一个关于 $w$ 的负样本子集 $N E G (w)$ （即，每次只从词典里随机选取一些word作为当前词 $w$ 的负样本），且对词典 $D$ 中的任意词 $w^{'}$ ，都有：

$L^w(w')=\begin{cases} 1 & \text {$w=w'$} \\ 0 & \text{$w\not=w'$} \end{cases}$

那么，对于一个给定的正样本 $(C o n t e x t (w), w)$ ，希望最大化：

$g(w)=\prod_{u \in \{w\} \bigcup NEG(w)}p(u|Context(w)) \\ \text{} \\ 其中 \\ \text{} \\ p(u|Context(w))=\begin{cases} \sigma(X^T_w\theta^u) & \text {$L^w(u)=1$} \\ 1-\sigma(X^T_w\theta^u) & \text{$L^w(u)=0$} \end{cases} \\ \text{} \\ =[ \sigma(X^T_w\theta^u)]^{L^w(u)} \cdot [1-\sigma(X^T_w\theta^u)]^{1-L^w(u)}$

因此，有：

$g(w)=\sigma(X^T_w\theta^w) \prod_{u \in NEG(w)}[1-\sigma(X^T_w\theta^u)]$

其中， $\sigma(X^T_w\theta^w)$ 和 $\sigma(X^T_w\theta^u)$ 分别表示：上下文为 $C o n t e x t (w)$ 时，预测中心词为 $w$ 的概率和为 $u$ 的概率（即，一个二分类）。

因此，最大化 $g (w)$ 相当于增大正样本的概率，同时降低负样本的概率，而这就是所期望的。

事实上，此时的 $g (w)$ 表示 $P (D ∣ w, C o n t e x t (w))$ ，即，求联合概率分布（NCE的思想）。

3.2.1 梯度计算

对于给定语料库 $C$ ，整体的优化目标为最大化 $G=\prod_{w \in C} g(w)$ 。因此，有损失函数：

$\prod_{w \in C} g(w)=\sum_{w \in C} log\, g(w) \\ \text{} \\ =\sum_{w \in C}log \prod_{u \in \{w\} \bigcup NEG(w)} \{[ \sigma(X^T_w\theta^u)]^{L^w(u)} \cdot [1-\sigma(X^T_w\theta^u)]^{1-L^w(u)}\} \\ \text{} \\ =\sum_{w \in C} \sum_{u \in \{w\} \bigcup NEG(w)} \{L^w(u) \cdot log[\sigma(X^T_w\theta^u)] + [1-L^w(u)] \cdot log[1-\sigma(X^T_w\theta^u)]\}$

令：

$L(w,u)=L^w(u) \cdot log[\sigma(X^T_w\theta^u)] + [1-L^w(u)] \cdot log[1-\sigma(X^T_w\theta^u)]$

求最大似然，采用「随机梯度上升法」。

计算梯度：

$\frac{\partial L(w,u)}{\partial \theta^u}=\frac{\partial}{\partial \theta^u} \{ L^w(u) \cdot log[\sigma(X^T_w\theta^u)] + [1-L^w(u)] \cdot log[1-\sigma(X^T_w\theta^u)] \} \\ \text{} \\ 利用 [log\sigma(x)]'=1-\sigma(x), [log(1-\sigma(x))]'=-\sigma(x) 得 \\ \text{} \\ =L^w(u) [1-\sigma(X^T_w\theta^u)] X_w - [1-L^w(u)] \sigma(X^T_w\theta^u) X_w \\ \text{} \\ = [L^w(u) - \sigma(X^T_w\theta^u)] X_w$

根据对称性：

$\frac{\partial L(w,u)}{\partial X_w}=[L^w(u) - \sigma(X^T_w\theta^u)] \theta^u$

因此，对于词向量的更新为：

$v(w'):=v(w')+\eta \sum_{u \in \{w\} \bigcup NEG(w)} \frac{\partial L(w,u)}{\partial X_w}, w' \in Context(w)$

3.2.2 伪码

CBOW模型的伪码如下：

参考

博客：Word2Vec-知其然知其所以然

（三）Word2vec -- 3 基于Negative Sampling的模型

3. 基于Negative Sampling的模型

3.1 选取负样本

3.2 CBOW模型

3.2.1 梯度计算

3.2.2 伪码

参考

猜你喜欢