CS224n笔记三之词向量模型与GloVe

语言学家J. R. Firth提出，通过一个单词的上下文可以得到它的意思，所以我们可以定义一个以预测某个单词的上下文的模型：

$p (c o n t e x t | w t) = . . .$ $p(context|w_t) = \ ...$
我们的目标当然是希望概率p越大越好，所以我们可以定义一个目标函数：

$J' (θ) = \prod t = 1 T \prod - m \leq j \leq m, j \neq 0 P (w t + j | w t; θ)$ ${J}'(\theta) = \prod_{t=1}^{T}\prod_{-m\leq j\leq m, \ j\neq 0 }P(w_{t+j}|w_t;\theta)$
我们的目的就是最大化上面这个目标函数。但一般来说，我们都是想最小化目标函数的，所以我们可以改写目标函数为：

$J (θ) = - 1 T \sum t = 1 T \sum - m \leq j \leq m, j \neq 0 l o g P (w t + j | w t; θ)$ $J(\theta) = -\frac{1}{T}\sum_{t=1}^{T}\sum_{-m\leq j\leq m, j\neq 0 }log\ P(w_{t+j}|w_t;\theta)$
所以我们接下来的目标就是如何计算 $P(w_{t+j}|w_t;\theta)$ ，或者说如何定义 $P(w_{t+j}|w_t;\theta)$ 。

P (w t + j | w t; θ) \Rightarrow e x p ( u T o v c ) \sum V w = 1 e x p ( u T w v c )

$P(w_{t+j}|w_t;\theta) \Rightarrow \ \frac{exp(u_o^Tv_c)}{\sum_{w=1}^{V}exp(u_w^Tv_c)}$

其中， $v_c$ 就是中心词 $w_t$ 的词向量， $u_o$ 就是 $w_{t+j}$ 的词向量，这就是softmax。所以我们的目标就是不断调整词库中每个词的词向量，使得这个P最大。所以我们的参数就是词库中的这些词向量，并且每个词都有两个词向量，一个是作为中心词的时候(即 $v$ )，一个是作为上下文的时候(即 $u$ )。所以参数 $\theta$ 如下：

\sum - m \leq j \leq m, j \neq 0 l o g P (w t + j | w t; θ)

$\sum_{-m\leq j\leq m, j\neq 0 }log\ P(w_{t+j}|w_t;\theta)$

GloVe模型的目标函数是：

$J (θ) = 1 2 \sum i, j = 1 W f (P i j) (u T i v j - l o g P i j) 2$ $J(\theta)=\frac{1}{2}\sum_{i,j=1}^{W}f(P_{ij})(u_i^Tv_j-log P_{ij})^2$
其中， $P_{ij}$ 是两个词的共现频次，也就是两个词同时出现的次数(在拿到数据的时候就可以统计出来了)。f是一个max函数，如下所示：
从图中可以看出，频次 $P_{ij}$ 越高， $f(P_{ij})$ 的值一开始也会越大，达到 $x_{max}$ 之后，即使频次再高， $f(P_{ij})$ 值也不会再增加了，这在一定程度上对共现频次太高的词起到了抑制作用。
前面说到的 $\theta$ 包含了v和u两部分向量，也就是每个词都有两个词向量的，那么最后究竟要选哪一个作为最终的词向量呢？最佳方案是将它们相加作为最终的词向量：
$X f i n a l = U + V$ $X_{final} = U+V$