GloVe model

单词表示模型：GloVe，用于全局向量，全局语料的统计信息直接由模型获得。

符号

$X$ ：词共现矩阵
$X_{ij}$ ：单词 $j$ 出现在单词 $i$ 的上下文中的次数。
$X_i=\sum_kX_{ik}$ ：所有出现在单词 $i$ 的上下文中的单词次数。
$P_{ij}=p(j|i)=\frac{X_{ij}}{X_i}$ ：单词 $j$ 出现在单词 $i$ 的上下文中的概率。

举例：
这里写图片描述

通过观察图中的比率（第三行）可以看出，当结果大于1时，单词 $k$ 与ice更相关，当结果小于1时，单词 $k$ 与steam更相关。

上述论点表明，单词矢量学习的适当起点应该是共现概率的比率而不是概率本身。其中，比率 $P_{ik}/P_{jk}$ 取决于单词 $i$ 、 $j$ 、 $k$ ，我们采用最通用的模型形式：

\begin{matrix} (1) & F (w_{i}, w_{j}, {\tilde{w}}_{k}) = \frac{P_{i k}}{P_{j k}} \end{matrix}

$F(w_i,w_j,\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}\tag{1}$

其中， $w\in\mathbb{R}$ 表示单词向量， $\tilde{w}\in\mathbb{R}^d$ 表示单个的上下文词向量。
对于F的选择，由于向量空间本质上是线性结构，因此最自然的方法是使用向量差异。通过仅考虑两个目标词的差异可以修改为：

\begin{matrix} (2) & F (w_{i} - w_{j}, {\tilde{w}}_{k}) = \frac{P_{i k}}{P_{j k}} \end{matrix}

$F(w_i-w_j,\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}\tag{2}$

采用参数点积来防止 $F$ 函数以不和需要的方式进行矢量维度混合：

\begin{matrix} (3) & F ((w_{i} - w_{j})^{T} {\tilde{w}}_{k}) = \frac{P_{i k}}{P_{j k}} \end{matrix}

$F((w_i-w_j)^T\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}\tag{3}$

对于单词共现矩阵，单词和上下文单词之间的区别是任意的，我们可以自由地交换这两个角色。我们的最终模型在这种重新标记下应该是不变的，因此我们通过两步骤来回复对称性。
首先要求 $F$ 函数在 $(\mathbb{R},+)$ 和 $(\mathbb{R},×)$ 之间应该是同态的。

\begin{matrix} (4) & F ((w_{i} - w_{j})^{T} {\tilde{w}}_{k}) = \frac{F (w_{i}^{T} {\tilde{w}}_{k})}{F (w_{j}^{T} {\tilde{w}}_{k})} \end{matrix}

$F((w_i-w_j)^T\tilde{w}_k)=\frac{F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)}\tag{4}$

\begin{matrix} (5) & F (w_{i}^{T} {\tilde{w}}_{k}) = P_{i k} = \frac{X_{i k}}{X_{i}} \end{matrix}

$F(w_i^T\tilde{w}_k)=P_{ik}=\frac{X_{ik}}{X_i}\tag{5}$

我们提出了一种新的加权最小二乘回归模型来解决噪音等问题。

\begin{matrix} (6) & J = \sum_{i, j = 1}^{V} f (X_{i j}) (w_{i}^{T} {\tilde{w}}_{j} + b_{i} + {\tilde{b}}_{j} - l o g X_{i j})^{2} \end{matrix}

$J=\sum_{i,j=1}^{V}f(X_{ij})(w_i^T\tilde{w}_j+b_i+\tilde{b}_j-logX_{ij})^2\tag{6}$

其中， $V$ 是词汇表的大小。加权函数遵循以下规则：
1. $f(0)=0$ 。如果 $f$ 函数是一个连续函数，那么当 $x\to0$ 时， $lim_{x\to0}f(x)log^2x$ 是有限的。
2. $f(x)$ 应该是非递减的。
3. $f(x)$ 对于大的x值，它应该相对较小，以使得频繁的共现值不会超重。

我们找到了合适的函数：

\begin{matrix} (7) & f (x) = {\begin{cases} (x / x_{m a x})^{α}, & if x < x_{m a x} \\ 1, & otherwise \end{cases} \end{matrix}

$f(x)=\begin{cases} (x/x_{max})^\alpha, & \text{if $x<x_{max}$} \\ 1, & \text{otherwise} \end{cases}\tag{7}$

这里写图片描述

其中， $\alpha=3/4$ 时效果最好。

模型复杂度

从等式(8)和加权函数 $f(x)$ 可以看出，模型的计算复杂度取决于矩阵 $X$ 中非零元素的个数。因为这个数字总是小于矩阵大小，所以模型规模不会比 $O(|V|^2)$ 更差。但是典型的词汇表可以达到成千上万的单词，所以 $|V|^2$ 可能是数千亿，比大多数语料库都大得多。因此还需要对非零元素的个数进行约束。

有必要对单词共现的分布做一些假设，我们假定单词 $i$ 和单词 $j$ 之间共现次数 $X_{ij}$ 可以被建模为该单词对的频率等级的幂律函数 $r_{ij}$ ：

\begin{matrix} (8) & X_{i j} = \frac{k}{(r_{i j})^{α}} \end{matrix}

$X_{ij}=\frac{k}{(r_{ij})^\alpha}\tag{8}$
语料库中的单词总数与同现矩阵

X

$X$ 的所有元素和成比例。

\begin{matrix} (9) & | C | \sum_{i j} X_{i j} = \sum_{r = 1}^{| X |} \frac{k}{r^{α}} = k H_{| X |, α} \end{matrix}

$|C|~\sum_{ij}X_{ij}=\sum_{r=1}^{|X|}\frac{k}{r^\alpha}=kH_{|X|,\alpha}\tag{9}$

$|X|$ 是最大频率等级，与矩阵 $X$ 中非零元素的数量一致，也是公式(8)中 $r$ 的最大值。

【论文阅读】《GloVe: Global Vectors forWord Representation》

GloVe model

符号

模型复杂度

猜你喜欢