摘要

统计语言模型的目的是想去学一系列词的联合概率分布，但如果不加技巧直接硬解的话会出现维数灾难（curse of dimensionality）问题。本文想通过学习每个词的分布表示（distributed representation）来解决这种维数灾难。本模型：

学习词汇的分布式表示（distributed representation）
学习词序列的概率函数（probability function for word sequences）

简介

收到非参数密度估计（non-parametric density estimation）的启发，一种将learning algorithm效果可视化的方法是，去看初始化时聚集在training points附近的概率质量在更广阔的数据集下的分布，比如在training points周围的一些词汇上的分布。

基本的统计语言模型：

P (w_{1}^{T}) = \prod_{t = 1}^{T} P (w_{t} | w_{1}^{t - 1})

$P(\textbf{w}_1^T)=\prod_{t=1}^TP(w_t|\textbf{w}_1^{t-1})$

$\textbf{w}_i^j = (w_i, w_{i+1}, \dots,w_{j-1}, w_j)$ ，是一个词序列， $w_t$ 是第 $t$ 个词。上式可以理解为整句话的概率是前面所有词的条件概率的乘积。

建立自然语言统计模型的时候，需要消除维数灾难带来的影响，这时n-gram的思想就很有用了。一般来说语义库的context都很大，n-gram只取某个词的前n个词作为context，可以大大减小计算量。

P (w_{t} | w_{1}^{t - 1}) ≃ P (w_{t} | w_{t - n + 1}^{t - 1})

$P(w_t|\textbf{w}_1^{t-1})\simeq P(w_t|\textbf{w}_{t-n+1}^{t-1})$

下面来继续说明一下本文的工作：

1. 用分布式表示解决维数灾难问题

这里的想法可以总结为如下三条：

把每个单词和一个单词特征向量( $\mathbb{R}^m$ )对应起来
写出单词序列的联合概率分布，in terms of 序列中的单词特征向量
自动学习这些单词特征向量和概率分布函数的参数

曾经的统计语言模型有两个重要的flaw，本文将重点关注这两个点：

1. 没有考虑多余1或2个单词的上下文(context)

曾经，我们只考虑那些在我们的训练集中出现过的连续单词的组合，但同时我们又不希望给那些从来没出现过的单词组合赋概率值0。

2. 没有考虑单词之间的语义相似性(similarity between words)

神经网模型

模型建立

现有词典 $V$ ，训练集是一个大的词序列 $w_1, \dots, w_T \in V$ 。我们需要学：

f (w_{t}, \dots, w_{t - n + 1}) = P (w_{t} | w_{1}^{t - 1})

$f(w_t, \dots, w_{t-n+1})=P(w_t|w_1^{t-1})$
这里把要学的东西拆成两部分：

1. 从词到向量的映射 $C$

把每个 $V$ 中的词用one-hot方式表示，那么每个单词都是一个 $1\times |V|$ 的向量 $w_i$ 。记 $C$ 为从词one-hot向量映射到 $\mathbb{R^m}$ 的映射，那么显然 $C$ 为一个 $|V|\times m$ 的矩阵，一共有 $|V|\times m$ 个自由参数。这里词特征向量与词One-hot向量之间的关系为： $v_i = w_i C$ .

2. 从词向量到结果 $f$ 的映射 $g$

将词转换为特征向量后，设现有一个函数 $g$ 将特征向量序列映射到我们需要求的概率函数：

f (i, w_{t - 1}, . . ., w_{t - n + 1}) = g (i, C (w_{t - 1}), . . ., C (w_{t - n - 1}))

$f(i, w_{t-1}, ..., w_{t-n+1})=g(i, C(w_{t-1}), ..., C(w_{t-n-1}))$

这里函数 $g$ 可以通过一个前向传播或者循环神经网络实现，设其中的参数集合为 $\omega$ . 那么所有参数的集合为 $\theta=(C, \omega)$

这里再给出loss function.我们需要maximize下式：

L = \frac{1}{T} \sum_{t} l o g f (w_{t}, w_{t - 1}, . . ., w_{t - n + 1}; θ) + R (θ)

$L=\frac{1}{T}\sum_t log\ f(w_t, w_{t-1}, ...,w_{t-n+1}; \theta)+R(\theta)$

这里 $R$ 是一个正则化项，包含 $C$ matrix的参数和神经网络中的权重，不包括偏置 $b$ 。

经过词特征映射后还有一个神经网络隐层。这里使用softmax来作为Output layer：

\hat{P} (w_{t} | w_{t - 1}, . . ., w_{t - n - 1}) = \frac{e^{y_{w_{t}}}}{\sum_{i} e^{y_{i}}}

$\hat{P}(w_t|w_{t-1}, ..., w_{t-n-1})=\frac{e^{y_{w_t}}}{\sum_ie^{y_i}}$

这也可以保证概率加和为1，满足之前提到的约束。
NNLM神经网络结构

图1：NNLM神经网络结构

最优化求解

接下来讨论模型的求解。设 $y$ 为每个输出单词 $i$ 的未正则化的log概率，它可以被这样计算：

y = b + W x + U t a n h (d + H x)

$y=b+Wx+U\ tanh(d+Hx)$

其中， $x=(C(w_{t-1}, ..., C(w_{t-n+1}))$ 为特征词序列， $tanh$ 逐个对元素进行处理， $W$ 在没有直接联系的元素时为0。

使用SGD进行优化，每次随机选取一个sequence：

θ \leftarrow θ + ϵ \frac{\partial \hat{P} (w_{t} | w_{t - 1}, . . . w_{t - n + 1})}{\partial θ}

$\theta \leftarrow \theta + \epsilon \frac{\partial \hat{P}(w_t|w_{t-1}, ... w_{t-n+1})}{\partial \theta }$

实验结果

使用含有1,181,041个单词的Brown语义库。这里800,000单词背用于训练集，200,000用于validation，另外181,041用于测试。不同的单词有47,578个，出现次数<=3次的稀有单词被全部替换为一个统一的单词。这样词典的大小为 $|V|=16,383$ 。

另外还测试了Associated Press(AP) News的数据，包含14M个单词，一共有148K不同的单词，经过同样方法过滤之后有 $|V|=17964$ 。

学习率一开始设为 $\varepsilon_0=10^{-3}$ , 随着训练次数递减： $\varepsilon_t=\frac{\varepsilon_0}{1+rt}$ . 这里 $r=10^{-8}$

N-Gram模型

第一个benchmark时内插或平滑的3-gram模型(Jelinkek and Mercer, 1980)。

此外还有一些当时比较先进的n-gram模型如Modified Kneser-Ney algorithm， class-based n-gram models等

结果

对比的criteria是考察test set perplexity( $1/\hat{P}(w_t|w_1^{t-1})$ 的几何平均值)。

表1：结果对比

表1展示了Brown语义库上的结果，MLP10意思是这里词的特征取了10个，也就是 $m=10$ 。 $n$ 是模型的阶数， $c$ class-based n-gram中词class的个数， $h$ 是hidden unit的个数， $m$ 是词特征的个数， $direct$ 是词特征和输出之间有没有直接连接， $mix$ 是有没有与trigram组成混合模型。

其他

并行计算求解

TODO

Other hint

使用混合模型，将神经网络的概率预测和内插3-gram方法可以获得更好效果。
Out-of-vocabulary words。本模型能很好的适用于没在字典里出现过的单词。比如，当出现一个新单词 $j\notin V$ ，我们可以先将 $C(j)$ 这样初始化： $C(j) \leftarrow \sum_{i\in V}C(i)\hat{P}(i|w_{t-n-1}^{t-1})$ ，然后把 $j$ 放入 $V$ 中再重新跑一遍我们的算法，这个计算相对较快。

NLP+深度学习：paper(1) Bengio: A Neural Probabilistic Language Model， word2vec蓝本NNLM方法

摘要

简介

1. 用分布式表示解决维数灾难问题

1. 没有考虑多余1或2个单词的上下文(context)

2. 没有考虑单词之间的语义相似性(similarity between words)

神经网模型

模型建立

1. 从词到向量的映射 $C$

2. 从词向量到结果 $f$ 的映射 $g$

最优化求解

实验结果

N-Gram模型

结果

其他

并行计算求解

Other hint

猜你喜欢

NLP+深度学习：paper(1) Bengio: A Neural Probabilistic Language Model， word2vec蓝本NNLM方法

摘要

简介

1. 用分布式表示解决维数灾难问题

1. 没有考虑多余1或2个单词的上下文(context)

2. 没有考虑单词之间的语义相似性(similarity between words)

神经网模型

模型建立

1. 从词到向量的映射 C C C

2. 从词向量到结果 f f f的映射 g g g

最优化求解

实验结果

N-Gram模型

结果

其他

并行计算求解

Other hint

猜你喜欢

1. 从词到向量的映射 $C$

2. 从词向量到结果 $f$ 的映射 $g$