【论文阅读】A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》

Yoshua Bengio 2003

Abstract

统计语言模型建模（Statistical Language Modeling）目标是学习一种语言中单词序列的联合概率函数。维度限制会导致：模型中测试的单词序列与训练集中的单词序列不同。本文提出通过学习单词的分布式表示来解决维度问题。模型通过训练语句对指数级语义相关的句子进行建模。同时学习（1）每个单词的分布式表示（2）单词序列的概率函数。泛化（Generalization）是指从未出现的单词序列，可以通过类似的词的组成的已经出现的句子来获得较高的概率。本文介绍了使用神经网络的概率函数的实验，改进了n-gram模型，可以利用更长的上下文，并在两个文本预料上都显示了很好的效果。

关键词： 统计语言模型人工神经网络分布式表示维数灾难

1 Introduction

当要模拟许多离散的随机变量之间的联合分布时，如句子中的单子和数据挖掘中的离散属性，维度灾难尤其明显。对于离散空间，泛化结构不明显：任何离散变量的变化都可能对估计函数造成重大影响。而每个离散变量的取值数目很大时，大多数观察对象的汉明距离就几乎是最远的。

根据给定的前 $t-1$ 个词，统计语言模型可以由第 $t$ 个词的条件概率表示

P^(w t 1) = \prod t = 1 T P^(w t = i | w t - 1 1)

$\hat{P}(w_1^{t})=\prod_{t= 1}^T \hat{P}(w_t=i|w_1^{t-1})$
其中，

wt $w_t$ 是第

t $t$ 个单词，将子序列写为

wji=(wi,wi+1,...,wj−1,wj) $w_i^{j}=(w_i,w_{i+1},...,w_{j-1},w_j)$ 。这种统计语言模型被证明在设计自然语言的许多技术应用中非常有用，如语音识别、语言翻译个信息检索。

建立自然语言模型时可以利用词序显著降低建模问题的难度。对于大量上下文中的 $n-1$ 个单词组合，n-gram模型为下一个单词构造条件概率函数：

P^(w t | w t - 1 1) \approx P^(w t | w t - 1 t - n + 1)

$\hat{P}(w_t|w_1^{t-1})\approx\hat{P}(w_t|w_{t-n+1}^{t-1})$
我们只考虑语料库中实际出现的连续词组合，或者频繁出现的连续词组合。
对于语料库中未出现的n元单词新组合，为避免为其分配零概率，考虑 back-off trigram models (Katz, 1987)或者 smoothed (or interpolated) trigram models(Jelinek and Mercer, 1980)中使用的方法：使用更小的语料进行概率预测。获得新的单词序列的方法主要是与插值(interpolated)或者n元回退(backoff n-gram)模型相关的生成模型，通过“粘合(gluing)”训练数据中短且重复的长度为1,2甚至n个频繁出现的单词来生成新的单词序列。

1.2 Previous Work

利用神经网络对高维离散的分布进行建模，对于学习 $Z_1...Z_n$ 的联合概率分布有很大用处(Bengio and Bengio, 2000a,b)。在该模型中，联合概率分布被分解为条件概率的乘积：
$P^(Z t = z 1, . . ., Z n = z n) = \prod i P^(Z i = z i | g i (Z i - 1 = z i - 1, Z i - 2 = z i - 2, . . ., Z 1 = z 1))$ $\hat{P}(Z_t=z_1,...,Z_n=z_n)=\prod_{i}\hat{P}(Z_i=z_i|g_i(Z_{i-1}=z_{i-1},Z_{i-2}=z_{i-2},...,Z_1=z_1))$
使用神经网络进行语言建模：Miikkulainen and Dyer, 1991；基于字符的文本压缩，利用神经网络预测下一个字符的概率(Schmidhuber, 1996)；模型由于没有隐藏单元和单个输入词而被限制为捕获单数据和二元数据统计(Xu and Rudnicky, 2000)
发现单词相似关系获得新序列的泛化：基于学习词汇聚类的方法(Brown et al., 1992, Pereira et al., 1993, Niesler et al., 1998, Baker and McCallum, 1998)
向量空间表示方法在文本中的使用：信息检索(Schutze, 1993)

2 A Neural Model

模型： $f(w_t,...,w_{t-n+1})=\hat{P}(w_t|w_1^{t-1})$

其中，训练集由 $w_1...w_t$ 序列组成， $w_t\in{V}$ ,单词 $V$ 是有限的集合。将模型分解为两个部分：

将词汇表 $V$ 中的元素 $i$ 映射到实向量 $C(i)\in{\mathbb{R}}$ 中，该向量表示词汇表中每个词的分布式特征向量。 $C(i)$ 是一个大小为 $|V|\times{m}$ 的自由参数矩阵。
函数 $g$ 将上下文单词的特征向量 $(C(w_{t-n+1}),...,C(w_{t-1}))$ 作为输入序列，将它们映射为 $V$ 中下一个单词 $w_t$ 的条件概率分布。 $g$ 的输出是第 $i$ 个单词的估计概率向量 $\hat{P}(w_t=i|w_1^{t-1})$ 。如下图所示

这里写图片描述

f (i, w t - 1, . . ., w t - n + 1) = g (i, C (w t - 1), . . ., C (w t - n + 1))

$f(i,w_{t-1},...,w_{t-n+1})=g(i,C(w_{t-1}),...,C(w_{t-n+1}))$
函数

f $f$ 是映射

C $C$ 和

g $g$ 的组合，

C $C$ 在上下文所有单词间共享。矩阵

C $C$ 的第

i $i$ 行对应第

i $i$ 个单词的特征向量

C(i) $C(i)$ 。函数

g $g$ 通过带有参数

w $w$ 的前馈或递归神经网络或其他参数化函数来实现。整体参数集

θ=(C,w) $\theta=(C,w)$ 。
训练通过最大化训练语料库的惩罚似然估计

θ $\theta$ 来实现：

L = 1 T \sum t l o g f (w t, w t - 1, . . ., w t - n + 1; θ) + R (θ)

$L=\dfrac{1}{T}\sum_tlogf(w_t,w_{t-1},...,w_{t-n+1};\theta)+R(\theta)$
其中

R(θ) $R(\theta)$ 是正则项。在模型中自由参数的数量至于单词数量

V $V$ 线性相关
在本文的大部分实验中，神经网络具有一个隐藏层，单词特征到输出的直接连接是可选的。因此实际存在两层隐藏层：共享的单词特征层

C $C$ ，和普通的双曲正切隐藏层。神经网络使用softmax输出层计算以下函数以保证正概率总和为1：

P^(w t | w t - 1, . . ., w t - n + 1) = e y w t \sum i e y i

$\hat{P}(w_t|w_{t-1},...,w_{t-n+1})=\dfrac{e^{y_{w_t}}}{\sum_ie^{y_i}}$

yi $y_i$ 是对于每个输出单词

i $i$ 计算的未归一化对数概率：

y = b + W x + U t a n h (d + H x)

$y=b+Wx+Utanh(d+Hx)$

W=0 $W=0$ 时

C $C$ 与输出层不直接连接，

x $x$ 是单词特征层激活向量(word features layer activation vector)

x = (C (w t - 1), C (w t - 2), . . ., C (w t - n + 1))

$x=(C(w_{t-1}),C(w_{t-2}),...,C(w_{t-n+1}))$
另

h $h$ 为隐藏单元的数量，

m $m$ 是每个单词特征的数量。当单词特征向量与输出之间不直接连接时，

W $W$ 被设置为0。模型的自由参数有：输出偏差

b|V|×1 $b_{|V|\times1}$ ，隐藏层偏差

dh×1 $d_{h\times1}$ ，隐藏层到输出层的权重

U|V|×h $U_{|V|\times h}$ ，单词特征到输出层的权重

W|V|×(n−1) $W_{|V|\times (n-1)}$ ，隐藏层权重

Hh×(n−1) $H_{h\times(n-1)}$ ，和单词特征

C|V|×m $C_{|V|\times m}$ ：

θ = (b, d, W, U, H, C)

$\theta =(b,d,W,U,H,C)$
自由参数的个数是

|V|(1+nm+h)+h(1+(n−1)m) $|V|(1+nm+h)+h(1+(n-1)m)$ 。注意理论上来说，如果

W $W$ 和

H $H$ 存在权重衰减而

C $C$ 没有，那么

W $W$ 和

H $H$ 可以向零收敛，而

C $C$ 将会爆炸（blow up）。在实践中，当使用随机梯度上升来训练时，我们没有观察到这种现象。神经网络中的随机梯度上升执行以下迭代更新：

θ \leftarrow θ + ϵ \partial l o g P ^ ( w t | w t - 1 , . . . , w t - n + 1 ) \partial θ

$\theta \leftarrow \theta +\epsilon \frac{\partial log\hat{P}(w_t|w_{t-1},...,w_{t-n+1})}{\partial \theta}$
其中

ϵ $\epsilon$ 是学习效率。
混合模型：我们通过实验发现将神经网络中的概率预测与插值三元模型相结合可以获得提高的效果。

3 Parallel Implementation

4 Experimental Results

语料1： Brown corpus 布朗语料库
内容： 1,181,041 words（80w用于训练集，20w用于验证集，181,041用于测试集）
单词数量（无重复）： 47,578（包括标点符号，区分大小写，包括用于分割文本和段落的语法标记）
将出现次数<3的单词合并成为一个单一的符号，将词汇量减少到16,383。

语料2： the Associated Press (AP) News from 1995 and 1996。
内容： 训练集（13,994,528），验证集（963,138），测试集（963,071）

4.1 N-Gram Model
用于与神经网络比较的第一个基准是基于插值法或者平滑法的trigram模型。令 $q_t=l(freq(w_{t-1},w_{t-2}))$ 代表作为输入的上下文 $(w_{t-1},w_{t-2})$ 出现的离散频率。条件概率估计：

P^(w t | w t - 1, w t - 2) = α 0 (q t) p 0 + α 1 (q t) p 1 (w t) + α 2 (q t) p 2 (w t | w t - 1) + α 3 (q t) p 3 (w t | w t - 1, w t - 2)

$\hat{P}(w_t|w_{t-1},w_{t-2})=\alpha_0(q_t)p_0+\alpha_1(q_t)p_1(w_t)+\alpha_2(q_t)p_2(w_t|w_{t-1})+\alpha_3(q_t)p_3(w_t|w_{t-1},w_{t-2})$
其中，条件权重

αi(qt)≥0 $\alpha_i(q_t)\geq0$ ，

∑iαi(qt)=1 $\sum_i\alpha_i(q_t)=1$

4.2 Result
所有的back-off model 都是改进的Kneser-Ney n-grams，这比标准的back-off model做的更好。词特征由随机初始化完成（类似神经网络权重的初始化），但是利用基于知识的初始化可能会获得更好的结果。

这里写图片描述
上表中是布朗语料库的比较结果。其中——
$n$ : 模型的顺序
$c$ : 基于类的n-grams中类的数量
$h$ : 隐藏单元的个数
$m$ : MLP的单词特征数量，基于类的n-grams的类别数量
$direct$ : 单词特征向量是否与输出直接相连
$mix$ : 神经网络的输出概率是否与三元组的输出相混合（权重分别为0.5）
由结果可看出，神经网络同困惑度（perplexity）值最低的n-grams相比都可以取得明显更好的效果。同时，神经网络可以利用更多的上下文。由MLP3和MLP1、MLP4和MLP2可看出隐藏单元也是有意义的。
根据结果不能看出字特征与输出的直接连接是否有用，但是在更小的预料上，没有直接连接可以获得更好的泛化，代价是更长时间的训练。

这里写图片描述

上表给出了较大的语料库APNews的结果，perplexity相差较小（8%），