《A Neural Probabilistic Language Model》
Yoshua Bengio 2003
Abstract
统计语言模型建模(Statistical Language Modeling)目标是学习一种语言中单词序列的联合概率函数。维度限制会导致:模型中测试的单词序列与训练集中的单词序列不同。本文提出通过学习单词的分布式表示来解决维度问题。模型通过训练语句对指数级语义相关的句子进行建模。同时学习(1)每个单词的分布式表示(2)单词序列的概率函数。泛化(Generalization)是指从未出现的单词序列,可以通过类似的词的组成的已经出现的句子来获得较高的概率。本文介绍了使用神经网络的概率函数的实验,改进了n-gram模型,可以利用更长的上下文,并在两个文本预料上都显示了很好的效果。
关键词: 统计语言模型 人工神经网络 分布式表示 维数灾难
1 Introduction
当要模拟许多离散的随机变量之间的联合分布时,如句子中的单子和数据挖掘中的离散属性,维度灾难尤其明显。对于离散空间,泛化结构不明显:任何离散变量的变化都可能对估计函数造成重大影响。而每个离散变量的取值数目很大时,大多数观察对象的汉明距离就几乎是最远的。
根据给定的前
其中,
建立自然语言模型时可以利用词序显著降低建模问题的难度。对于大量上下文中的
我们只考虑语料库中实际出现的连续词组合,或者频繁出现的连续词组合。
对于语料库中未出现的n元单词新组合,为避免为其分配零概率,考虑 back-off trigram models (Katz, 1987)或者 smoothed (or interpolated) trigram models(Jelinek and Mercer, 1980)中使用的方法:使用更小的语料进行概率预测。获得新的单词序列的方法主要是与插值(interpolated)或者n元回退(backoff n-gram)模型相关的生成模型,通过“粘合(gluing)”训练数据中短且重复的长度为1,2甚至n个频繁出现的单词来生成新的单词序列。
1.2 Previous Work
- 利用神经网络对高维离散的分布进行建模,对于学习
Z1...Zn 的联合概率分布有很大用处(Bengio and Bengio, 2000a,b)。在该模型中,联合概率分布被分解为条件概率的乘积:
P^(Zt=z1,...,Zn=zn)=∏iP^(Zi=zi|gi(Zi−1=zi−1,Zi−2=zi−2,...,Z1=z1)) - 使用神经网络进行语言建模:Miikkulainen and Dyer, 1991;基于字符的文本压缩,利用神经网络预测下一个字符的概率(Schmidhuber, 1996);模型由于没有隐藏单元和单个输入词而被限制为捕获单数据和二元数据统计(Xu and Rudnicky, 2000)
- 发现单词相似关系获得新序列的泛化:基于学习词汇聚类的方法(Brown et al., 1992, Pereira et al., 1993, Niesler et al., 1998, Baker and McCallum, 1998)
- 向量空间表示方法在文本中的使用:信息检索(Schutze, 1993)
2 A Neural Model
模型:
其中,训练集由
- 将词汇表
V 中的元素i 映射到实向量C(i)∈R 中,该向量表示词汇表中每个词的分布式特征向量。C(i) 是一个大小为|V|×m 的自由参数矩阵。 - 函数
g 将上下文单词的特征向量(C(wt−n+1),...,C(wt−1)) 作为输入序列,将它们映射为V 中下一个单词wt 的条件概率分布。g 的输出是第i 个单词的估计概率向量P^(wt=i|wt−11) 。如下图所示
函数
训练通过最大化训练语料库的惩罚似然估计
其中
在本文的大部分实验中,神经网络具有一个隐藏层,单词特征到输出的直接连接是可选的。因此实际存在两层隐藏层:共享的单词特征层
另
自由参数的个数是
其中
混合模型:我们通过实验发现将神经网络中的概率预测与插值三元模型相结合可以获得提高的效果。
3 Parallel Implementation
4 Experimental Results
语料1: Brown corpus 布朗语料库
内容: 1,181,041 words(80w用于训练集,20w用于验证集,181,041用于测试集)
单词数量(无重复): 47,578(包括标点符号,区分大小写,包括用于分割文本和段落的语法标记)
将出现次数<3的单词合并成为一个单一的符号,将词汇量减少到16,383。
语料2: the Associated Press (AP) News from 1995 and 1996。
内容: 训练集(13,994,528),验证集(963,138),测试集(963,071)
4.1 N-Gram Model
用于与神经网络比较的第一个基准是基于插值法或者平滑法的trigram模型。令
其中,条件权重
4.2 Result
所有的back-off model 都是改进的Kneser-Ney n-grams,这比标准的back-off model做的更好。词特征由随机初始化完成(类似神经网络权重的初始化),但是利用基于知识的初始化可能会获得更好的结果。
上表中是布朗语料库的比较结果。其中——
由结果可看出,神经网络同困惑度(perplexity)值最低的n-grams相比都可以取得明显更好的效果。同时,神经网络可以利用更多的上下文。由MLP3和MLP1、MLP4和MLP2可看出隐藏单元也是有意义的。
根据结果不能看出字特征与输出的直接连接是否有用,但是在更小的预料上,没有直接连接可以获得更好的泛化,代价是更长时间的训练。
上表给出了较大的语料库APNews的结果,perplexity相差较小(8%),