Distributed Representations of Words and Phrases and their Compositionality

最近提出的连续skip-gram模型是学习高质量分布式词向量表示的有效方法,它捕获了大量精确地语法和语义信息。本文的扩展是提高向量的质量和训练的速度。通过下采样一些频繁的词获得速度很大的提升,并且学得更规则的词表示,并且提出了一个可以替换层次级softmax的方法,叫负采样。

 

1 Introduction

在NLP中,向量空间中的词的分布式表示有助于获得更好的性能。最早使用词的表示可以追溯到1986年,这个方法运用在统计语言模型取得很好的成就,工作包括自动语音识别,机器翻译和其他NLP任务。

最近Mikolov提出了skip-gram模型,从大量无结构化的文本学习高质量的向量表示的有效方法,和其他学习词的向量表示的神经网络不同,训练skip-gram模型不涉及稠密矩阵乘法,这让训练变得非常有效,一个优化好的单个机器可以每天训练1亿个词。

使用神经网络训练的词向量非常有趣,因为他们学习到的向量有很多语言学的规则和模式,奇怪的是,一些模式可以进行线性操作。例如:vec(“Madrid”) - vec(“Spain”) + vec(“France”) 接近 vec(“Paris”)

本文提出了原始skip-gram模型的扩展,我们发现对于频繁的词进行下采样可以增加训练速度,还提高了频率少的词的准确率。另外提出NCE(噪音对比估计)来训练skip-gram模型,对于频繁的词可以训练得更快,和层次级的softmax对比,频繁的词获得更好的向量表示。

词的表示受限于无法表示习语,这些词不是独自的单词,例如:“Boston Globe”是一家报纸,而不是单词‘Boston’和‘Globe’的组合。因此,使用向量表示整个短语让skip-gram模型变得更有表达力,组合词向量来表示句子的意思,比如循环自动编码器,使用短语向量比使用词向量更好。

扩展模型从基于词到基于短语是比较简单的,首先使用大数据获得很多短语,每个短语都作为单独个体,评价短语向量的质量是设计一个数据集,包含短语的单词的数据,比如“Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”,如果

vec(“Montreal Canadiens”) - vec(“Montreal”) +vec(“Toronto”) 接近 vec(“Toronto Maple Leafs”)

那么这些向量就是好的。

最后,是skip-gram模型的另一个有趣的性质,发现简单的向量加法可以获得有意义的结果,比如vec(“Russia”) + vec(“river”)接近vec(“Volga River”),vec(“Germany”) + vec(“capital”)接近 vec(“Berlin”)

2 The Skip-gram Model

2.1 Hierarchical Softmax

整个sotfmax的计算有效方法是层次级softmax,在神经网络语言模型里,主要的优点不是估计W个输出节点来获得概率分布,而仅需要估计log2(W)个节点。

层次级softmax在输出层使用二叉树来表示W个词,W个词是叶子,每个节点表示他的子节点的相对概率,这些随机线路给每个词赋予概率。

 

2.2 Negative Sampling

层次级softmax的代替方法是Noise Contrastive Estimation (NCE),NCE认为可以通过逻辑回归区分数据和噪音,这个hinge loss相似。

NCE可以近似最大化softmax的对数概率,skip-gram模型只关注学习高质量的词向量,所以可以在保持向量的质量的前提下,简化NCE,定义负采样(NEG)公式如下:

2.3 Subsampling of Frequent Words

在大语料库上,频繁的词可以出现上百万次(in,the,a),这些词比出现少的词提供很少的信息,例如,skip-gram模型可以从共现词‘France’和‘Paris’获得很好的信息,但是对于共现‘France’和‘the’的获益就较少了。这个原理也可以应用在反面,频繁的词的词向量在训练百万级别的样本后变化不大。

3 Empirical Results

这节评估层次级softmax(HS),噪音对比估计,下采样和训练词语的次采样。

4 Learning Phrases

4.1 Phrase Skip-Gram Results

5 Additive Compositionality

6 Comparison to Published Word Representations

7 Conclusion

猜你喜欢

转载自blog.csdn.net/qq_27009517/article/details/84565467