学习词的向量空间表示可以很好捕获语法和语义规则信息,但是这些规则的起源并不透明。我们分析和阐明模型需要的这些规则。这是logbilinear regression模型,集合了全局矩阵分解和本地窗口大小的方法。模型训练在词和词的共现矩阵中,而不是整个语料库的稀疏矩阵。
1 Introduction
语言的语义向量空间模型把每个词表示为一个数值向量,这些向量是特征,可以使用在信息检索,文档分类,问答,命名实体识别和语法分析。
大部分词向量依赖于词向量对的距离和角度来估计这些向量的质量。最近的估计方法是词的相似度,而且还有不同维度的不同。比如king-queen=man-woman。
学习词向量有两大方法:1)全局矩阵分解方法,比如LSA,2)本地文本窗口,比如skip-gram模型。这些方法都有缺点,LSA可以很好获得统计信息,但对于词的相似度任务比较差,skip-gram对于相似度任务很好,但对于使用语料的统计信息比较差,这是因为他们训练在局部上下文窗口而不是全局共现对。
2 Related Work
Matrix Factorization Methods.
矩阵分解的方法可以追溯到LSA,这些方法使用低秩的矩阵分解大的矩阵,在LSA,矩阵是‘term-document’,比如行是词,列是不同的文档。
Shallow Window-Based Methods.
另一个方法是在局部上下文窗口内进行预测,比如CBOW和skip-gram模型。
不像矩阵分解方法,基于窗口的模型无法使用语料的共现信息。
3 The GloVe Model
语料库中共现词的信息可以由非监督学习方法获得,但现在已有这些方法了,但是语义如何从这些统计信息获得还是问题。我们的模型叫GloVe(global vector),因为整个语料的统计信息由模型直接获得。
首先定义一些概念。
模型的性能对于临界值的依赖很少,所以把xmax=100 ,并且α=3/4 比α=1 好
3.1 Relationship to Other Models
3.2 Complexity of the model
4 Experiments
4.1 Evaluation methods
Word analogies
Word similarity
Named entity recognition
4.2 Corpora and training details
4.3 Results
4.4 Model Analysis: Vector Length and Context Size
4.5 Model Analysis: Corpus Size
4.6 Model Analysis: Run-time
4.7 Model Analysis: Comparison with word2vec
5 Conclusion