GloVe: Global Vectors for Word Representation

学习词的向量空间表示可以很好捕获语法和语义规则信息，但是这些规则的起源并不透明。我们分析和阐明模型需要的这些规则。这是logbilinear regression模型，集合了全局矩阵分解和本地窗口大小的方法。模型训练在词和词的共现矩阵中，而不是整个语料库的稀疏矩阵。

1 Introduction

语言的语义向量空间模型把每个词表示为一个数值向量，这些向量是特征，可以使用在信息检索，文档分类，问答，命名实体识别和语法分析。

大部分词向量依赖于词向量对的距离和角度来估计这些向量的质量。最近的估计方法是词的相似度，而且还有不同维度的不同。比如king-queen=man-woman。

学习词向量有两大方法：1）全局矩阵分解方法，比如LSA，2）本地文本窗口，比如skip-gram模型。这些方法都有缺点，LSA可以很好获得统计信息，但对于词的相似度任务比较差，skip-gram对于相似度任务很好，但对于使用语料的统计信息比较差，这是因为他们训练在局部上下文窗口而不是全局共现对。

Matrix Factorization Methods.

矩阵分解的方法可以追溯到LSA，这些方法使用低秩的矩阵分解大的矩阵，在LSA，矩阵是‘term-document’，比如行是词，列是不同的文档。

Shallow Window-Based Methods.

另一个方法是在局部上下文窗口内进行预测，比如CBOW和skip-gram模型。

不像矩阵分解方法，基于窗口的模型无法使用语料的共现信息。

语料库中共现词的信息可以由非监督学习方法获得，但现在已有这些方法了，但是语义如何从这些统计信息获得还是问题。我们的模型叫GloVe（global vector），因为整个语料的统计信息由模型直接获得。

首先定义一些概念。

扫描二维码关注公众号，回复： 4564209 查看本文章

模型的性能对于临界值的依赖很少，所以把xmax=100 ，并且α=3/4 比α=1 好