【词向量相关论文】《GloVe: Global Vectors for Word Representation》

0、摘要

GloVe综合了全局矩阵分解和局部窗口方法

1、介绍

词向量评估方法:

1)一般的词向量评估需要依赖pairwise的词向量的距离或者角度作为内在质量的评估;

2)w2v评估方式是使用了类比。

之前模型的缺点:

矩阵分解模型:利用了统计信息,但是在词模拟任务上表现不好,所以它只有次优的向量空间结构;

w2v模型:在词模拟任务上表现很好,但是没有利用统计信息,因为他们在局部窗口训练,没有使用全局共现次数。

矩阵分解相关:

1)LSA:利用doc-term矩阵

2)HAL:利用词共现矩阵

HAL和相关方法的缺点

直接使用共现次数,这个共现次数不能直接表征语义相似的程度;

一些变体使用了给予熵/相关性的归一化,使得跨度为8、9个数量级的语料库,其表示范围在更小的区间上更加平均。

猜你喜欢

转载自www.cnblogs.com/ai1024/p/9299551.html