持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第16天，点击查看活动详情

前言

本文为我之前在CSDN平台上的一篇博客记录。原链接为：blog.csdn.net/u011426236/…

Lecture 2:Word Vectors and Word Senses

Finish looking at word vectors and word2vec

首先复习上节课的内容，在这里插入图片描述 Word2vec的主要思想是：

遍历整个语料库中的每个单词
使用单词向量预测周围的单词
更新向量以便更好地预测

在这里插入图片描述在Word2vec的两组词向量矩阵中，每行代表一个单词的词向量，这里是6个单词，每个单词的维度为5。 $v_4$ 代表第4行，即第四个单词。通过U与之点乘后得到的分数通过softmax映射为概率分布，其是对于该中心词而言的上下文中单词的概率分布，该分布与上下文所在的具体位置无关，所以在每个位置的预测都是一样的。

我们希望模型对上下文中(相当频繁)出现的所有单词给出一个合理的高概率估计 the, and, that, of 这样的停用词，是每个单词点乘后得到的较大概率的单词去掉这一部分可以使词向量效果更好。

在这里插入图片描述

在使用梯度下降时，我们得到的梯度矩阵可能是非常稀疏的，对于每个窗口，我们使用mini-batch得到的梯度矩阵中不为0的值最多有 $2m+1$ 行（m为batch_size，m<<d，d为单词数），

在这里插入图片描述

解决方案如下：

要么使用稀疏矩阵更新操作来只更新矩阵U和V中的特定行，要么保留单词向量的散列（即可以直接访问到每个单词的词向量）
如果有数百万个单词向量，并且进行分布式计算，那么重要的是不必到处发送巨大的更新

在这里插入图片描述

Word2vec使用两组词向量是为了更好的优化，原因参考上一篇笔记。同时，存在两种不同的框架：CBOW和Skip gram模型。

CBOW模型是通过上下文词来预测中心词，Skip-gram模型是通过中心词预测上下文词，我们之前讨论的都是Skip-gram的模型。

在这里插入图片描述

Optimization basics

在Skip-gram模型中，还使用了一个额外的增加训练效率的技巧：Negative Sampling。由于直接计算Softmax时需要遍历所有的单词计算分母项，计算成本太大，效率低。所谓Negative Sampling的思想就是我们只采样一部分。

所以它的目标函数就转换为了如下形式：

在这里插入图片描述

原论文中是最大化目标函数，其实也就是最大化上下文词和中心词的点积，最小化无关词和中心词的点积。

在这里插入图片描述

然后我们将其转化为最小化代价函数形式如上。在采样时，适当进行了幂次处理以适当增大低频次的出现概率。

Can we capture this essence more effectively by counting?

以上，我们利用word2vec捕捉到了单词和周围词的关系。那么，我们为什么不直接使用计算共现次数的方式来更高效的得到这些性质呢。在这里插入图片描述

统计共现矩阵 X有两个选项：windows 和 full document

Window ：与word2vec类似，在每个单词周围都使用Window，包括语法(POS)和语义信息
Word-document 共现矩阵的基本假设是在同一篇文章中出现的单词更有可能相互关联。假设单词 i 出现在文章 j 中，则矩阵元素 Xij 加一，当我们处理完数据库中的所有文章后，就得到了矩阵 X ，其大小为 |V|×M ，其中 |V| 为词汇量，而 M 为文章数。这一构建单词-文章co-occurrence matrix的方法也是经典的Latent Semantic Analysis所采用的。潜在语义分析。

下面举个例子，设置window_size = 1，语料为三句话

在这里插入图片描述得到共现矩阵如下：

在这里插入图片描述

使用共现次数衡量单词的相似性，但是会随着词汇量的增加而增大矩阵的大小，并且需要很多空间来存储这一高维矩阵，后续的分类模型也会由于矩阵的稀疏性而存在稀疏性问题，使得效果不佳。我们需要对这一矩阵进行降维，获得低维(25-1000)的稠密向量。

解决方法：使用矩阵的奇异值分解（SVD）方法将共现矩阵 X 分解。为了减少尺度同时尽量保存有效信息，保留对角矩阵的最大的k个值，并将矩阵U，V 的相应的行列保留。

在这里插入图片描述

这是经典的线性代数算法，对于大型矩阵而言，计算代价昂贵（时间复杂度为O(n^3)）。另外，像a、the、is这种词，与其他词共现的次数太多，也会很影响效果。

在这里插入图片描述

所以，我们需要改善这样的词向量。例如，直接把一些常见且意义不大的词忽略掉；把极度不平衡的计数压缩到一个范围；使用皮尔森相关系数，来代替共现次数。等等很多技巧。因此就有了2005年的论文《An Improved Model of Semantic Similarity Based on Lexical Co-Occurrence》提出的COALS模型。

在这里插入图片描述

这个模型训练得到的词向量，也表现出了很多有趣的性质，跟我们熟悉的Word2Vec十分类似。

通过以上认识，我们总结对比两种不同方式下的优缺点在这里插入图片描述

基于计数的方法：使用整个矩阵的全局统计数据来直接估计

优点
- 训练快速
- 统计数据高效利用
缺点
- 主要用于捕捉单词相似性
- 对大量数据给予比例失调的重视

直接预测：定义概率分布并试图预测单词

优点
- 提高其他任务的性能
- 能捕获除了单词相似性以外的复杂的模式
缺点
- 与语料库大小有关的量表
- 统计数据的低效使用（采样是对统计数据的低效使用）

The GloVe model of word vectors

比较SVD这种count based模型与Word2Vec这种direct prediction模型，它们各有优缺点：Count based模型优点是训练快速，并且有效的利用了统计信息，缺点是对于高频词汇较为偏向，并且仅能概括词组的相关性，而且有的时候产生的word vector对于解释词的含义如word analogy等任务效果不好；Direct Prediction优点是可以概括比相关性更为复杂的信息，进行word analogy等任务时效果较好，缺点是对统计信息利用的不够充分。

所以Manning教授他们想采取一种方法可以结合两者的优势，并将这种算法命名为GloVe（Global Vectors的缩写），表示他们可以有效的利用全局的统计信息。

关键思想：共现概率的比值可以对meaning component进行编码。在这里插入图片描述

这里举个例子，假设我们想区分热力学上两种不同状态ice冰与蒸汽steam，它们之间的关系可通过与不同的单词 x 的co-occurrence probability 的比值来描述。

例如对于solid固态，虽然 $P(solid|ice)$ 和 $P(solid|steam)$ 本身很小，不能透露有效的信息，但是它们的比值 $\frac{P(solid|ice)}{P(solid|steam)}$ 却较大，因为solid更常用来描述ice的状态而不是steam的状态，所以在ice的上下文中出现几率较大。