gensim 理论篇

gensim 是 Radim Rehurek 写的一个用来处理文本相似度的 python 库。可以很方便的用 tfidf，LDA，LSA，word2vec 等模型，涵盖了 NLP 里常见的词袋模型，主题模型，词嵌入等。下面简单介绍一下这些概念。

Vector Space model

在自然语言处理中，我们经常需要表示一个文档。一种常见的做法是写成向量的形式，比如直接统计一下该文章的词频，那么向量的大小就是词表的大小。这种模型就是向量空间模型（VSM，Vector Space Model），后面要讲的 TFIDF，LSA 等基本都是向量空间模型。

举个例子，假设文档集合 $\text{D}$ 中的一个文档 $d$ ，可以用列向量

v d = [w 1, d, w 2, d, . . ., w N, d] T

$\mathbf{v}_d = [w_{1,d}, w_{2,d},...,w_{N,d}]^T$ 来表示其中

N $N$ 是词汇表（字典）的长度。

BoW

上面的列向量其实就是 Bag-Of-Word Model，即词袋模型。这种模型直接统计了词频，把一片文章打散成一个个的词，因此会忽略词与词之间的顺序。这种做法显然是有代价的，比如“小明爱小花”跟“小花爱小明”的 BoW 表示是一样的。但是反过来讲，这样做也会简化模型。重要的是这种表示方法，可以把不定长的文档，用定长的向量表示出来，做起来后续的分类聚类等任务很方便。

其实除了在 NLP 领域，在 CV 里也经常用视觉词袋模型。比如我们用 SIFT 特征提取器，可以对图片提取比如 128 的特征。假如我们把图片切分成 100 个小 patch，每个都提取出来一个 SIFT 特征，那么最后得到的特征维度非常大。

可以考虑把训练集里的所有图片 patch 聚成 N 个类，这样每个 patch 都只用一个簇的 id 来表示，最后一张图片的维度就是 N，是图片 patch 的直方图表示。聚类的簇的个数 N 相当于词典的大小，每个簇都是一个词。

TF-IDF

前面的 BoW 模型，可能会给那些经常出现却没什么意义的词较大的权重，比如 “The，a，of” 之类的停词等。这些词无法代表这个文档，因此要降低这些词的权重，提高那些不怎么在其他文档里出现，但是却在这篇文档里反复出现的词。

TF-IDF 就是一种非常好的，也很常见的模型，可以看做是前面的词袋模型的拓展。TF-IDF 分成两个部分，

TF（term frequency）就是词频，和 BoW 说的是一个东西，就是数一下这篇文章有多少个这个词。
IDF（inverse document frequency）则是词的逆文档频率，就是有多少文章出现了该词，然后取个倒数。

假如用 $w_{t,d}$ 表示第 $t$ 个词汇在文档 $d$ 中的权重，定义 TF-IDF 计算公式如下，

w t, d = t f t, d \cdot log 2 | D | | { d ' \in D | t \in d ' } |

$w_{t, d} = \rm{tf}_{t, d} \cdot \log_2 \frac{|D|}{|\{d' \in D | t \in d'\}|}$

其中 $\rm{tf}_{t,d}$ 是局部参数（local parameter)
- 表示在文档 $d$ 中词汇 $t$ 的词频。
- 当然，也有别的做法，比如用 0，1 布尔值，或者用 log 平滑一下之类的。
$\log_2 \frac{|D|}{|\{d' \in D | t \in d'\}|}$ 是全局参数（global parameter）
- $|D|$ 表示文档的数量， ${|\{d' \in D | t \in d'\}|}$ 表示有多少文档包含了该词汇。

LSA, Latent Semantic Analysis

我们用上面 TF-IDF 的方法表示文档集，会得到叫做 term-document matrix 的一个矩阵 $X \in \mathbb{R}^{m\times n}$ ，其中行数 $m$ 是词典的大小，列数 $n$ 是文档的数量。

上图中第 $j$ 个文档用列向量 $\mathbf{d}_j$ 表示，第 $i$ 个词在所有文档中的分布用行向量 $\mathbf{t}_i^T$ 表示。

SVD

隐语义分析（LSA, Latent Semantic Analysis）是尝试用数学工具，奇异值分解（SVD，Singular Value Decomposition），来对上面的矩阵 $X \in \mathbb{R}^{m \times n}$ 进行低秩逼近（Low-rank approximation）。具体的数学形式如下：

X m \times n = U m \times m Σ m \times n V T n \times n

$X_{m\times n} = U_{m \times m} \Sigma_{m \times n} V^T_{n \times n}$ 其中，

$U \in \mathbb{R}^{m \times m}$ 里面的列向量是矩阵 $X$ 的左奇异向量，是矩阵 $XX^T$ 的特征向量，且两两正交
$V \in \mathbb{R}^{n \times n}$ 里面的列向量是矩阵 $X$ 的右奇异向量，是矩阵 $X^TX$ 的特征向量，且两两正交
$\Sigma$ 是矩阵 $X^TX$ 或者 $XX^T$ 的特征值矩阵，对角线的值都是非负的特征值

矩阵本质上描述了一种坐标变换，会把原来的点映射到其列向量张成（span）的子空间内。我们可以把这个变换分解成两种， $U, V$ 的作用是旋转坐标，即用一组新的正交基（orthogonal base）来重新表示数据。而对角矩阵 $\Sigma$ 则是尺度变换，沿着新的坐标轴对数据进行拉伸或者压缩。

如下图所示，M 的效果可以分成三步来做到。

PCA

一般来说，奇异值分解得到的对角矩阵 $\Sigma$ 都会按照奇异值的大小降序排列，以保证该对角矩阵的唯一性。注意这里特征矩阵里的特征向量也要跟着重新排序。其实我们发现前 $k$ 个元素已经能够很好地描述数据，即逼近原矩阵了。后面的特征值已经很接近零，包含的信息量很少，即数据在该方向的方差很小，因此可以考虑进行舍弃。

这个就是 Truncated SVD 的思想，PCA 在某些情况下得到的结果和这里是等价的，如下，取前 k 个主成分，

X m \times n \approx X ~ m \times n = U m \times t Σ t \times t V t \times n

$X_{m \times n} \approx \tilde{X}_{m \times n} = U_{m \times t}\Sigma_{t \times t}V_{t \times n}$

这里的 $\tilde{X}_{m \times n}$ 就是 $X_{m \times n}$ 的低秩逼近，具体地，秩为 k 。

两种方法，PCA 和 SVD，其实还是有区别的，参考机器学习中的 SVD 和 PCA 应该如何理解？

LSA

有点跑远了，再回到 LDA 上来。上面讲到文档集 $X \in \mathbb{R}^{m \times n}$ ，表示共有 $m$ 个词， $n$ 篇文档，可以考虑写成这样两种形式，

$X_{m \times n} = [t_1^T;...;t_i^T;...;t_m^T]$ ，其中 $t_i \in \mathbb{R}^n$ 是列向量，表示第 $i$ 个词在 $n$ 个文档中的权重分布。
$X_{m \times n} = [d_1,...,d_j,...,d_n]$ ，其中 $d_j \in \mathbb{R}^m$ 是列向量，表示第 $j$ 篇文档在 $m$ 个词中的权重分布。

我们现在可以有两个假设，假设 $t_i^T \cdot t_j$ 可以表示第 $i$ 个词与第 $j$ 个词之间的相关性（correlation）。因为如果两个词总是在同一片文章中结对出现或者都不出现，那么很可能他们描述的是同一个话题。第二个假设也类似，假设 $d_i^T \cdot d_j$ 可以表示第 $i$ 篇文章与第 $j$ 篇文章之间的相关性，因为描述这篇文章的词汇分布很像，这两篇文章很可能是同一个话题的。

有了上面两个假设，可以发现方阵 $XX^T \in \mathbb{R}^{m \times m}$ 包含了这 $m$ 个词之间的通过 $t_i^T \cdot t_j$ 这种内积的形式计算的相关性。同理，方阵 $X^TX \in \mathbb{R}^{n \times n}$ 包含了这 $n$ 篇文档之间的相关性。可以对矩阵 $X$ 进行 SVD 分解如下，

注意到，矩阵 $U$ 中唯一对词 $t_i^T$ 有贡献的就是第 $i$ 行，记作 $\hat{t}_i^T$ ，是由 $l$ 个特征向量贡献的；同理，矩阵 $V$ 中唯一对文档 $d_j$ 有贡献的只有第 $j$ 列，记作 $\hat{d_j}$ ，是由 $l$ 个特征向量贡献的。

回归一下 Truncated SVD，如果选了前 $k$ 大的奇异值，右边的三个矩阵就是可以对 $X$ 进行低秩逼近，此时 $\|\hat{X} - X\|$ 的 $\text{Frobenius}$ 范数最小。具体来说，就是用 $k$ 个“潜在语义”来逼近原来的文档或者单词。每个潜在语义都是原来的所有单词或者文档的带权叠加得到的。那么现在 $\hat{t}_i^T$ 就是单词 $t_i^T$ 的低秩表示，或者说隐语义表示；向量 $\hat{d_j}$ 就是原文档 $d_j$ 的低秩表示。

有了上面的理论，就可以比较不同文档之间的相似度了

计算文档 $j$ 个 $q$ 在低维空间的相似度 –> 计算 $\sum_k \hat{d_j}$ 和 $\sum_k \hat{d}_q$ 之间的余弦距离
计算单词 $i$ 和 $p$ 在低维空间的相似度 –> 计算 $\sum_k \hat{t_i}$ 和 $\sum_k \hat{t}_p$ 之间的余弦距离
可以利用上面的余弦距离来进行聚类，比如用 k-means
给定 query 进行检索，先要转换到低维表示，如果是文档， $\hat{d}_j = \sum_k^{-1}U_k^Td_j$ ，如果是词， $t_i^T = \sum_k^{-1}V_k^Tt_i$

其他的模型不太了解就不讨论了，占坑。

Vector Space model

BoW

TF-IDF

LSA, Latent Semantic Analysis

SVD

PCA

LSA

猜你喜欢