gensim 理论篇

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhangxb35/article/details/73294603

gensimRadim Rehurek 写的一个用来处理文本相似度的 python 库。可以很方便的用 tfidf,LDA,LSA,word2vec 等模型,涵盖了 NLP 里常见的词袋模型,主题模型,词嵌入等。下面简单介绍一下这些概念。

Vector Space model

在自然语言处理中,我们经常需要表示一个文档。一种常见的做法是写成向量的形式,比如直接统计一下该文章的词频,那么向量的大小就是词表的大小。这种模型就是向量空间模型(VSM,Vector Space Model),后面要讲的 TFIDF,LSA 等基本都是向量空间模型。

举个例子,假设文档集合 D 中的一个文档 d ,可以用列向量

vd=[w1,d,w2,d,...,wN,d]T
来表示 其中 N 是词汇表(字典)的长度。

BoW

上面的列向量其实就是 Bag-Of-Word Model,即词袋模型。这种模型直接统计了词频,把一片文章打散成一个个的词,因此会忽略词与词之间的顺序。这种做法显然是有代价的,比如“小明爱小花”跟“小花爱小明”的 BoW 表示是一样的。但是反过来讲,这样做也会简化模型。重要的是这种表示方法,可以把不定长的文档,用定长的向量表示出来,做起来后续的分类聚类等任务很方便。

其实除了在 NLP 领域,在 CV 里也经常用视觉词袋模型。比如我们用 SIFT 特征提取器,可以对图片提取比如 128 的特征。假如我们把图片切分成 100 个小 patch,每个都提取出来一个 SIFT 特征,那么最后得到的特征维度非常大。

可以考虑把训练集里的所有图片 patch 聚成 N 个类,这样每个 patch 都只用一个簇的 id 来表示,最后一张图片的维度就是 N,是图片 patch 的直方图表示。聚类的簇的个数 N 相当于词典的大小,每个簇都是一个词。

TF-IDF

前面的 BoW 模型,可能会给那些经常出现却没什么意义的词较大的权重,比如 “The,a,of” 之类的停词等。这些词无法代表这个文档,因此要降低这些词的权重,提高那些不怎么在其他文档里出现,但是却在这篇文档里反复出现的词。

TF-IDF 就是一种非常好的,也很常见的模型,可以看做是前面的词袋模型的拓展。TF-IDF 分成两个部分,

  • TF(term frequency)就是词频,和 BoW 说的是一个东西,就是数一下这篇文章有多少个这个词。
  • IDF(inverse document frequency)则是词的逆文档频率,就是有多少文章出现了该词,然后取个倒数。

假如用 wt,d 表示第 t 个词汇在文档 d 中的权重,定义 TF-IDF 计算公式如下,

wt,d=tft,dlog2|D||{dD|td}|

  • 其中 tft,d 是局部参数(local parameter)

    • 表示在文档 d 中词汇 t 的词频。
    • 当然,也有别的做法,比如用 0,1 布尔值,或者用 log 平滑一下之类的。
  • log2|D||{dD|td}| 是全局参数(global parameter)

    • |D| 表示文档的数量, |{dD|td}| 表示有多少文档包含了该词汇

LSA, Latent Semantic Analysis

我们用上面 TF-IDF 的方法表示文档集,会得到叫做 term-document matrix 的一个矩阵 XRm×n ,其中行数 m 是词典的大小,列数 n 是文档的数量。

上图中第 j 个文档用列向量 dj 表示,第 i 个词在所有文档中的分布用行向量 tTi 表示。

SVD

隐语义分析(LSA, Latent Semantic Analysis) 是尝试用数学工具,奇异值分解(SVD,Singular Value Decomposition),来对上面的矩阵 XRm×n 进行低秩逼近(Low-rank approximation)。具体的数学形式如下:

Xm×n=Um×mΣm×nVTn×n
其中,

  • URm×m 里面的列向量是矩阵 X 左奇异向量,是矩阵 XXT 的特征向量,且两两正交
  • VRn×n 里面的列向量是矩阵 X 右奇异向量,是矩阵 XTX 的特征向量,且两两正交
  • Σ 是矩阵 XTX 或者 XXT 的特征值矩阵,对角线的值都是非负的特征值

矩阵本质上描述了一种坐标变换,会把原来的点映射到其列向量张成(span)的子空间内。我们可以把这个变换分解成两种, U,V 的作用是旋转坐标,即用一组新的正交基(orthogonal base)来重新表示数据。而对角矩阵 Σ 则是尺度变换,沿着新的坐标轴对数据进行拉伸或者压缩。

如下图所示,M 的效果可以分成三步来做到。

PCA

一般来说,奇异值分解得到的对角矩阵 Σ 都会按照奇异值的大小降序排列,以保证该对角矩阵的唯一性。注意这里特征矩阵里的特征向量也要跟着重新排序。其实我们发现前 k 个元素已经能够很好地描述数据,即逼近原矩阵了。后面的特征值已经很接近零,包含的信息量很少,即数据在该方向的方差很小,因此可以考虑进行舍弃。

这个就是 Truncated SVD 的思想,PCA 在某些情况下得到的结果和这里是等价的,如下,取前 k 个主成分,

Xm×nX~m×n=Um×tΣt×tVt×n

这里的 X~m×n 就是 Xm×n 的低秩逼近,具体地,秩为 k 。

两种方法,PCA 和 SVD,其实还是有区别的,参考 机器学习中的 SVD 和 PCA 应该如何理解?

LSA

有点跑远了,再回到 LDA 上来。上面讲到文档集 XRm×n ,表示共有 m 个词, n 篇文档,可以考虑写成这样两种形式,

  • Xm×n=[tT1;...;tTi;...;tTm] ,其中 tiRn 是列向量,表示第 i 个词在 n 个文档中的权重分布。
  • Xm×n=[d1,...,dj,...,dn] ,其中 djRm 是列向量,表示第 j 篇文档在 m 个词中的权重分布。

我们现在可以有两个假设,假设 tTitj 可以表示第 i 个词与第 j 个词之间的相关性(correlation)。因为如果两个词总是在同一片文章中结对出现或者都不出现,那么很可能他们描述的是同一个话题。第二个假设也类似,假设 dTidj 可以表示第 i 篇文章与第 j 篇文章之间的相关性,因为描述这篇文章的词汇分布很像,这两篇文章很可能是同一个话题的。

有了上面两个假设,可以发现方阵 XXTRm×m 包含了这 m 个词之间的通过 tTitj 这种内积的形式计算的相关性。同理,方阵 XTXRn×n 包含了这 n 篇文档之间的相关性。可以对矩阵 X 进行 SVD 分解如下,

注意到,矩阵 U 中唯一对词 tTi 有贡献的就是第 i 行,记作 t^Ti , 是由 l 个特征向量贡献的;同理,矩阵 V 中唯一对文档 dj 有贡献的只有第 j 列,记作 dj^ ,是由 l 个特征向量贡献的。

回归一下 Truncated SVD,如果选了前 k 大的奇异值,右边的三个矩阵就是可以对 X 进行低秩逼近,此时 X^X Frobenius 范数最小。具体来说,就是用 k 个“潜在语义”来逼近原来的文档或者单词。每个潜在语义都是原来的所有单词或者文档的带权叠加得到的。那么现在 t^Ti 就是单词 tTi 的低秩表示,或者说隐语义表示;向量 dj^ 就是原文档 dj 的低秩表示。

有了上面的理论,就可以比较不同文档之间的相似度了

  • 计算文档 j q 在低维空间的相似度 –> 计算 kdj^ kd^q 之间的余弦距离
  • 计算单词 i p 在低维空间的相似度 –> 计算 kti^ kt^p 之间的余弦距离
  • 可以利用上面的余弦距离来进行聚类,比如用 k-means
  • 给定 query 进行检索,先要转换到低维表示,如果是文档, d^j=1kUTkdj ,如果是词, tTi=1kVTkti

其他的模型不太了解就不讨论了,占坑。

猜你喜欢

转载自blog.csdn.net/zhangxb35/article/details/73294603
今日推荐