LDA概念辨析（词分布与关键词权重TF-IDF） - 代码天地

LDA概念辨析（词分布与关键词权重TF-IDF）

其他 2018-09-18 07:37:02 阅读次数: 0

众所周知，LDA——隐狄利克雷分布作为一个“生成模型”，可以随机生成一篇文章。而我们在求一篇文章的关键词的时候，要涉及到这篇文章的主题分布和词分布。而我们进行具体的主题分布以及词分布计算的时候，我们会先将文档的词项（term）进行TF-IDF处理。我下面对TF-IDF和词分布的概念加以辨析。

TF-IDF是一种衡量某一篇文档中某个词对该篇文档重要程度的计算方法。通过TF-IDF公式，我们可以计算出这个词对于表现这篇文档主题而言贡献如何。

请看公式：

$TF-IDF(word-weight) = TF * IDF = \frac{N_{A}}{N} * ln\frac{\left | D \right |}{\left | D_{A} \right |+1}$

NA:该文档词项A的总数； N:该文档总词数。

|DA|:出现了词项A的所有文档的总数； |D|：该语料库所含的所有文档总数。

IDF分母+1是为了防止|DA| = 0时公式出错。

从公式看得出，一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.
举个例子：例如，两篇文章P、Q，P中最多的词为“NBA”和“凯尔特人”；Q中最多的词为“NBA”和“骑士”，很显然我们应该用“凯尔特人”和“骑士”这两个词去区分这两篇文档，得知这两篇文档在分别谈论凯尔特人队和骑士队。而TF-IDF也的确是这样做的。“NBA”这个词在两篇文档里的出现频率均很高，即TF（term frequency）很高；但由于这个词出现的“过于分散”，不及“凯尔特人”和“骑士”两个词出现得“精准”，所以“NBA”这个词的|DA|就很高，导致IDF（inverse document frequency）就很低，最终导致“NBA”这个词的权重word-weight较低，经TF-IDF计算我们认为其重要程度不及“凯尔特人”和“骑士”。

而词分布，详细的说应该叫“某一主题的词分布”，即确定的主题对应这一个确定的服从狄利克雷分布的词分布。

我们在生成一篇文档的一个词时候，应该是先从主题分布中采样得到一个主题；然后再从该主题对应的词分布中采样得到一个词，完成这篇文档中这个词的生成。

综上，我个人的理解——TF-IDF更像是对文档的预处理，以获得更合理的更能代表这篇文档特点的向量。转化成文档向量后，我们可以依据权值大小进行关键字提取，也可以使用带权值的向量进行文档之间的“余弦相似度计算”，从而进行不同文档间的相似度分析；
而词分布则是LDA生成模型中的一个多项分布。它和主题分布一起构成这个概率模型框架。由于文档的生成会涉及到词分布的采样，所以若我们提前把文档进行TF-IDF处理，则词分布采样出的词也是IT-IDF过后的向量。二者在过程上可以说是有先后之分的。

猜你喜欢

转载自blog.csdn.net/weixin_41712499/article/details/82315207

LDA概念辨析（词分布与关键词权重TF-IDF）

关键词提取:TF-IDF

TF-IDF提取关键词

TF-IDF关键词抽取

Python TF-IDF计算100份文档关键词权重

TF-IDF算法（一种衡量关键词权重的算法）学习笔记

TF-IDF算法（一种衡量关键词权重的算法）学习笔记

基于TF-IDF算法抽取文章关键词

关键词提取(tf-idf与textRank)

Python TF-IDF 算法提取文本关键词

python 基于TF-IDF算法的关键词提取

TF-IDF关键词提取方法的学习

TF-IDF关键词提取步骤

TF-IDF 提取文本关键词

提取关键词--tf-idf算法讲解

TF-IDF算法之关键词提取

TF-IDF关键词提取算法

4.1 TF-IDF抽取文本关键词

基于Pyspark的TF-IDF英文关键词确定

TF-IDF方法提取文本关键词

关键词提取/关键字提取之TF-IDF算法

TF-IDF与余弦相似性的应用（一）：自动提取关键词

TF-IDF与余弦相似性的应用（一）：自动提取关键词（转）

文本分析--关键词获取（jieba分词器，TF-IDF模型）

自然语言处理——TF-IDF算法提取关键词

自然语言处理--TF-IDF（关键词提取）

spark TF-IDF特征提取生成文章关键词

python实现tf-idf和textrank提取中文关键词

关键词提取方法学习总结（TF-IDF、Topic-model、RAKE）

【自然语言处理】TF-IDF算法提取关键词

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)