【tf-idf】理解 - 代码天地

【tf-idf】理解

其他 2018-11-13 09:41:03 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weixin_35390390/article/details/73877443

tf:

衡量词在文档中的重要性。表示词在文档中出现的频率，即词频

tf=词在文档中出现的次数/文档中所有词的个数

或者

tf=词在文档中出现的次数/文档中出现最多的词的次数

idf:

衡量词的普遍性。表示词在文档集合中出现的频率，即逆文档频率

idf=log(文档集合总个数/包含词的文档个数+1)

或者

idf=log(文档集合所有词的个数/词在文档集合中出现的总次数+1)

一般使用tf*idf来体现一个词的独特性，即词对文档描述的重要性，关键词。

有一种说法如下：

但是实际上，有时候，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

这种说法个人并不同意，我认为这是对tf-idf的一种误解。

tf-idf描述词对于文档的独特性、代表性，这种独特不仅是独特于其他类别的文档，同时也独特于同类的文档的。

直接使用idf来寻找某一类文档的关键词本身是对tf-idf的一种误解，可使用tf-idf+余弦相似对文档聚类分类，之后将每一个类别当做一个文档，使用tf-idf寻找能代表该类的词

猜你喜欢

转载自blog.csdn.net/weixin_35390390/article/details/73877443

【tf-idf】理解

TF-IDF深入理解

对TF-IDF的理解与数学推导

简单理解TF-IDF算法

【转载】TF-IDF的理解与计算

【TF-IDF介绍】

TF-IDF

tf-idf相关

tf-idf原理

tf-idf的问题

TF-IDF（转）

TF-IDF介绍

TF-IDF小记

python TF-IDF

【Spark】TF-IDF

tf-idf sklearn

NLP ----- TF-IDF

TF-IDF算法

TF-IDF（2）

【346】TF-IDF

TF-IDF学习

TF-IDF的原理

tf-idf使用

TF-IDF & CNN

TF-IDF笔记

详解TF-IDF

TF, IDF和TF-IDF

spark中TF-IDF的理解及其使用

one-hot和tf-idf的理解

（九）通俗易懂理解——TF-IDF与TextRank

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)