TF-IDF小记 - 代码天地

TF-IDF小记

其他 2018-07-10 18:53:55 阅读次数: 0

　　关于机器学习,自己也是半路出家,没啥基础, 不过知识也是一点一点积累起来的。tf-idf是在处理文本中很常用的一个公式, 下面记录一下自己对它的理解:

　　tf :计算某个词在某个文档中的词频(即某个词在它所在的行中出现的次数，在spark ml的表示中,一行代表一个文档)。

　　idf: 逆向文档频率, 公式为: idf = log( (文档个数,即行数)+1 )/((单词出现在多少个文档中)+1)

　　以前虽然看着spark的文档上对于tfidf的说明，但是一直不明白它表示的物理意义是啥，后来随着用得越来越频繁，无形之中给自己加了个理解：找出某个文档中出现多,但是在总体中出现少的

词。这种词就可以作为该文档的主题特征。

　　tfidf的表示方法还有很多的变种，但核心就是上面所说的。spark中的公式也是采用的上述形式。

猜你喜欢

转载自www.cnblogs.com/wuxilc/p/9290841.html

TF-IDF小记

TF-IDF

【TF-IDF介绍】

tf-idf原理

tf-idf的问题

tf-idf相关

TF-IDF（转）

TF-IDF介绍

python TF-IDF

tf-idf sklearn

【Spark】TF-IDF

NLP ----- TF-IDF

TF-IDF算法

TF-IDF（2）

【tf-idf】理解

【346】TF-IDF

TF-IDF学习

TF-IDF的原理

tf-idf使用

TF-IDF & CNN

TF-IDF笔记

详解TF-IDF

TF, IDF和TF-IDF

TF-IDF及其算法

TF-IDF原理及使用

Tf-Idf的python实现

TF-IDF（附代码）

TF-IDF算法详解

特征抽取 — TF-IDF

TF-IDF的算法原理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)