tf-idf原理 - 代码天地

tf-idf原理

编程语言 2018-05-12 13:17:57 阅读次数: 2

从例子上理解比较简单：
词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

tf-idf 模型
当前，真正在搜索引擎等实际应用中广泛使用的是 tf-idf 模型。tf-idf 模型的主要思想是：如果词w在一篇文档d中出现的频率高，并且在其他文档中很少出现，则认为词w具有很好的区分能力，适合用来把文章d和其他文章区分开来。[3]

信息检索的概率视角
直观上看，tf 描述的是文档中词出现的频率；而 idf 是和词出现文档数相关的权重。我们比较容易定性地理解 tf-idf 的基本思想，但具体到 tf-idf 的一些细节却并不是那么容易说清楚为什么。[3]

猜你喜欢

转载自everlasting-188.iteye.com/blog/1946086

tf-idf原理

TF-IDF的原理

TF-IDF原理及使用

TF-IDF的算法原理

TF-IDF的原理概述

TF-IDF基本原理

TF-IDF原理及sklearn调用

TF-IDF原理及其python实现

NLP探究TF-IDF的原理

TF-IDF原理及spark使用

TF-IDF 原理及sklearn中的tf-idf实例分析

TF-IDF

【TF-IDF介绍】

tf-idf的问题

tf-idf相关

TF-IDF（转）

TF-IDF介绍

TF-IDF小记

python TF-IDF

tf-idf sklearn

【Spark】TF-IDF

NLP ----- TF-IDF

TF-IDF算法

TF-IDF（2）

【tf-idf】理解

【346】TF-IDF

TF-IDF学习

tf-idf使用

TF-IDF & CNN

TF-IDF笔记

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)