TF-IDF词频逆文档频率算法 - 代码天地

TF-IDF词频逆文档频率算法

其他 2019-05-28 19:24:48 阅读次数: 0

一.简介

　　1.RF-IDF【term frequency-inverse document frequency】是一种用于检索与探究的常用加权技术。

　　2.TF-IDF是一种统计方法，用于评估一个词对于一个文件集或一个语料库中的其中一个文件的重要程度。

　　3.词的重要性随着它在文件中出现的次数的增加而增加，但同时也会随着它在语料库中出现的频率的升高而降低。

二.词频

　　指的是某一个给定的词语在一份给定的文件中出现的次数。这个数字通常会被归一化，以防止它偏向长的文件【同一个词语在文件里可能会比短文件有更高的词频，而不管该词重要与否】。

　　公式：

　　　　

　　ni,j:是该词在文件dj中出现的次数，而分母则是在文件dj中所有词出现的次数之和。

三.逆文档频率

　　是一个词普遍重要性的度量。某一个特定词的IDF可以由总文件数目除以包含该词语的文件数据，再将得到的商取对数得到。

　　公式：

　　　　

　　|D|：语料库中的文件总数

扫描二维码关注公众号，回复： 6294723 查看本文章

　　|{j:ti€dj}|:包含ti的文件总数

四.TF-IDF

　　公式：TF-IDF = TF * IDF

　　特点：某一特定文件内的高频率词语，以及该词语在整个语料库中的低文件频率，可以产生高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

　　思想：如果某个词或短语在一篇文章中出现的频率TF高，并且在其它文章中很少出现，则认为此词或短语具有很好的类别区分能力，适合用来分类。

五.代码实现

　　未完待续。。。

猜你喜欢

转载自www.cnblogs.com/yszd/p/10939583.html

词频-逆文档频率（TF-IDF）

TF-IDF词频逆文档频率算法

TF-IDF（词频-逆文档频率）介绍

TF-IDF(词频-逆文件频率)

TF-IDF 词频-逆文档频率 JAVA实现源码分析

文本表示方法--词频-逆文件频率(TF-IDF)

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)

我与语言处理 - [Today is TF-IDF] - [词频-逆文件频率]

机器学习_TF-IDF逆文本频率指数

【数据分析学习笔记day30】自然语言处理NLTK+文本相似度和分类 +文本相似度案例+文本分类+ TF-IDF +（词频-逆文档频率）+ 案例

TF-IDF算法

TF-IDF(term frequency词频)

TF-IDF及其算法

TF-IDF算法详解

TF-IDF的算法原理

浅析TF-IDF算法

数学与算法《TF-IDF》

阅读——TF-IDF算法

什么是 TF-IDF 算法？

机器学习(十四)TF-IDF算法

TF-IDF算法解析与Python实现

TF-IDF算法java实现【转载】

python实现TF-IDF算法

TF-IDF算法介绍及实现

TF-IDF算法-golang实现

TF-IDF算法简析

常用算法实现（一）——TF-IDF

简单理解TF-IDF算法

TF-IDF 算法详解及 Python 实现

[nlp] TF-IDF算法介绍

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)