什么是TF-IDF模型？ - 代码天地

什么是TF-IDF模型？

其他 2021-03-21 08:12:00 阅读次数: 0

F-IDF模型（term frequency–inverse document frequency，词频与逆向文件频率）。TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库的重要程度。TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的词频高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF-IDF有两个值，一个是词频率，另一个是IDF（inverse document frequency，逆向文件频率）。如图中的计算方式。

举个例子，库中10000篇文档，10000篇提到“母牛”，其中10篇提到“产奶量”，比如一篇关于“母牛的产奶量”的文字，这篇文章有100个词，“母牛”出现5次，“产奶量”出现2次)。

通过计算发现，虽然“母牛”的词频率很高，但IDF值很低，最后“母牛”的TF-IDF很低，也就是说这个词不具太大的标识度。而“产奶量”这个词的词频率不高，但它的辨识度很高，最终它的TF-IDF也很高。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_47542175/article/details/114735529

什么是TF-IDF模型？

什么是 TF-IDF 算法？

词袋模型与TF-IDF模型

[转载]TF-IDF模型的概率解释

TF-IDF模型的概率解释[转]

词袋和 TF-IDF 模型

知识点滴 - 什么是TF-IDF

TF-IDF

【TF-IDF介绍】

tf-idf原理

tf-idf的问题

tf-idf相关

TF-IDF（转）

TF-IDF介绍

TF-IDF小记

python TF-IDF

tf-idf sklearn

【Spark】TF-IDF

NLP ----- TF-IDF

TF-IDF算法

TF-IDF（2）

【tf-idf】理解

【346】TF-IDF

TF-IDF学习

TF-IDF的原理

tf-idf使用

TF-IDF & CNN

TF-IDF笔记

详解TF-IDF

TF, IDF和TF-IDF

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)