NLP之TF-IDF与BM25

其他 2019-08-04 15:24:43 阅读次数: 0

一术语

TF: Term Frequency,词频；衡量某个指定的词语在某份【文档】中出现的【频率】
IDF: Inverse Document Frequency,逆文档频率；一个词语【普遍重要性】的度量。

二 TD-IDF

传统的TD-IDF
- 词汇word的词频(TF)值
  \[ TF Score = \frac{ 指定词汇word在第i份文档documents[i]中出现的次数 }{ 文档的长度 } \]
- 词汇word的逆文档频率(IDF)值
  \[ IDF Score = log( \frac{ 文档集documents的总数 }{ 指定词word在文档集documents中出现过的文档总数 } ) \]
- 词汇word与某份文档documents[j]的关联度得分(TF-IDF)
  \[ TF-IDF(word | docuements ) = Similarity(word | documents ) \]
  \[ Similarity(word | documents ) = TF Score*IDF Score \]
- 短语sentence与某份文档documents[j]的关联度得分(TF-IDF)
  \[ sentence = [word1,word2,...,wordi,...,wordn] \]
  \[ TF-IDF_{_{sentence}}(word | docuements ) = TF-IDF_{_{word1}} + TF-IDF_{_{word2}} + ... + TF-IDF_{_{wordi}} + ... + TF-IDF_{_{wordn}} \]
早期Lucence版的TF-IDF
\[ TF-IDF(word | docuements ) = Similarity(word | documents ) \]
\[ Similarity(word | documents ) = log( \frac{ 文档集documents的总数 }{ 指定词word在文档集documents中出现过的文档总数 + 1 })*sqrt(TF Score) * (\frac{1}{sqrt(文档documents[j]的长度)}) \]

log(numDocs / (docFreq + 1)) * sqrt(tf) * (1/sqrt(length)) $$

三参考文献

[1] 搜索中的权重度量利器: TF-IDF和BM25

猜你喜欢

转载自www.cnblogs.com/johnnyzen/p/11298273.html

NLP之TF-IDF与BM25

深入理解TF-IDF、BM25算法与BM25变种：揭秘信息检索的核心原理与应用

搜索中的权重度量利器: TF-IDF和BM25

nlp之TF-IDF

NLP ----- TF-IDF

ElasticSearch IDF BM25 函数图像

NLP相似度之tf-idf计算

NLP探究TF-IDF的原理

[nlp] TF-IDF算法介绍

BM25算法

学习笔记--NLP文本相似度之TF-IDF

【NLP】【三】jieba源码分析之关键字提取（TF-IDF/TextRank）

机器学习之TF-IDF介绍

机器学习之TF-IDF

TensorFlow与NLP（TF-IDF：垃圾短信检测）

NLP文本相似度(TF-IDF)

NLP入门（二）探究TF-IDF的原理

【NLP】英文数据预处理___Gensim(tf-idf LDA)

NLP（三）TF-IDF的原理和实践

lucene BM25 实例

BM25算法详解

TF-IDF

【TF-IDF介绍】

tf-idf原理

tf-idf的问题

tf-idf相关

TF-IDF（转）

TF-IDF介绍

TF-IDF小记

python TF-IDF

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)