bag-of-word和tf-idf - 代码天地

bag-of-word和tf-idf

其他 2019-02-23 11:47:33 阅读次数: 0

Bag of words

Bag-of-words 是一种忽略文本的语法和语序的模型，用一组无序的单词（words）以及对应的特征列来表示一个文档(目前在cv领域用的多，将图像的的特征当作单词)，下面有一个具体的例子：

1）John likes to watch movies. Mary likes too.

2）John also likes to watch football games.

根据上面的文档构建一个字典：

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

然后根据上面的字典可以用向量的形式表现出两个文档：

1）[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

2）[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

2. TF-IDF

TFIDF是Term Frequency - Inverse Document Frequency的缩写，TF反应一个词在当前文档中的词频，而IDF反应一个词在所有文档出现的频率，如果一个词在所有文档中出现的频率比较高那么对应IDF值比较低

1) TF：一个词在当前文档中出现的次数比上当前文档的词汇量:

2) IDF: 文档总数N与一个词在所有文档出现的文档数相比

3) TF-IDF

猜你喜欢

转载自blog.csdn.net/GrinAndBearIt/article/details/86588866

bag-of-word和tf-idf

TF, IDF和TF-IDF

one-hot 和 TF-IDF

词袋和 TF-IDF 模型

TF-IDF

【TF-IDF介绍】

tf-idf相关

tf-idf原理

tf-idf的问题

TF-IDF（转）

TF-IDF介绍

python TF-IDF

TF-IDF小记

tf-idf sklearn

【Spark】TF-IDF

NLP ----- TF-IDF

TF-IDF算法

TF-IDF（2）

【tf-idf】理解

【346】TF-IDF

TF-IDF学习

TF-IDF的原理

tf-idf使用

TF-IDF & CNN

TF-IDF笔记

详解TF-IDF

自然语言处理之Bag-of-words，TF-IDF模型

TF-IDF及其算法

TF-IDF原理及使用

Tf-Idf的python实现

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)