词袋模型基本原理（Bag of words） - 代码天地

词袋模型基本原理（Bag of words）

编程语言 2019-04-30 00:41:35 阅读次数: 0

最初的Bag of words，也叫做“词袋”，在信息检索中，Bag of words model假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

现在Computer Vision中的Bag of words来表示图像的特征描述也是很流行的。大体思想是这样的，假设有5类图像，每一类中有10幅图像，这样首先对每一幅图像划分成patch（可以是刚性分割也可以是像SIFT基于关键点检测的），这样，每一个图像就由很多个patch表示，每一个patch用一个特征向量来表示，咱就假设用Sift表示的，一幅图像可能会有成百上千个patch，每一个patch特征向量的维数128。
接下来就要进行构建Bag of words模型了，假设Dictionary词典的Size为100，即有100个词。那么咱们可以用K-means算法对所有的patch进行聚类，k=100，我们知道，等k-means收敛时，我们也得到了每一个cluster最后的质心，那么这100个质心（维数128）就是词典里德100 个词了，词典构建完毕。
词典构建完了怎么用呢？是这样的，先初始化一个100个bin的初始值为0的直方图h。每一幅图像不是有很多patch么？我们就再次计算这些patch和和每一个质心的距离，看看每一个patch离哪一个质心最近，那么直方图h中相对应的bin就加1，然后计算完这幅图像所有的 patches之后，就得到了一个bin=100的直方图，然后进行归一化，用这个100维的向量来表示这幅图像。对所有图像计算完成之后，就可以进行分类聚类训练预测之类的了。

来源：https://blog.csdn.net/yudingjun0611/article/details/7605404

猜你喜欢

转载自blog.csdn.net/qq_40374604/article/details/89680872

Bag-of-words 词袋模型基本原理

词袋模型基本原理（Bag of words）

词袋模型（Bag of Words）

NLP | 词袋模型 Bag of words model

【转载】-Bag of Words(词袋模型)

BoW - Bag of Words - 词袋模型

Bag-of-words-词袋

文本离散表示（一）：词袋模型（bag of words）

词袋模型（BOW，bag of words）和词向量模型（Word Embedding）概念介绍

Bag of visual words(Bag of Words(BOW)模型)

基于词袋模型（bag-of-words）的图像识别分类

Bag of Words(BOW)模型

词袋BOW（bag of words）及matlab编程实现

bag of visual words(BoVW)视觉词袋个人理解

CBOW模型（连续词袋模型）与Skip-Gram模型基本原理

过滤词—Filtering Words

视觉SLAM之词袋（bag of words）模型与K-means聚类算法浅析

Bag of Words Meets Bags of Popcorn(1)-Bag of Words

Words

机器学习---文本特征提取之词袋模型（Machine Learning Text Feature Extraction Bag of Words）

Bag of Words Meets Bags of Popcorn(2)-tfidf

kaggle Bag of Words Meets Bags of Popcorn

Bag of Words Meets Bigrams and Trigrams in Python for T

Words, morphology, and lexicons 词、词法和词汇

ToolGood.Words敏感词过滤组件

Bag of Words Meets Bags of Popcorn(3)-Word2Voc

Bag-of-Visual-Words SIFT 实现（matlab版本）

目标识别：Bag-of-words表示图像

bag_of_words------英文情感分类问题

[CS131] Lecture 14 Visual Bag of Words

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)