传统提取图片特征的方式:颜色直方图、方向梯度直方图、词袋

对图片做线性分类,最直观的做法是,将图像中的原始像素之间传入线性分类器。由于多模态等原因,直接传入分类器效果不太好。所以,在深度神经网络得到大规模应用之前,通常使用两步走策略:

1.拿到图片,计算图片的各种特征代表。

2.将不同的特征向量融合到一起,得到图像的特征表述。然后,将图像的特征表述传入线性分类器。

下面简要介绍传统提取图片特征的方式,包括颜色直方图、方向梯度直方图、词袋等。

 

颜色直方图

获取每个像素值对应的光谱,把它划分到柱状图中,将每一个像素都映射到这些柱状里。然后计算出每一个不同柱状中像素点出现的频次。这个从全局上告诉我们图像中有哪些颜色。

 

方向梯度直方图

人类视觉系统中,有向边缘非常重要。而特征表示的有向梯度直方图尝试获取同样的感觉,并且测量图像中边缘的局部方向。具体做法:先获取图像,然后将图像按八个像素区分为八份。然后再八个像素区的每一个部分,计算每个像素值的主要边缘方向。把这些边缘方向量化到几个组。然后在每一个区域内,计算不同的边缘方向,从而得到一个直方图。现在的图像特征,就是这些不同组的边缘方向直方图。这个直方图是从图像的八个区域得来。可以看出图像中有哪些不同类型的边缘。即使是图像的不同部分、不同区域内存在着哪些类型的边缘都可以知道。

 

词袋(Bag of words)

从自然语言处理中获得的灵感。如果你得到一句话,用一个特征向量表示这段话的一个方法是,计算不同词在这段话中出现的次数。我们想得到这种直觉,并以某种方式应用于图像。如何将文字的方法应用于词典呢?即得到自己的视觉单词字典。

首先,准备一个图像集,从这些图像中进行小的随机块的采样,然后使用K均值等方法将它们聚合成簇,从而得到不同的簇中心。这些簇中心可能代表了图像中视觉单词的不同类型。经过聚类操作以后,视觉单词获取了不同的颜色,如红、黄、蓝。一旦获得一系列的视觉单词,就可以利用这些单词,来给图像进行编码,计算图像中的视觉单词出现的次数。

猜你喜欢

转载自blog.csdn.net/u013250416/article/details/81429875