传统提取图片特征的方式：颜色直方图、方向梯度直方图、词袋

对图片做线性分类，最直观的做法是，将图像中的原始像素之间传入线性分类器。由于多模态等原因，直接传入分类器效果不太好。所以，在深度神经网络得到大规模应用之前，通常使用两步走策略：

1.拿到图片，计算图片的各种特征代表。

2.将不同的特征向量融合到一起，得到图像的特征表述。然后，将图像的特征表述传入线性分类器。

下面简要介绍传统提取图片特征的方式，包括颜色直方图、方向梯度直方图、词袋等。

颜色直方图

获取每个像素值对应的光谱，把它划分到柱状图中，将每一个像素都映射到这些柱状里。然后计算出每一个不同柱状中像素点出现的频次。这个从全局上告诉我们图像中有哪些颜色。

方向梯度直方图

人类视觉系统中，有向边缘非常重要。而特征表示的有向梯度直方图尝试获取同样的感觉，并且测量图像中边缘的局部方向。具体做法：先获取图像，然后将图像按八个像素区分为八份。然后再八个像素区的每一个部分，计算每个像素值的主要边缘方向。把这些边缘方向量化到几个组。然后在每一个区域内，计算不同的边缘方向，从而得到一个直方图。现在的图像特征，就是这些不同组的边缘方向直方图。这个直方图是从图像的八个区域得来。可以看出图像中有哪些不同类型的边缘。即使是图像的不同部分、不同区域内存在着哪些类型的边缘都可以知道。

词袋（Bag of words）

从自然语言处理中获得的灵感。如果你得到一句话，用一个特征向量表示这段话的一个方法是，计算不同词在这段话中出现的次数。我们想得到这种直觉，并以某种方式应用于图像。如何将文字的方法应用于词典呢？即得到自己的视觉单词字典。

首先，准备一个图像集，从这些图像中进行小的随机块的采样，然后使用K均值等方法将它们聚合成簇，从而得到不同的簇中心。这些簇中心可能代表了图像中视觉单词的不同类型。经过聚类操作以后，视觉单词获取了不同的颜色，如红、黄、蓝。一旦获得一系列的视觉单词，就可以利用这些单词，来给图像进行编码，计算图像中的视觉单词出现的次数。