目标检测算法之HOG特征

HOG特征，即方向梯度直方图（Histogram of Oriented Gradient, HOG），是计算机视觉领域中用于目标检测的一种特征描述子。其通过计算图像部分区域的梯度信息，并进行统计梯度信息的直方图来构成特征向量。通常地，将HOG所提取到的特征向量喂入预训练好的SVM分类器，可实现图像识别的功能。HOG+SVM的思路在2005年CVPR上提出，在行人识别检测上表现出了很好的效果。

HOG特征核心思想

基于梯度：HOG特征用于目标检测，为了找到局部目标，寻找其轮廓是可行且必要的方法。一般来说，在物体的边缘部分才有比较明显的梯度（背景或物体内部色彩变化不明显，因此梯度也不明显），所以物体的表象与形状可以较好的被梯度描述。
特征描述子：特征描述子是一种图像特征的表示。在HOG里面，它可以将原来尺寸大小为 $w*h$ 的图像转化成为一个长度为n的向量，以此来保留原始图像中重要的信息（梯度），并且过滤掉一些不相关的信息（如背景）。例如在OpenCV的API中，一副64*128大小的图像，经过转化后变成一个长度为3780的向量（下文会有详细分析）
划分区域cell：将一副图像划分成若干个连通的小区域（一般为正方形），这些小区域成为细胞单元(cell)。一个cell中包含若干个像素点，如8*8。计算这个cell中每个像素点所对应的梯度，并构成方向梯度直方图，将每一个cell得到的直方图结合起来，即可得到特征描述器。
更大的区域block：为了消除光照和阴影对于图像的影响，需要在更大的区域内，对这些cell对应的直方图进行对比度归一化。

实现步骤

图像灰度化：若输入的图像是RGB三通道的图像，则首先需要将其转化为灰度图。
Gamma矫正法：利用Gamma变换对 1 中得到的灰度图像进行标准化，以减少光照因素的影响。Gamma变换的公式如下：

$f(I) = I^{\gamma}$

$\gamma$ 此处可以取0.5等数值
计算每一个像素的梯度（梯度大小及方向）:通常利用[-1，0，1]算子与原图像进行卷积，得到每个像素在水平方向的梯度；同时利用 $[-1，0，1]^T$ 算子与原图像卷积，得到每个像素在竖直方向的梯度。利用两个方向的梯度的合成，得到总的梯度大小与方向，其计算公式如下：

$G_{x}(x,y) = I(x+1,y) - I(x-1,y)$

$G_{y}(x,y) = I(x,y+1) - I(x,y-1)$

其中 $G_{x}$ ， $G_{y}$ 表示原图像在水平和竖直方向上的梯度， $I$ 代表数字图像的像素值，则对于点（x，y）来说，它的梯度计算公式如下：

$G(x,y) = \sqrt{G_{x}(x,y)^2 + G_{y}(x,y)^2 }$

$\theta (x,y) = \tan ^{-1}(\frac{G_{y}(x,y) }{G_{x}(x,y)} )$

其中G表示梯度大小， $\theta$ 表示梯度的方向。

通过梯度的计算，我们不仅仅能够对于物体的边缘轮廓，纹理等特征进行捕捉，同时可以进一步减轻光照的影响。
为每个cell构建梯度直方图

细胞单元中的每一个像素点，都为某个基于方向的直方图通道投票。

假设一个cell中包含8*8个像素，则根据标号 3 中这64个像素值对应的梯度构建直方图：

一般地，我们把直方图划分为9项（0-8），称之为9个bin，对应了9个梯度的方向区间。在每个像素的梯度中，梯度方向 $\theta$ 的取值为 $[-180,180]$ 。对于0-180度的梯度来说，将180度平分为9个区域（bin），即每个bin对应20度。因此，如果在这个cell中，有一个像素的梯度在20-40度之间，则直方图上对应标号为1的bin被投票，其数目就+1（先这么认为）；同样的，如果有一个像素值在100-120度之间，则直方图上标号为5的bin的数值+1。

那么梯度的方向用到了，梯度的大小怎么使用呢？其实我们发现，在找到梯度所对应的bin标号之后，加的这个数应该与梯度的的大小相关（不是简单的+1）。例如有个像素梯度方向为45度，大小为3。那么，应该在标号2上面+3。（也有说法是45度与40度相差5度，与60度相差15度，因此按照1:3的比例将梯度大小3加到对应的bin上面，感觉大同小异）

类似的，对于梯度方向为-180 - 0的部分，先将其+180度以后，与正梯度方向同样计算。

总结一下，就是对于每个8*8的cell，通过每个像素的梯度方向及大小进行直方图的构建。梯度方向决定了该像素为哪一个bin投票，而梯度的大小代表着投票权重的大小。
将cell组合成更大的块(block)，进行块内归一化：

为了进一步减轻光照对于梯度特征的影响，应当进行块内归一化操作。

我们之前设定的cell的大小为 $8*8$ ，在这里，假设一个block的大小为16*16。因此一个block包含 $2*2$ 个cell。一个cell对应的特征是9维的，因此将一个块中的4个cell所对应的直方图串联起来，得到一个block对应的特征是36维。此时对于梯度强度做归一化处理，得到的向量成为HOG描述符。
关于HOG特征向量的维度

对于一个128*64大小的图像，假设cell的大小为 $8*8$ ，block的大小为 $16*16$ ，梯度被平均分为9个bin，窗口每次滑动的步长为8个像素值。那么横向滑动中，总共有 $1+(64-16)/8 = 7$ 个窗口；在纵向滑动中，总共有 $1+(128-16)/8 = 15$ 个窗口。对于每个cell，其特征向量对应9维；而对于每个cell，其HOG特征对应 $9*4=36维$ ；对于要检测的整张图像来说，其HOG特征的维度为 $36*7*15 = 3780$
通过以上六步的变换，我们从一张 $128*64*3$ （3表示channel）的图像中，提取到了一个3780维的向量。随后将该向量投入到与训练好的分类起（如SVM）中，就可以目标检测了。

总结

本文简单介绍了HOG特征的基本原理。目前还处于学习阶段，如有不当的地方，欢迎一起讨论交流～

参考网站：

https://blog.csdn.net/liulina603/article/details/8291093

https://blog.csdn.net/chaipp0607/article/details/70888899

sunnyrain_0911

发布了34 篇原创文章 · 获赞 80 · 访问量 2035

私信关注

目标检测算法之HOG特征

HOG特征核心思想

实现步骤

总结

猜你喜欢