目标检测算法之HOG特征

      HOG特征,即方向梯度直方图(Histogram of Oriented Gradient, HOG),是计算机视觉领域中用于目标检测的一种特征描述子。其通过计算图像部分区域的梯度信息,并进行统计梯度信息的直方图来构成特征向量。通常地,将HOG所提取到的特征向量喂入预训练好的SVM分类器,可实现图像识别的功能。HOG+SVM的思路在2005年CVPR上提出,在行人识别检测上表现出了很好的效果。

HOG特征核心思想

  1. 基于梯度:HOG特征用于目标检测,为了找到局部目标,寻找其轮廓是可行且必要的方法。一般来说,在物体的边缘部分才有比较明显的梯度(背景或物体内部色彩变化不明显,因此梯度也不明显),所以物体的表象与形状可以较好的被梯度描述。

  2. 特征描述子:特征描述子是一种图像特征的表示。在HOG里面,它可以将原来尺寸大小为 w h w*h 的图像转化成为一个长度为n的向量,以此来保留原始图像中重要的信息(梯度),并且过滤掉一些不相关的信息(如背景)。例如在OpenCV的API中,一副64*128大小的图像,经过转化后变成一个长度为3780的向量(下文会有详细分析)

  3. 划分区域cell:将一副图像划分成若干个连通的小区域(一般为正方形),这些小区域成为细胞单元(cell)。一个cell中包含若干个像素点,如8*8。计算这个cell中每个像素点所对应的梯度,并构成方向梯度直方图,将每一个cell得到的直方图结合起来,即可得到特征描述器。

  4. 更大的区域block:为了消除光照和阴影对于图像的影响,需要在更大的区域内,对这些cell对应的直方图进行对比度归一化。

实现步骤

  1. 图像灰度化:若输入的图像是RGB三通道的图像,则首先需要将其转化为灰度图。

  2. Gamma矫正法:利用Gamma变换对 1 中得到的灰度图像进行标准化,以减少光照因素的影响。Gamma变换的公式如下:

    f ( I ) = I γ f(I) = I^{\gamma}

    γ \gamma 此处可以取0.5等数值

  3. 计算每一个像素的梯度(梯度大小及方向):通常利用[-1,0,1]算子与原图像进行卷积,得到每个像素在水平方向的梯度;同时利用 [ 1 0 1 ] T [-1,0,1]^T 算子与原图像卷积,得到每个像素在竖直方向的梯度。利用两个方向的梯度的合成,得到总的梯度大小与方向,其计算公式如下:

    G x ( x , y ) = I ( x + 1 , y ) I ( x 1 , y ) G_{x}(x,y) = I(x+1,y) - I(x-1,y)

    G y ( x , y ) = I ( x , y + 1 ) I ( x , y 1 ) G_{y}(x,y) = I(x,y+1) - I(x,y-1)

    其中 G x G_{x} G y G_{y} 表示原图像在水平和竖直方向上的梯度, I I 代表数字图像的像素值,则对于点(x,y)来说,它的梯度计算公式如下:

    G ( x , y ) = G x ( x , y ) 2 + G y ( x , y ) 2 G(x,y) = \sqrt{G_{x}(x,y)^2 + G_{y}(x,y)^2 }

    θ ( x , y ) = tan 1 ( G y ( x , y ) G x ( x , y ) ) \theta (x,y) = \tan ^{-1}(\frac{G_{y}(x,y) }{G_{x}(x,y)} )

    其中G表示梯度大小, θ \theta 表示梯度的方向。

    通过梯度的计算,我们不仅仅能够对于物体的边缘轮廓,纹理等特征进行捕捉,同时可以进一步减轻光照的影响。

  4. 为每个cell构建梯度直方图

    细胞单元中的每一个像素点,都为某个基于方向的直方图通道投票。

    假设一个cell中包含8*8个像素,则根据标号 3 中这64个像素值对应的梯度构建直方图:

    一个cell对应的直方图
    一般地,我们把直方图划分为9项(0-8),称之为9个bin,对应了9个梯度的方向区间。在每个像素的梯度中,梯度方向 θ \theta 的取值为 [ 180 , 180 ] [-180,180] 。对于0-180度的梯度来说,将180度平分为9个区域(bin),即每个bin对应20度。因此,如果在这个cell中,有一个像素的梯度在20-40度之间,则直方图上对应标号为1的bin被投票,其数目就+1(先这么认为);同样的,如果有一个像素值在100-120度之间,则直方图上标号为5的bin的数值+1。

    那么梯度的方向用到了,梯度的大小怎么使用呢?其实我们发现,在找到梯度所对应的bin标号之后,加的这个数应该与梯度的的大小相关(不是简单的+1)。例如有个像素梯度方向为45度,大小为3。那么,应该在标号2上面+3。(也有说法是45度与40度相差5度,与60度相差15度,因此按照1:3的比例将梯度大小3加到对应的bin上面,感觉大同小异)

    类似的,对于梯度方向为-180 - 0的部分,先将其+180度以后,与正梯度方向同样计算。

    bin与其角度对应关系
    总结一下,就是对于每个8*8的cell,通过每个像素的梯度方向及大小进行直方图的构建。梯度方向决定了该像素为哪一个bin投票,而梯度的大小代表着投票权重的大小。

  5. 将cell组合成更大的块(block),进行块内归一化:

    为了进一步减轻光照对于梯度特征的影响,应当进行块内归一化操作。

    我们之前设定的cell的大小为 8 8 8*8 ,在这里,假设一个block的大小为16*16。因此一个block包含 2 2 2*2 个cell。一个cell对应的特征是9维的,因此将一个块中的4个cell所对应的直方图串联起来,得到一个block对应的特征是36维。此时对于梯度强度做归一化处理,得到的向量成为HOG描述符。

  6. 关于HOG特征向量的维度

    对于一个128*64大小的图像,假设cell的大小为 8 8 8*8 ,block的大小为 16 16 16*16 ,梯度被平均分为9个bin,窗口每次滑动的步长为8个像素值。那么横向滑动中,总共有 1 + ( 64 16 ) / 8 = 7 1+(64-16)/8 = 7 个窗口;在纵向滑动中,总共有 1 + ( 128 16 ) / 8 = 15 1+(128-16)/8 = 15 个窗口。对于每个cell,其特征向量对应9维;而对于每个cell,其HOG特征对应 9 4 = 36 9*4=36维 ;对于要检测的整张图像来说,其HOG特征的维度为 36 7 15 = 3780 36*7*15 = 3780

  7. 通过以上六步的变换,我们从一张 128 64 3 128*64*3 (3表示channel)的图像中,提取到了一个3780维的向量。随后将该向量投入到与训练好的分类起(如SVM)中,就可以目标检测了。

总结

      本文简单介绍了HOG特征的基本原理。目前还处于学习阶段,如有不当的地方,欢迎一起讨论交流~

参考网站:

https://blog.csdn.net/liulina603/article/details/8291093

https://blog.csdn.net/chaipp0607/article/details/70888899

发布了34 篇原创文章 · 获赞 80 · 访问量 2035

猜你喜欢

转载自blog.csdn.net/jackzhang11/article/details/102610228