Características y métodos de detección de peatones en el sistema de detección de peatones

http://blog.csdn.net/perry_pku/article/details/52370519

1. Características de los peatones

Los descriptores de características para peatones se pueden dividir en tres categorías: características de bajo nivel, características híbridas y características basadas en el aprendizaje. Las características subyacentes se refieren a características básicas de la imagen como el color, la textura y el degradado. Estas características únicas se pueden calcular rápidamente y se pueden calcular rápidamente utilizando tecnología gráfica integral, pero solo desde un cierto aspecto, como gradiente o textura, para describir características peatonales, y la discriminación es pobre. Las características híbridas se refieren a la fusión de múltiples características subyacentes o características estadísticas de alto orden de las características subyacentes. Esta característica puede describir características de la imagen desde diferentes lados y mejorar la precisión de la detección. Sin embargo, a medida que aumenta la dimensionalidad de la característica, el tiempo de cálculo de la característica y el tiempo de detección del clasificador también aumentan, lo que afecta el rendimiento en tiempo real. En la actualidad, las características basadas en el aprendizaje generalmente se refieren a las características que la red neuronal aprende directamente de la imagen original. Esta función puede aprender características con gran capacidad de juicio a partir de una gran cantidad de muestras. Funciona muy bien en la detección de peatones, pero su cálculo se basa en hardware de alto rendimiento y está estrechamente relacionado con las muestras de entrenamiento. Si las muestras no son representativas, Es difícil aprender buenas características.

Las características subyacentes para la detección de peatones incluyen principalmente Haar, HOG, LUV, LBP, etc. VJ aplica las características de Haar a la detección de rostros, y en la figura se muestra una representación simple de sus características. Cada valor de característica corresponde al resultado del cálculo de un bloque de área rectangular en la figura, que se obtiene restando la suma de la parte negra del píxel de la parte blanca del píxel en el cálculo. Al calcular el mismo bloque de área, diferentes métodos de cálculo obtendrán diferentes valores característicos del mismo bloque de área.


La característica HOG [2] propuesta por Dalal et al., Es actualmente el descriptor de característica única más efectivo para peatones. HOG describe la amplitud del gradiente local y las características de dirección de la imagen. Según las características del gradiente, el vector de características del bloque se normaliza, lo que permite que los bloques se superpongan entre sí, por lo que no es sensible a la pequeña compensación del cambio de iluminación. Retrata con eficacia las características del borde del cuerpo humano. Las desventajas de HOG en particular: alta dimensionalidad y cálculo lento. En respuesta a estas deficiencias, Zhu et al. [3] permitieron tamaños de bloques variables en HOG, utilizaron tecnología de histograma integral para calcular rápidamente las características de HOG, seleccionaron bloques con una fuerte capacidad discriminativa a través del algoritmo Adaboost y luego construyeron un clasificador en cascada. La detección de este método La velocidad es casi 70 veces más rápida que la de Dalal et al. Wojek et al. [4] utilizaron tecnología paralela para implementar HOG en GPU y construyeron un sistema de detección de peatones en tiempo real.

LBP fue propuesto por primera vez por Ojala et al. [5] como un método de extracción de características para la clasificación de texturas, que fue ampliamente utilizado en el reconocimiento facial. Mu et al. [6] propusieron dos variantes de LBP basadas en las características de los peatones: Semantic-LBP (S-LBP) y Fourier LBP (F-LBP). Wang et al. [7] simplemente concatenaron las características del histograma LBP de bloques de imágenes locales como un descriptor de características de peatones, y su rendimiento de detección no es peor que S-LBP, pero los experimentos de Walk et al. [8] en otros conjuntos de datos de peatones muestran que La combinación de características HOG y LBP no mejora la detectabilidad. La razón es que LBP no puede describir de manera efectiva las características de la textura cuando la imagen es borrosa o la luz cambia fuertemente y las condiciones de imagen son malas. Similar a la característica LBP, la característica CENTRIST propuesta por Wu et al. [9], a saber, CENsus TRansformhISTogram. Esta función puede describir la información global de la escena y se utilizó por primera vez en la clasificación de escenas. En 2011, Wu y otros aplicaron CENTRIST en la detección de peatones [10], utilizando tecnología gráfica integral para calcular rápidamente esta característica, y combinada con el clasificador en cascada para construir un sistema de detección de peatones en tiempo real.

Las características de color, como LUV, son las características de imagen más básicas y se ven afectadas fácilmente por la luz. No son adecuadas como descriptores de características para peatones. Sin embargo, debido a que la estructura del cuerpo humano es relativamente estable, la diferencia de color entre las diferentes partes es pequeña, así que Camine [11] propuso características auto-similares de color para caracterizar la relación entre características de bloques locales, combinadas con características HOG, mejorando enormemente el rendimiento de detección.

La característica de canal integral propuesta por Dollar et al. [12] es una característica híbrida típica. Utiliza tecnología gráfica integral para calcular rápidamente los distintos canales de características de la imagen, como la suma local, el histograma de la dirección del gradiente y la característica Haar. Este método no solo combina orgánicamente múltiples características, sino que también resuelve la lenta velocidad de cálculo de la fusión de múltiples características. En 2014, Dollar et al. Propusieron un método para construir una pirámide de características que agregue características multicanal utilizando cálculos aproximados [13]. Las características mixtas utilizadas en este método incluyen características de color LUV, histogramas de magnitud y dirección de gradiente, y la relación potencia-exponencial entre la relación de características y la relación de tamaño entre tamaños adyacentes se utiliza para aproximar las características de varios tamaños de la imagen para construir una pirámide de características.

基于学习的特征一般是神经网络的特征,如使用卷积神经网络提取的特征。卷积神经元每一个隐藏层的单元提取图像的局部特征,将其映射成一个平面,特征映射函数采用sigmoid函数作为卷积网络的激活函数,使得特征映射具有平移不变性。每个神经元与前一层的局部感受野相连。卷积神经网络通过局部感受野,共享权值和亚采样来保证图像对位移、缩放和扭曲的鲁棒性。

2.行人检测典型方法

目前用于行人检测的方法大致可以分为两类:手工设计模型和深度学习模型。手工设计模型使用人工设计的特征,如HOG,LBP等以及它们之间的组合,分类器一般采用SVM或增强学习等。深度学习模型使用卷积和池化操作从原始图像中提取卷积特征,并使用全连接层作为行人分类器。

手工设计模型又称为传统方法。VJ等[1]采用Adaboost和多尺度Haar小波过完备基结合的方式进行行人检测,并利用用积分图来完达到快速特征计算的目的。Dalal等[2]提出了HOG特征用于行人的特征描述,并通过实验证明HOG比基于灰度的特征更富有信息,同时利用线性SVM作为分类器。这种方法是速度和效果综合平衡性能较好的一种行人检测算法,后来很多种改进的算法都是以该算法作为基本框架。因此HOG+SVM作为一个里程碑式的算法被写入到OpenCV中。2007年,PedroFelzenszwalb等提出了DPM[14]的模型,其大体思路与HOG一致,首先计算梯度方向直方图,然后使用SVM训练得到物体的梯度模型。为了适应物体的运动和变形,加入子模型检测物体的子部件,这种方法取得了很好的检测效果,连续获得VOC 07,08,09年的检测冠军。Dollar等首次使用了融合多种通道的特征[12],采用局部和,梯度方向直方图和哈尔作为行人的特征描述子,并且借助于积分图来快速地计算,分类器采用AdaBoost。并且通过实验证明多种通道特征比单一HOG特征具有更好的性能。2014年Dollar等又提出快速构建特征金字塔的方法[13],使用了LUV颜色特征、梯度幅值和梯度方向直方图组成的聚合多通道特征,使用AdaBoost方法检测行人。这种方法在640×480的图片上达到每秒30帧的检测速度,基本接近实时检测。

深度学习模型模拟了人脑的视觉感知系统,从原始图片中直接提取特征,特征通过逐层传递,,获得图片的高维信息,使得其在计算机视觉领域取得了巨大的成功。随着深度神经网络日趋火热,深度学习模型也被大量的应用于行人检测中。Ouyang等[15]使用深度模型从图片中提取特征,通过网络学习人体子部件的可见性处理行人检测中的遮挡问题。Sermanet等[16]利用卷积稀疏编码非监督训练卷积神经网络,并将其应用于行人检测。Tian等[17]通过对行人的标注加入语义信息如背包,骑车等来训练网络,取得良好的效果。

[1] P. Viola, M. J. Jones, and D.Snow, “Detecting pedestrians using patterns of motion and appearance,” IJCV,vol. 63, no. 2, pp. 153–161, 2005.

[2]N. Dalal, and B. Triggs, “Histograms of oriented gradients for human detection,”in CVPR, 2005, pp. 886- 893.

[3]Q. Zhu, C. Yeh, and T. Cheng, “Fast human detection using a cascade of histogramsof oriented gradients,” in CVPR , 2006, pp. 1491- 1498.

[4]C. Wojek, and B. Schiele, “A performance evaluation of single and mult- ifeature people detection,” in DAGM, 2008.

[5]T. Ojala, M. Pietikainen, and D. Harwood, “A comparative study of texturemeasures with classification based on feature distributeons,” PatternRecognition, 1996, vol. 19, no. 3, pp. 51- 59.

[6]Y. Mu, S. Yan, and Y. Liu, “Discriminative local binary patterns for pedestriandetection in personal album,” in CVPR, 2008.

[7]X. Wang, X. Han, and S. Yan, “A HOG - LBP human detector with partial occlusionhandling,” in ICCV, 2009.

[8]S. Walk, N. Majer, and K. Schindler, “New features and insights for pedestriandetection,” in CVPR, 2010.

[9]J. Wu, and J. Rehg, “CENTRIST: A visual descriptor for scene categorization,” PAMI,vol. 33, no. 8, pp. 1489- 1501, 2011.

[10]J. Wu, C. Geyer, and J. Rehg, “Rea- l time human detection using contour cues,”in ICRA, 2011, pp. 860- 867.

[11]S. Walk, N. Majer, and K. Schindler, “New features and insights for pedestriandetection,” in CVPR, 2010.

[12]P. Dollar, Z. Tu, and P. Perona, “Integral channel features,” in BMVC, 2009, pp.1-11.

[13]P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast feature pyramids forobject detection,” PAMI, vol. 36, no. 8, pp. 1532–1545, 2014.

[14]P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, ”Objectdetection with discriminatively trained part-based models,” PAMI, vol. 32, no.9, pp. 1627–1645, 2010.

[15]W. Ouyang and X. Wang, “A discriminative deep model for pedestrian detectionwith occlusion handling,” in CVPR, 2012, pp. 3258–3265.

[16]W. Ouyang and X. Wang, “A discriminative deep model for pedestrian detectionwith occlusion handling,” in CVPR, 2012, pp. 3258–3265.

[17] Y. Tian, P. Luo, X. Wang, and X. Tang,“Pedestrian detection aided by deep learning semantic tasks,” in CVPR, 2015,pp. 5079–5087.

Supongo que te gusta

Origin blog.csdn.net/kerwinJu/article/details/52787105
Recomendado
Clasificación