探讨基于深度学习的行人检测算法

本文针对现有的浅层行人分类方法对训练样本数量和行人特征描述要求过高等问题，提出一种基于深度学习思想的行人检测算法。首先对传统的深信度网络算法加以改进，在输入端引入一种带T分布函数显层节点RBM，实现行人特征数据的伯努利转换。其次搭建多隐层 RBM 结构，实现特征数据在隐层结构的相互转换，保留关键识别信息。最后利用BP神经网络搭建深信度网络的输出端，通过BP 网络的反向传播性能，将识别误差反向传播，作为微调分类结构的重要依据，不断优化分类器结构。通过实验可以得出，本文提出的行人分类算法需要的训练样本较传统的浅层学习算法少且分类性能优于经典浅层分类算法，同时，算法的检测速度也能满足使用要求。

基于视频的行人检测是计算机视觉及智能交通领域的一个热点研究方向，该研究旨在实时、准确、自动地获取监控范围内的行人信息，为后续的行人行为分析、行人安全保护及行人数量统计等研究提供有力的信息支持。目前，基于机器学习的行人检测方法是该领域的主流研究方向，该思想通过建立合适的行人特征提取模型，并构建功能强大的特征分类器，实现行人的识别和检测。研究证明，机器学习可以有效地克服行人服饰和姿势的多样性为自动检测和识别带来的困难，是解决非刚体检测较为有效的途径之一。当前基于机器学习的行人检测方法中，特征分类器的设计与实现大多使用浅层学习结构算法，比较有代表性的为 SVM 和 Ada Boost 等算法及其变形体。浅层学习分类算法的输入和输出端之间，由于仅具有一层转换结构，故其具有易于搭建、转换算法简单等优点，吸引众多学者对其进行研究，极大地推动了行人检测领域的发展。但同时该方法也存在所需训练样本数量较大、拟合复杂函数能力较弱等不足。而且，浅层结构对较为复杂的特征信号转换能力不强，对行人特征的提取模型标志精度和鲁棒性均要求较高，这些都制约了浅层学习在行人检测领域中的进一步发展

为解决上述问题，部分学者提出深度学习的概念，即利用多层非线性映射网络组成分类器实现数据学习和特征识别。该结构具有较为强大的特征表达能力，且具备较为强大的小样本学习能力，在人脸识别、语音识别等领域中取得较好的实验效果

不同于浅层学习分类算法，深度学习分类算法具有更好的逼近复杂函数的能力，该类算法一般包含多隐层结构以实现特征算法的逐层转换，保留最有效的信息部位。2006年以Hinton 为代表的学者们提出一种基于深信度网络( DBN) 的深度学习算法，该方法利用多层受限波兹曼机搭建学习模型，通过迭代网络权重值的调整和更改优化深层结构并逃离局部最小，实现训练的整体最优。DBN 算法因解决深度学习中困扰已久的局部最小问题引起相关学者的重视和关注，并成功应用于多种图像和语音识别领域。然而，由于利用深信度网络实现特征分类时，输入一般为二值向量信息，而行人检测领域中，行人特征值信息的数值属性为连续整数或实数值。所以，直接使用DBN 算法实现行人特征分类和识别势必会造成信息数据的丢失而影响分类效果。对深信度网络深度学习算法进行改进，通过引入带T 分布函数显层节点的输入层使其能够更好地处理行人特征信息，进而通过网络预训练和网络微调实现信息分类和行人识别。

基于所提出的改进的深信度网络搭建行人特征识别分类器，对视频图像进行去阴影等预处理之后，建立面向行人特征识别的深信度网络分类器，并对分类器进行训练。训练过程包含两个关键步骤: a) 使用行人正负样本集训练带 T分布函数显层节点的RBM和其他传统的RBM，使行人特征数据能顺利转换为分类器可以识别的伯努利数据; b) 根据预训练结果，对分类器结构和参数进行反向微调。

为了验证本文提出的基于带 T分布函数显层节点的深信度网络行人检测算法的检测性能，进行如下实验:a) 设计行人检测系统框架，选择开源行人样本集库中的部分图片作为本次实验的训练和检测样本;b) 在同一行人检测系统和行人特征提取算法条件下，将深信度网络行人样本分类算法和其他经典的浅层分类算法相比较，验证深度学习算法的可行性和优越性; c) 分析和总结实验结果。

实验样本集主要来自开源行人样本集库Daimler，另有部分图片为自行采集和拍摄，经过处理后与Daimler样本库中的图片格式相一致。为了训练分类器和检验分类效果，将实验样本集分为训练样本集和测试样本集。本实验共选取训练样本图片6474幅，样本图片数量约为训练类似浅层分类器所需数量的一半，其中，选取训练正样本行人图片集2236幅，负样本非行人图片集4238幅，用于训练深信度网络行人分类器; 同时从实验样本集中选取测试正样本行人图片集1233幅，负样本非行人图片集2489幅，用于验证分类器的分类识别效果。

下图为本实验设计和搭建的行人检测系统框架示意图。为了提高系统的检测效率，该系统采用离线训练和在线检测相结合的方式。由于训练分类器时对硬件性能要求较高，且非常耗时，故在系统实际检测行人的前期，对分类器进行离线训练，使用特征级和训练样本集优化深信度网络行人分类器的结构。完成此步骤以后，利用离线训练成熟的分类器进行在线检测。该方案设计可以提高在线检测的实时性，且不影响系统的其他性能。

现有的深信度网络分类器多采用高斯( 显层) —伯努利( 隐层) RBM实现语音、图像等数据的分类识别。在数据转换的过程中，高斯分布的带宽及分布形状相对固定，不利于拟合类似行人这样的非刚性物体所呈现的图像数据，本文提出利用T分布函数作为显层结构拟合行人特征分布区间，主要考虑T分布带宽及分布形状的灵活可调性，相对于传统的高斯分布，其具备更好的拟合效果。通过实验对传统的高斯 ( 显层) —伯努利( 隐层)RBM和本文提出的带T 分布( 显层) —伯努利( 隐层) 的RBM检测结果加以对比，并对本文所提出算法的检测性能进行分析和评估。

探讨基于深度学习的行人检测算法

猜你喜欢