RCNN网络读后感

Recurrent Convolutional Network for Video-based Person Re-Identification

16CVPR

 

基于的数据集是在iLIDS-VIDPRID-2011两个数据集上进行实验的。在PRID-2011上的精确度是70%,在iLIDS-VID上的精确度是58%。

创新点:

这是第一次将深度学习应用于基于视频的行人再识别(该文章最大的创新点)。提出了一个基于视频行人再识别的框架-RCNN。这个框架能够自己学习并提取到对于行人的时空特征。

相对于图片而言,基于视频的行人再识别的优点:

(1) 基于视频环境下是一种更加的自然的方式去实现行人再识别,通常一个摄像头捕捉到的是一个序列而不是一张静态的图片;

(2) 对于图像序列的可用性,能够捕捉到与人运动有关的时间信息,例如:步态以及衣服的移动方式,这些能够有助于消除在试图识别不同相机中的人时所出现的困难情况;

(3) 图像的序列能够提供大量人的外观信息,其中每个样本可以具有不同的姿势、角度和背景,从而允许建立一个更好的行人的外观模型。大量的样本可以帮助我们更容易、更好的去训练我们的算法,尤其是在使用神经网络时候。

基于视频的行人再识别的挑战:

处理任意长度和不同的帧速率的视频序列、在序列内给定未知部分或者全部的遮挡情况下难以去建立一个精准的外观模型、跟踪提取序列时可能出现的不准确的可能性(精准多目标跟踪器能够缓解这个问题)。

 

输入层:是光流信息和颜色通道组成的。其中颜色通道编码成行人的外貌和衣服细节,光流信息编码短期运动,可能包括步态细节或者其他的运动线索;

卷积网络:使用的是卷基层、池化层(最大池化)、使用的是tanh非线性函数。并且在卷基层和递归层使用了dropout为了防止过拟合。

递归层:深层网络的性能是由于在许多层发生的分层特征提取造成的,因此我们使用CNN在重复层之前将每个输入图像预处理为更高级的表示。为了更好地获得视频序列的时间信息特征。

池化层:

   如果不使用池化层的话:

  (1)RNN的输出可能会偏向于靠后的时间步;(2)时间序列分析通常需要在不同的时间尺度上提取信息。

   使用了池化层:

     能够去聚合所有的时间步的信息,避免了偏向于后者的时间步。目的为了捕捉到在序列中长期的信息表达,该信息结合光流输入的短期尺度和中期回归层,旨在对输入信号内的所有时间尺度的信息建模。

递归神经网络和池化层的作用:使得我们提出的网络体系结构将来自所有时间步的数据组合成整个输入序列的单个特征向量。

展望:作为未来的工作,我们计划将当前的方法与实际的多目标跟踪输出相结合。

 

猜你喜欢

转载自blog.csdn.net/weili_/article/details/79860850