Pedestrain Alignment Network for Large-scale Person Re-identification

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_39393712/article/details/86616369

Pedestrain Alignment Network for Large-scale Person Re-identification
作者:郑泽东 郑良 杨易

摘要:

行人重识别常被认为是一个图像检索问题。它的任务就是在一个大的图像池中寻找一个查询的图片。在实际过程中,行人重识别通常是用自动检测去获得修剪好的行人图片。然而,这种自动检测面临着两个问题:过多的背景和部分身体的缺失。这两种错误降低了行人对齐的质量,同时也因为位置和大小的差异影响了行人匹配。为了克服没有对齐的问题,提出一种可以从识别过程中学习的对齐网络。我们介绍一种PAN网络,能够嵌入到网络中进行学习,并且不需要额外的标注。我们观察到,当CNN进行学习时,学习到的特征图通常突出人物身体部分,而非背景。我们提出的网络就是利用这种关注机制,自适应的定位和关联BBox中的行人。形象的显示,当使用PAN网络时,行人在识别能够有更好的表现。实验用三个大规模的re-ID数据集去验证PAN网络提升特征的判别能力,并且用经典网络产生更好的效果。
关键词:行人重识别,行人搜索,行人对齐,图像检索

1、介绍:

行人重识别

2、相关工作:

工作为了强调两个任务:行人重识别和行人对齐。

2.1 人工设计系统进行重识别

行人重识别需要寻找不同摄像头之间强健的、区别度强的特征。先前的方法是提取人工设计的特征,如:LBP,Gabor,LOMO等。
马氏距离

2.2 深度学习模型进行重识别

基于CNN的深度学习模型[Krizhevsky et al., 2012]从2012年在ILSVRC‘12上以巨大的优势赢得比赛后变得十分流行。它能够端到端的提取特征和学习分类。最近的方法是利用空间因素分离图片。[Yi et al., 2014]把行人竖直的分成三个部分,训练三个CNNs去分别提取特征。[Cheng et al., 2016]分成了四个部分,并将部分特征和全局特征融合在了一起。[Li et al., 2014]增加一个新的层,在不同的水平层中将两个图像的激活部分相乘。用这个新增层使的CNN更好的匹配。后来,[Ahmed et al., 2015]提出了一个新的部分匹配层,比较在相邻像素中两幅图像中的激活部分。初次之外,[Varior et al.,2016a]融合了一下门函数到CNN中,像LSTM([Hochreiter and Schmidhuber 1997]),为了能自适应的关注两幅图片中相同的部分。但是,这种方法的图片成对输入,计算效率不高。相似的,[Liu et al., 2016a]提出一种软关注度模型去关注部分,融合了CNN和LSTM自动的选择,这种方法计算效率也不高。
CNN能够自发的提取区别度较高的特征,而不用明确的部分匹配。对于行人重识别网络,[Zheng et al., 2016a]直接用一个在Market-1501上微调的方法,他们的效果超过以往的结果。[Wu et al., 2016c]将手工设计特征与CNN网络融合起来。[Xiao et al., 2016]用多个数据集训练一个分类模型,提出了一个新的dropout函数去数百个行人分类。[Wu et al., 2016b]加深网络并且用gengxiao 的filter.
在这篇文章中,我们采用相似的卷积分支,没有明确部分匹配的层。

2.3 目标对齐

人脸对齐已经被广泛的研究。[Huang et al., 2007]提出一种叫做漏斗图片的无监督方法去对齐人脸。这不是一种端到端方式训练,大受限制。另外一种方法是基于任务启动形式的物体定位模型。[Jaderberg et al., 2015]用STN网络去提升门牌号数字识别和鸟的识别。[Johnson et al., 2015]融合faster RCNN,RNN和STN网络用在图片的定位和描述上。除了STN网络,liu et al. 还用强化学习去检测部分和加强微调模型。
在行人重识别中,[Baltieri et al., 2015] 把3D身体模型用到很好的检测图像中去对齐身体,但是并没有处理误检测问题。比较了Pose-Box和本网络的区别。

3、行人对齐网络

3.1 PAN的回顾

我们的目标是去设计一个能够融合对齐图片和识别人物的结构。首要的挑战就是设计一个支持端到端的模型,并从两个内在连接的任务中收益。这个提出的结构在两个卷积网络和一个仿射估计网络同时去强调这些设计的限制。Fig.2简要的阐述了我们的模型。
为了阐述我们的方法,我们用ResNet-50模型作为运用在Market-1501上的基础模型。在Fig.2中每个Res_i, i=1,2,3,4,5block代表一些批量正则化的卷积层,RelU和可选的最大池化层。在每个block以后,特征图都下采样到先前模块的一半。例如,Res_1下采样从224224到112112。在Section3.2和Section3.3中,我们首次描述了卷积网络和仿射评估网络。在Section 3.4中,我们强调了行人预测器的细节部分。当测试的时候,我们用描述器去检测query行人。进而,我们在Section3.5中讨论re-ranking方法作为后续的处理。

3.2 基础网络和关联网络

3.3 仿射评估网络

3.4 行人描述器

给出微调的PAN模型和一个输入图片,行人描述器是基础网络和对齐网络的全连接特征的加权融合。我们能够从原始图片和对齐图片得到行人特征。在Section 4.3中,实验显示这两个特征是相互补充的并且提升了行人重识别的性能。
在这文章中,我们采用一个直接的融合策略,
在这里插入图片描述
这里fi1和fi2是全连接描述器,分别来自两种类型的图片。我们在最后的平均池化层中,把张量转变成1维向量,作为每个网络的行人描述器。行人描述其如下:
在这里插入图片描述
这个|.|操作代表一个l2-nomalization(??)步骤。我们串联这个对齐描述和原始描述,都是在l2-nomalization以后。a是两个描述器的权重。通常情况下,在我们的实验中设置a=0.5.

3.5 Re-ranking for re-ID

在这个工作中,通过排序query在gallery中的欧几里得距离,我们第一次得到了排序列表N(q, n) = [x1,x2,…,xn]。这个距离通过
在这里插入图片描述在这里插入图片描述
来计算,这里fi和fj分别是图片i和图片j的l2-normalized特征。我们然后重排列得到更好的检测结果。在重识别中,有几种重排序的方法。我们使用[Zhong ,2017]中的经典的重排序方法。
除了欧几里得距离外,我们也考虑Jaccard similarity。为了介绍这个距离,我们给每张图片定义一个强健的检索集。

4、实验

在这一部分,我们报道了在三个大型数据集的结果:Market-1501[2015],CUHK03[2014]和DukeMTMC-reID[2017b]。至于检测器,Market-1501和CUHK03(detected)数据集是通过DPM自动检测的,面临着一些误检测的问题。不知道人工标注的图片在轻微的对齐后是否能带来任何好的表现。因此我们也在CUHK03(labeled)和DukeMTMC-reID的手工标注的数据集上评估我们提出的方法,这两个数据集都是人工标定的bounding boxes。如图Fig.4所示,这三个数据集都有不同的特征、场景变化和检测误差。

4.1 数据集

在这里插入图片描述
ATR数据集:数据集的制作和统计,在倾斜角度上的统计,在行人图片数量上的统计(包括)
Market1501: Market1501是一个在大学校园场景的用于重识别的大规模数据集。它包含来自6个摄像机下的19732张gallery图片,3368张query图片和12936张训练图片。在训练数据集中有751个行人,在测试集中有750个行人,训练集和测试集都没有重叠。在训练集中每一个行人平均有17.2张图片。所有的图片都是通过DPM检测出来的。在这个问题中,错位问题是常见的,这个数据集比较接近真实的场景。我们用所有的12936张检测图片去训练网络并且遵循原始数据中的评估协议。这里有两个评估标准。A single query是用一个行人的一张图片去查询,multiple query是用一个行人在一个镜头下的多张图片去查询。
CUHK03: CUHK03包含1467个行人的14097张图片,每一个行人平均包含9.6张图片。我们遵循在[2017]提出的新训练/测试协议去评估多reID表现。这个设置用了一个更大的测试gallery,并且和先前论文不同。在训练集中有767个行人,在测试集中有700个行人(先前的论文中用1367个ID用作训练,用另外100个作为测试)。因此,我们通常遇到一个从监控视频中裁剪的大规模搜索图片池,一个更大的测试池是更接近显示中的检索。在“detected”数据集中,所有的bounding boxes都是由DPM检测;在“labeled”数据集中,所有的图片都是手动检测。在这篇论文中,我们在这两个数据集中分别评估我们的方法。如果不出意外,“CUHK03”代表了“detected”数据集,更加具有挑战。
DUKEMTMC-reID: 该数据集是DukeMTMC的子集,包含在八个高分辨率摄像头下1812个行人的36411张图片。它是最大的行人图像数据集中的一个。行人图片从手工标注的bound ing boxes裁剪。这个数据集包含702个行人16522张图片的训练集合,和另外702个行人的2228张query图片和17661张gallery图片。他是具有挑战性的,因为有些行人穿着相似的衣服,有些被车和树遮挡。我们遵循[2017b]的评价协议。
评估方法:我们用rank-1,5,10,20准确度和mean average precision(mAP)来评估我们的方法。在此,rank-i 准确度代表了在top-i中是否出现一个或多个正确的匹配图片的可能性。如果在检索的列表里top-i中没有出现正确的匹配图片,rank-I = 0,否则rank-I = 1。我们为每张查询图片列出了mean rank-I accuracy。另一方面,对于每张查询图片,我们计算Precision-Recall 曲线下面的面积,这个叫做AP。然后计算出所有AP的平均值,这个反映了算法表现性能的准确度和召回率。

4.2 执行细节

ConvNet:在这个工作中,我们开始微调行人重识别数据集的基础。然后当我们微调整个网络的时候基础网络是不变的。尤其是在微调基础网络的时候,在30个周期以后,学习率从〖10〗(-3)降到〖10〗(-4)。在第40个周期的时候停止训练。同样的,当我们训练整个模型的时候,在30个周期以后,学习率从〖10〗(-3)降到〖10〗(-4)。我们在第40个周期的时候停止训练。我们的执行是基于Matconvnet 包。输入图像是统一缩减到224*224大小。另外,我们运用一些简单的数据增强,如裁剪和水平翻转。

4.3 评估

在这里插入图片描述
ResNet 基础网络的评估。我们根据[Zheng, 2016b]提出的方法去实施基础的网络,具体的细节在Section4.2提出。我们在Table1中报道我们基础网络的结果。在Market1501,CUHK03(detected)和CUHK03(labeled),以及DukeMTMC-reID中,rank-1准确率分别是80.17%,30.50%,31.14%和65.22%。这个基本模型与[Zheng 2016b]中的网络相提并论。在我们最近的工作中,我们用更小的batch size of 16,并且0.75的dropout率。因此,与[Zheng,2016b]相比,我们在market-1501上更高的rank-1的准确率,cong 73.69%提升到了80.17%。为了能有相对公平的比较,我们将展示这个新的网络中构建的方法的结果。注意,这个基础网络自身比一些先前的工作表现更好。(还是以前的网络,改变了dropout和训练的batch size,准确率反而提升了,就从这个提升以后的新的网络开始比较)
Base Branch. VS. alignment branch。为了调查对齐是如何帮助学习区分行人特征,我们分别评估了基础网络和对齐网络的性能。能够推断出两个结论。
首先,如Table1所示,对齐网络在CUHK03的detected和labeled两个数据集上提升了+3.64%/+4.15%,在DukeMTMC-reID上提升了3.14%,在Market-1501数据集上产生非常接近的效果。我们推测,相对于两外两个数据集,Market1501包含更多的检测错误,让对齐网络的功能受限。
其次,虽然CUHK(labeled)数据集和DukeMTMC-reID数据集是手工标定,对齐网络任然能够提升基础网络的表现。这个观察证明了对于机器去学习一个好的描述器来说,手工标注并不是足够的好。在这个脚本中,对齐并不是无关紧要的,能够让行人特征更加的有区分。

两个网络的补充。 如前面所提到的那样,这两个描述器分别重原始图片和对齐的图片中提取特征。我们在Section3.4中,简单的融合这两个特征去形成一个更加强健的描述器。结果在Table1中展示。我们观察到,当集成这两个描述器时,在三个数据集中都有提升。在Market1501、CUHK03(detected)、CUHK03(labeled)和DukeMTMC-reID三个数据集中分别提升了+2.64%,2.15%,1.63%,3.23%。这两个部分相互补充,相比单个网络,包含更多的信息。除了精度的提升,这个简单的融合也是很有效的,因为他没有添加额外的计算。
参数灵敏度。我们评估对于参数a而造成行人重识别准确度。如Fig.5 所示,我们反映a从0到1变化时,rank-1和mAP的变化。我们观察到rank-1和mAP的改变和a有很小的关联。我们最终的结果是用a=0.5。对于特定的数据集来说,a=0.5可能并不是最好的选择。但是如果我们没有提前得知这个数据的分配,a=0.5是一个简单和直接大选择
在这里插入图片描述
和经典方法的比较在Table2,Table4和Table3中,我们分别比较了Market1501,CUHK03和DukeMTMC-reID数据集,我们的方法与经典方法。在Market-1501中,我们实现了在重排序后rank-1 = 85.78%,mAP = 76.56%,相对于已经公开的结果,我们这个网络产生了最好的结果。在所有可实现的结果中我们取得第二好的结果,甚至包括arXiv paper。我们的模型也适合先前的模型。之前最好的结果是基于GAN网络[Zheng,2017b]。我们融合在GAN产生的图片上训练的模型,实现经典的结果,在Market-1501上rank-1=88.57%,mAP=81.53%。在CUHK03上,我们实现在detected数据集中,rank-1=36.9%,mAP=35%;在labeled数据集中,rank-1=36.9%,mAP=35.0%。在重排序后,我们更好的实现经典的表现,在detected 数据集中,rank-1=41.9%,mAP = 43.8%;labeled 数据集中,rank-1= 43.9%,mAP=45.8%.在DukeMTMC-reID数据集中,我们也在重排序后得到经典的结果,rank-1=75.94%,mAP = 66.74%。尽管在这三个数据集中,有场景变化、检测误差的差距,我们展现出,我们的方法能够始终如一的提升re-ID的表现。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如Fig.6 所示,我么们在三个数据集中可视化一下检测结果。通过PAN得到的排序列表中的图片在对齐方面得到改善。比较基础网络,在原图中因为没对齐的得到更高的排序,同时错误的匹配有更低的排序。
在这里插入图片描述
对齐可视化。在Fig.7.中我们更好的可视化对齐的图片。如之前所提到的那样,提出的网络没有处理原始图片的对齐。为了可视化对齐网络,我们提取预测的仿射参数并且对原始的检测图片手工的运用仿射变换。我们观察到对于行人,网络并没有表现很完美的对齐,但是他或多或少的减少了尺度和位置的变化,这个对于网络去学习特征来说是非常重要的。因此,我们提出的网络能够提升行人重识别的表现。
在这里插入图片描述

5、结论

行人对齐和重识别是两个相关联的问题,鼓励我们去设计一个基于注意力的系统。在这篇论文中,我们提出PAN,同时对齐Bounding boxes当中的行人并学习行人描述器。利用CNN特征图注意力的优势运用到人的身体,PAN主要解决没对齐问题和行人重识别问题,提升重识别的准确率。除了id标签,不需要任何额外的标注信息。我们观察到手工裁剪网络并不像预期中一样有很好的表现。我们的网络提升了手工标注的BBoxes数据集的表现。注意力机制模型。

猜你喜欢

转载自blog.csdn.net/weixin_39393712/article/details/86616369