CVPR2018论文翻译 Human Semantic Parsing for Person Re-identification

论文链接:

https://arxiv.org/pdf/1804.00216.pdf


摘要

    混乱的背景、光照、视角等因素制约了提取鲁棒性表示的能力,因此reid是个挑战性的任务。为了改进表示学习,通常提取行人身体各部分的局部特征。然而,实际中通常基于包围框的部分检测。本文提出了改编的human semantic parsing,它有着像素等级的精确率和建模任意轮廓的能力,因此一个很好的选择。

    我们提出的SPReID不仅超出了它的baseline性能,还实现了state-of-the-art.我们还表明,通过采用一个简单但有效的训练策略,标准CNN结构(例如Inception-V3和ResNet-152),无需修改,单独地操作整副图像,就能超过当前最佳水平。


一.导论

    行人重识别问题定义;行人重识别难点,提出一个有效的reid系统必须能够学习到针对个体的、上下文不变的、摄像头视角不可知的表示。

    最近,借助局部(part-level)特征来改进全局(image-level)表示是reid的主要主题。image-level的表示容易杂乱或被遮挡,part-level表示更鲁棒。然而,partdetection在低分辨率图像下是很困难的,而一点的错误都会传递到整个reid系统。这就是为什么一些研究倾向于从图像块、水平条来提取特征,它们稍微与人体各部分有联系。

    另一方面,几乎所有先前的设计bodyparts的工作都先是用现成的姿态估计模型,再从预测到的关节位置来推断包围框。接着系统提取全局和局部特征,用的是一个能大概看作是multi-branch的deep CNN结构。这些模型通常包含很多子模型并且用多个阶段训练,为reid问题量身定做。本文提出两个问题:首先。这么复杂的模型真的必要吗?其次,对body parts用包围框真的能获取到好的局部特征吗?

    为了解决第一个问题,我们展示了,基于没有修饰的Inception-V3,处理一张完整的图像,用很直接的训练策略优化,就能够达到SOA.我们不用binary或者什么triplet loss,只用softmax交叉熵,用两种不同的输入分辨率。接着采用重排序作为后处理技术。

    对于第二个问题,我们提出用语义分割,更针对于人类语义解析,来替代包围框。显然包围框太粗糙,会包括背景,不能捕捉人体的形变。而语义分割能精确定位随机轮廓,即使在严重的姿态改变下。我们先训练human semantic parsing model来将人体分成多个语义区域,接着使用它们来挖掘reid的局部线索。我们分析了集成human semantic parsing到reid的两种做法,并证明了它们确实补充了表示。

    本文贡献

扫描二维码关注公众号,回复: 3207125 查看本文章

    1)我们简单而有效的训练方法能够显著超过SOA。基于Inception-V3和ResNet-152模型,三个不同基准数据集。

    2)提出SPReID,用人体语义解析来提取局部视觉线索。我们的语义分割模型不仅改进了reid,还在人体语义解析问题上取得了SOA。

    3)提升了reid的性能,达到SOA水平。

    本文组织

    第2节是reid文献综述;第3节是我们的方法;第4节是试验结果和讨论;第5节是实现的细节;第6节总结。


三.方法

    我们默认将Inception-V3结构作为人体语义分割和重识别的主干模型。首先,我们简单描述Inception-V3结构,然后,我们提供人体语义分割模型的细节,最后解释如何将其集成到reid框架。

3.1 Inception-V3结构

    48层网络结构。用全局平均池化代替全连接层,因此能够输入任意尺寸图像。尽管比其它流行的resnet网络的变体要更浅层,我们的实验展示了它能比resnet152甚至更好的性能,并且计算代价更小。我们会给出两种选择的量化比较。


3.2 语义分割模型

    采用Inception-V3作为人体语义解析模型的主干,为此对Inception-V3做了两点修改,使其更适合语义分割任务。

    因为语义分割严重依赖于充分的分辨率,因此我们将最后的grid reduction module的stride从2改为1,使使得output stride由32变为16. 为了处理这多出的计算(位于最后Inception块),相关的卷积层用dilated convolution代替。接着我们移除全局平均池化,增加atrous spatial pyramid pooling (rates=3,6,9,12),再接一个1X1卷积层作为分类器。这个将允许我们在像素等级进行多分类,并且是语义分割结构中的常用方法。

3.3 行人重识别模型

    我们的SPReID模型,由一个卷积主干、一个语义分割分支和两个聚合点组成。对于卷积主干,同样是Inception-V3,但移除了全局池化层,因此输出的是stride=32(缩小32倍)的2048个通道的tensor.

    Baseline模型为主干网络加全局池化,输出2048维的全局表示。训练采用多分类的softmax交叉熵损失。在测试时,我们直接采用分类层前的2048维向量来进行检索匹配。

    第4节我们展示了选用不同主干网络Inception-V3、ResNet-50、ResNet-152时性能的变化。 

    为了挖掘局部视觉线索,我们用五个不同身体区域(前景、头、上身、下身、鞋子)的概率图。这个概率图生成自语义分割模型和每个通道的L1规范化。在SPReID,我们多次池化CNN主干网络的输出响应,每次用五张概率图中的一个。概率图作为权值,对输出响应做矩阵点乘。就得到了5个2048为特征向量,每个代表一个身体部位。接着,我们对头、上身、下身、鞋子的表示进行元素层面的最大操作。接着将输出和前景以及全局表示进行串接。

    我们提出的技术能够应用于任何CNN主干结构。注意到语义分割通常需要高分辨率图像,因此我们对输入图像进行了双线性插值,后面又对输出响应进行了同样的操作以适应人体语义分割的输出。


图1  SPReID

四.实验

4.1 数据集和评估方法

    基于三个基准数据集Market1501,CUHK03和DukeMTMC-reID.

    Market1501:包括了1501个行人的32668张图像,由五个高分辨率和一个低分辨率摄像头拍摄得到,在这个数据集中,用DPM方法得到了行人包围框。因此,有些包围框没有配准好。在它的标准评估协议中,训练集包括了751个行人共12936张图像。测试集里,没有出现在训练集的750个行人的图像被用来创建gallery和query集。这些集合分别包括了19734和3368张图像。

    DukeMTMC-reID:这个数据集的行人图像由DukeMTMC跟踪数据集中提取得到。DukeMTMC数据集用8个高分辨率摄像头得到,行人包围框由人工标注。DukeMTMC-reID的标准评估协议和Market1501的格式一致。具体地说,702个人的16522张图像作为训练集。对于gallery和probe,分别有16522和2228张图像,主体为不曾出现在训练集中的702个人。

    CUHK03:有1467个行人共13164张图像。这些图像由6个监控摄像头记录,每个人被2个不同的摄像头拍摄到。这个数据集用到了人手标注和DPM检测两种方法来找行人包围框。它的评估协议和上面两个数据集不同,在我们的实验中,按照原论文提到的标准协议来评估得到人手标注数据集的结果。

    除了用到上面提到的这些数据集来评估结果外,我们还采用了3DPeS, CUHK01, CUHK02, PRID, PSDB, Shinpuhkan和VIPeR数据集来拓展我们的训练集。这些训练集被汇集得到一个包括111000张图像的训练集。我们用CMC曲线和mAP来评估重识别模型好坏。所有实验都设置为单查询(single query)。

4.2 训练网络

    为了训练我们的重识别模型,我们汇总了10个不同的重识别基准,详见4.1节,其中总共约111,000个图像约17,000个身份。基线模型仅在完整图像上运行,不使用语义分割。我们首先使用尺寸为492×164的输入图像对它们进行200K次迭代训练。然后,我们微调每个额外的50K迭代,但采用更高的输入分辨率748×246。我们在Market-1501,CUHK03和DukeMMC-reID数据集上分别进行微调。SPReID的训练是在10个数据集的聚合上完成的,其设置与上述完全相同。其相关实验中的输入图像分辨率设置为512×170。

    我们在Look into Person(LIP)[14]数据集上训练人类语义解析模型,该数据集由约30,000个图像和20个语义标签组成。然后将不同区域的预测概率组合在一起以创建5个粗略标签(Foreground, Head, Upper-body, Lower-body and Shoes),以便解析人体以供重识别。我们的实验表明,即使在严重姿态变化和遮挡的情况下,人类语义分析模型也能够很好地定位各种人体部位。尽管超出了本工作的范围,为了展示我们人类语义解析的质量,我们在表1中显示,在LIP验证集中,我们的模型胜过了当前的最好结果。图2说明了我们的人类语义分析模型如何分割来自DukeMTMC-reID重识别基准的示例图像。

表1 人体语义分割模型的性能(在LIP验证集上)


图2 我们的语义分割模型对DukeMTMC-reID数据集上的图像做的测试

4.3 重识别性能

    在本节中,我们从分析baseline重识别模型的表现开始。我们将展示输入图像分辨率对大图像尺寸的微调backbone的不同选择、以及最后的聚合结点之间的权重共享的效果。我们展示了基准模型可以大幅度超越当前最先进的技术,这要归功于我们简单而精心设计的训练策略。然后,我们定量说明SPReID在利用人类语义解析进行行人重识别时的有效性。我们在三个基准数据集上通过与其他先进算法进行比较来总结本节。

    输入图像分辨率的影响:在表2中,我们展示了使用不同输入分辨率来训练网络时,我们的Inception-V3基线模型的定量结果。除此之外,其余设置/参数对于所有模型都是相同的。我们观察到,在所有三个数据集上,对更高分辨率的输入图像进行训练可获得更好性能(mAP和重识别率)。尽管如我们所预期的那样,当我们考虑rank-10和rank-1时,这种差距往往会缩小。当我们合并10个不同的重识别数据集时,模型-S、模型-M和模型-L在约17K个身份的111K张图像上训练。由于对高分辨率图像的训练在计算上是昂贵的,为了进一步推进性能边界,我们采用经过训练的Model-L并使用748×246(比Model-L的预训练的图像大1.5倍)的输入图像对其进行微调。表2显示,这种微调做法,表示为Model-L ft,在Model-L的顶部产生平均4.75%的mAP和1.71%的rank-1。因此,我们确认使用大输入图像来训练重识别模型的优势。

表2 采用不同输入分辨率来训练模型的结果

    重识别主干架构的选择:表3显示了在我们的基准模型中改变重识别主干架构的效果。 尽管Inception-V3[37]的体系结构相对较浅,但它与ResNet-152 [16]相比具有极强的竞争力,同时性能也大大超过ResNet-50 [16],而ResNet-50的深度大致相同。表3还显示,通过用高分辨率图像进行微调而实现的性能增益(参考表2)在各种架构选择中都是有效的。在我们的实验中,我们观察到ResNet-152的计算成本比Inception-V3高3倍(由前向+后向时间测量)。因此,鉴于它们相对相似的性能,我们选择了Inception-V3作为我们的主要骨干架构。

表3 不同骨干结构对性能的影响。ft为高分辨率图像fine-tune模型。实验中Resnet152是InceptionV3计算代价的3倍。 

    SPReID性能:表4比较了我们提出的SPReID与Inception-V3基线重识别的性能。 所有模型都使用第4.2节中详述的设置进行训练。我们观察到无论是否有前景变化(分别表示为SPReID w/fg和SPReID wo/fg)都优于Inception-V3基线,而它们的组合(L2-标准化+级联)导致性能进一步提高。利用SPReID进行人类语义分析可以改善基线重识别模型:Market-1501,mAP为6.61%,rank-1为2.58%,CUHK03为1.33%,DukeMMC-reID,分别为8.91%和4.22%。由于Inception-V3基线和SPReID之间的唯一区别在于他们如何聚合最终卷积层的激活,我们可以证实我们提出的方法在有效利用人类语义分析来改善人重识别方面的优势。

表4 SPReID的性能

    权值分配的影响:图1所示的SPReID模型有两个聚合头。一个简单地执行全局平均池化,而另一个使用与不同人体部位关联的概率图作为权重来聚合卷积激活。表5根据两个聚合头是否共享重识别主干网络来比较两种情况。我们观察到,除了CUHK03 [24]以外,相互独立的骨干网络结构比权值共享的效果略好,但经过用非常高分辨率的图像微调后,差距会缩小。值得注意的是,在这两种情况下,SPReID都优于Inception-V3基线(参考表4)。

表5 全局平均池化和基于语义池化的主干网络权值是否共享对性能的影响

    从表6中,我们观察到,使用我们提出的训练程序进行训练时,基线重识别模型胜过当前的最新技术。这些结果特别有趣,因为模型不那么复杂,并且也很直接。当利用重排序[51]时,改善幅度进一步增加。因此,我们确认一个没有花里胡哨的简单模型足以实现最先进的重识别性能。表6显示,SPReID可以有效利用来自人体部位的局部视觉提示。在所有三个数据集中,SPReID combined-ft优于Inception-V3 ft基线,并具有较大的优势。虽然,当模型与ResNet-152 ft强基线结合时,差距会缩小。与前一种情况类似,通过重排序作为后期处理,性能将进一步提高。

  

 表6 和最先进方法的比较。*号表示和ResNet-152ft进行结合(L2标准化和串接)


五.实现细节

    行人重识别:在两个训练阶段,mini-batch size设置为15,动量为0.9,我们使用权值衰减(0.0005)和梯度截断(2.0)。第一阶段的初始化学习率为0.01,第二阶段减少为0.001。在整个训练过程中,我们衰减学习率10次,用rate=0.9的指数偏移。我们用Nesterov Accerlarated Gradient训练模型,用ImageNet的预训练模型初始化权值。

    人体语义解析:我们训练我们的人类语义解析模型进行30K迭代,其中Inception-V3主干,空洞空间金字塔池化和1x1卷积层的初始学习率分别设置为0.01,0.1和0.1。 除了使用512×512输入图像的输入分辨率之外,其余参数和设置与用于重识别模型训练的参数和设置类似。


六.结论

    在本文中,我们首先提出了两个主要问题。首先,要达到最先进的性能,重识别模型是否需要很复杂。 其次,对人体部位的包围框是否是利用局部视觉线索的最佳办法。 通过本文,我们用广泛的一系列实验解决了这两个问题。 我们证明,当在大量高分辨率图像上正确训练时,实际上一个简单的深度卷积体系结构可以胜过当前的最新技术。我们还证明,通过在我们提出的SPReID框架中利用人类语义分析,可以进一步提高最先进的基线模型的性能。 SPReID对重识别骨干进行最小限度的修改,并为利用人体部位提供更自然的解决方案。 我们希望,这项工作鼓励研究团体更多地投入使用人类语义解析来进行重识别任务。


猜你喜欢

转载自blog.csdn.net/hyk_1996/article/details/80399363