(ECCV-2020)基于视频的行人重识别的外观保持三维卷积(一)

基于视频的行人重识别的外观保持三维卷积

论文题目:Appearance-Preserving 3D Convolution for
Video-based Person Re-identification

paper是中科院计算所、中国科学院大学发表在ECCV2020的工作

论文地址:链接

Abstract

在基于视频的行人重识别(ReID)中,由于人的检测结果和姿态变化的不完善,时间外观错位是不可避免的。在这种情况下,3D卷积可能会破坏人物视频剪辑的外观表示,因此对ReID是有害的。为了解决这个问题,作者提出了外观保持3D卷积 (AP3D),它由两个组件组成:外观保持模块 (APM)和3D卷积核。通过APM对像素级相邻特征图进行对齐,接下来的3D卷积可以在保持外观表示质量的前提下对时间信息进行建模。通过简单地用AP3Ds替换原始的3D卷积核,可以很容易地将AP3D与现有的3D ConvNet结合起来。大量实验证明了AP3D对基于视频的ReID的有效性,在三个广泛使用的数据集上的结果超过了最先进水平。代码可从以下网址获取:链接

Keywords

基于视频的行人重识别时间外观错位外观保持3D卷积

1 Introduction

基于视频的行人重识别(ReID)在智能视频监控系统中起着至关重要的作用。与基于图像的ReID相比,主要区别在于基于视频的 ReID 中的query和gallery都是视频,并且包含额外的时间信息。因此,如何有效地处理视频帧之间的时间关系对于基于视频的 ReID 至关重要。

计算机视觉中最常用的时间信息建模方法包括LSTM3D 卷积Non-local操作 。LSTM和3D卷积擅长处理局部时间关系编码相对位置。一些研究人员已经证明,3D卷积在视频分类任务上优于CNN+LSTM。相比之下,Non-local操作不编码相对位置,但它可以对长程时间依赖关系进行建模。这些方法是相辅相成的。在本文中,主要关注改进现有的 3D 卷积,使其更适应基于视频的ReID。

最近,一些研究人员尝试将3D卷积引入基于视频的ReID。然而,他们忽略了,与其他基于视频的任务相比,基于视频的ReID中的视频样本由一些行人检测器(见图1)生成的一系列边界框组成,而不是原始视频帧。由于不完美的人检测算法,一些生成的边界框比ground truth更小(见图 1(a))或更大(见图 1(b))。在这种情况下,由于在喂入神经网络之前进行了缩放操作,相邻帧中相同的空间位置可能属于不同的身体部位,并且相邻帧中的相同身体部位可能被缩放到不同的大小。即使检测结果准确,但由于目标行人的姿势变化,仍然可能存在错位问题(见图1(c))。注意,一个3D卷积核将相邻帧中相同空间位置的特征处理为一个值。当存在时间外观错位时,3D 卷积可能会将相邻帧中属于不同身体部位的特征混合为一个特征,这会破坏人物视频的外观表示。由于基于视频的 ReID 的性能高度依赖外观表示,因此外观破坏对性能是有害的。因此,需要开发一种新的 3D 卷积方法,该方法可以在保持外观表示质量的前提下对时间关系进行建模。

图1

图 1. 由(a)较小的边界框(b)较大的边界框和©姿势变化引起的时间外观错位。(d)AP3D首先使用APM重构相邻特征图以保证与中心特征图的外观对齐,然后进行3D卷积

本文提出了外观保持3D卷积(AP3D)来解决现有3D卷积的外观破坏问题。如图1(d)所示,AP3D由一个外观保持模块(APM)和一个3D卷积核组成。对于每个中心特征图,APM根据跨像素语义相似度重建其相邻特征图,并保证重建的特征图与中心特征图之间的时间外观对齐。APM 的重建过程可以看作是两帧之间的特征图配准。针对外观信息不对称的问题(例如,图1(a)中,第一帧不包含足部区域,因此不能与第二帧完美对齐),提出了Contrastive Attention来寻找图像之间的不匹配区域重建和中心特征图。然后,将学习的注意力掩码施加到重建的特征图上,以避免错误传播。在 APM 保证外观对齐的情况下,后续的 3D 卷积可以更有效地对时空信息进行建模,增强视频表示,具有更高的判别能力,但不会破坏外观。因此,基于视频的 ReID 的性能可以大大提高。注意,APM的学习过程是无监督的。换句话说,不需要额外的对应注释,只需通过识别监督就可以训练模型。只需用AP3D替换原来的 3D 卷积核,所提出的 AP3D 就可以很容易地与现有的3D ConvNet(例如,I3D 和P3D)相结合。对两个广泛使用的数据集的广泛消融研究表明,AP3D显著优于现有的 3D 卷积。仅使用RGB信息并且没有任何花里胡哨(例如,光流、复杂的特征匹配策略),AP3D在两个数据集上都获得了最先进的结果。

总之,我们工作的主要贡献在于三个方面:(1)发现现有的 3D 卷积在存在错位时提取外观表示存在问题; (2)提出一种AP3D方法来解决这个问题,在卷积操作之前根据语义相似度对齐像素级的特征图; (3) 与最先进的方法相比,在基于视频的 ReID 上实现了卓越的性能。

2 Related Work

Video-based ReID. 与基于图像的ReID相比,基于视频的ReID中的样本包含更多的和额外的时间信息。因此,一些现有的方法试图对额外的时间信息进行建模以增强视频表示。相比之下,其他方法仅使用基于图像的ReID模型提取视频帧特征,并探索如何集成或匹配多帧特征。本文尝试通过开发改进的3D卷积模型来解决基于视频的ReID,以获得更好的时空特征表示

Temporal Information Modeling. 计算机视觉中广泛使用的时间信息建模方法包括LSTM、3D 卷积和Non-local操作。LSTM和3D卷积擅长于对局部时间关系进行建模和对相对位置进行编码,而Non-local操作则可以处理远程时间关系。它们是互补的。Zisserman等人已经证明3D卷积在视频分类任务上优于CNN+LSTM。本文主要改进原始的3D卷积以避免外观破坏问题,并尝试将提出的AP3D与一些现有的3D ConvNets结合起来。

Image Registration. 将不同的图像转换到相同的坐标系称为图像配准。这些图像可以在不同的时间、从不同的视角或不同的方式获得。可以使用刚性、仿射或复杂变形模型来估计这些图像之间的空间关系。对于所提出的方法,APM的对齐操作可以被视为特征图配准。不同的特征映射是在连续时间获得的,并且人的主体是非刚性的。

猜你喜欢

转载自blog.csdn.net/wl1780852311/article/details/122770866