基于视频的行人重识别的外观保持三维卷积

论文题目：Appearance-Preserving 3D Convolution for
Video-based Person Re-identification

paper是中科院计算所、中国科学院大学发表在ECCV2020的工作

论文地址：链接

Abstract

在基于视频的行人重识别（ReID）中，由于人的检测结果和姿态变化的不完善，时间外观错位是不可避免的。在这种情况下，3D卷积可能会破坏人物视频剪辑的外观表示，因此对ReID是有害的。为了解决这个问题，作者提出了外观保持3D卷积 (AP3D)，它由两个组件组成：外观保持模块 (APM)和3D卷积核。通过APM对像素级相邻特征图进行对齐，接下来的3D卷积可以在保持外观表示质量的前提下对时间信息进行建模。通过简单地用AP3Ds替换原始的3D卷积核，可以很容易地将AP3D与现有的3D ConvNet结合起来。大量实验证明了AP3D对基于视频的ReID的有效性，在三个广泛使用的数据集上的结果超过了最先进水平。代码可从以下网址获取：链接

Keywords

基于视频的行人重识别，时间外观错位，外观保持3D卷积

1 Introduction

基于视频的行人重识别（ReID）在智能视频监控系统中起着至关重要的作用。与基于图像的ReID相比，主要区别在于基于视频的 ReID 中的query和gallery都是视频，并且包含额外的时间信息。因此，如何有效地处理视频帧之间的时间关系对于基于视频的 ReID 至关重要。

计算机视觉中最常用的时间信息建模方法包括LSTM、3D 卷积和Non-local操作 。LSTM和3D卷积擅长处理局部时间关系和编码相对位置。一些研究人员已经证明，3D卷积在视频分类任务上优于CNN+LSTM。相比之下，Non-local操作不编码相对位置，但它可以对长程时间依赖关系进行建模。这些方法是相辅相成的。在本文中，主要关注改进现有的 3D 卷积，使其更适应基于视频的ReID。

最近，一些研究人员尝试将3D卷积引入基于视频的ReID。然而，他们忽略了，与其他基于视频的任务相比，基于视频的ReID中的视频样本由一些行人检测器（见图1）生成的一系列边界框组成，而不是原始视频帧。由于不完美的人检测算法，一些生成的边界框比ground truth更小（见图 1（a））或更大（见图 1（b））。在这种情况下，由于在喂入神经网络之前进行了缩放操作，相邻帧中相同的空间位置可能属于不同的身体部位，并且相邻帧中的相同身体部位可能被缩放到不同的大小。即使检测结果准确，但由于目标行人的姿势变化，仍然可能存在错位问题（见图1（c））。注意，一个3D卷积核将相邻帧中相同空间位置的特征处理为一个值。当存在时间外观错位时，3D 卷积可能会将相邻帧中属于不同身体部位的特征混合为一个特征，这会破坏人物视频的外观表示。由于基于视频的 ReID 的性能高度依赖外观表示，因此外观破坏对性能是有害的。因此，需要开发一种新的 3D 卷积方法，该方法可以在保持外观表示质量的前提下对时间关系进行建模。

图 1. 由(a)较小的边界框(b)较大的边界框和©姿势变化引起的时间外观错位。(d)AP3D首先使用APM重构相邻特征图以保证与中心特征图的外观对齐，然后进行3D卷积

本文提出了外观保持3D卷积（AP3D）来解决现有3D卷积的外观破坏问题。如图1（d）所示，AP3D由一个外观保持模块（APM）和一个3D卷积核组成。对于每个中心特征图，APM根据跨像素语义相似度重建其相邻特征图，并保证重建的特征图与中心特征图之间的时间外观对齐。APM 的重建过程可以看作是两帧之间的特征图配准。针对外观信息不对称的问题（例如，图1（a）中，第一帧不包含足部区域，因此不能与第二帧完美对齐），提出了Contrastive Attention来寻找图像之间的不匹配区域重建和中心特征图。然后，将学习的注意力掩码施加到重建的特征图上，以避免错误传播。在 APM 保证外观对齐的情况下，后续的 3D 卷积可以更有效地对时空信息进行建模，增强视频表示，具有更高的判别能力，但不会破坏外观。因此，基于视频的 ReID 的性能可以大大提高。注意，APM的学习过程是无监督的。换句话说，不需要额外的对应注释，只需通过识别监督就可以训练模型。只需用AP3D替换原来的 3D 卷积核，所提出的 AP3D 就可以很容易地与现有的3D ConvNet（例如，I3D 和P3D）相结合。对两个广泛使用的数据集的广泛消融研究表明，AP3D显著优于现有的 3D 卷积。仅使用RGB信息并且没有任何花里胡哨（例如，光流、复杂的特征匹配策略），AP3D在两个数据集上都获得了最先进的结果。

总之，我们工作的主要贡献在于三个方面：（1）发现现有的 3D 卷积在存在错位时提取外观表示存在问题； (2)提出一种AP3D方法来解决这个问题，在卷积操作之前根据语义相似度对齐像素级的特征图； (3) 与最先进的方法相比，在基于视频的 ReID 上实现了卓越的性能。

2 Related Work

Video-based ReID. 与基于图像的ReID相比，基于视频的ReID中的样本包含更多的帧和额外的时间信息。因此，一些现有的方法试图对额外的时间信息进行建模以增强视频表示。相比之下，其他方法仅使用基于图像的ReID模型提取视频帧特征，并探索如何集成或匹配多帧特征。本文尝试通过开发改进的3D卷积模型来解决基于视频的ReID，以获得更好的时空特征表示。

Temporal Information Modeling. 计算机视觉中广泛使用的时间信息建模方法包括LSTM、3D 卷积和Non-local操作。LSTM和3D卷积擅长于对局部时间关系进行建模和对相对位置进行编码，而Non-local操作则可以处理远程时间关系。它们是互补的。Zisserman等人已经证明3D卷积在视频分类任务上优于CNN+LSTM。本文主要改进原始的3D卷积以避免外观破坏问题，并尝试将提出的AP3D与一些现有的3D ConvNets结合起来。

Image Registration. 将不同的图像转换到相同的坐标系称为图像配准。这些图像可以在不同的时间、从不同的视角或不同的方式获得。可以使用刚性、仿射或复杂变形模型来估计这些图像之间的空间关系。对于所提出的方法，APM的对齐操作可以被视为特征图配准。不同的特征映射是在连续时间获得的，并且人的主体是非刚性的。

（ECCV-2020）基于视频的行人重识别的外观保持三维卷积(一)

基于视频的行人重识别的外观保持三维卷积

Abstract

Keywords

1 Introduction

2 Related Work

猜你喜欢