A Multi-scale Spatial-temporal Attention Model for Person Re-identification in Videos 论文记录总结

小白一个,最新需要看行人重识别方面的论文,所以记录一下,有错误的地方可以评论区留言,互相交流学习,多多包涵
论文链接: https://ieeexplore.ieee.org/abstract/document/8941279.

第一次接触videos 的行人重识别

摘要

在本文中,我们提出了一种新颖的基于深度神经网络的注意力模型,用于从视频序列中学习具有代表性的局部区域,以进行人员重新识别。 具体来说,我们提出了一个多尺度的时空注意力(MSTA)模型,以从整个视频序列的角度来测量每个帧在不同尺度下的区域。 与传统的时间注意模型相比,MSTA专注于利用每个帧的局部区域在空间和时间域对整个视频表示的重要性。 通过将图像到图像模式与视频到视频模式相结合,为提出的模型设计了一种新的训练策略。 在基准数据集上进行的大量实验证明了所提出的模型优于最新方法的优越性。

介绍

行人重识别目的是匹配行人通过多个不重叠的摄像头,有很大的应用范围,比如公共区域的安全性,罪犯的调查,最近随着深度学习的快速发展,许多深度学习的方法被提出来并且比基于手工提取特征的传统方法效果好得多,传统方法基本上两个过程,第一步就是特征提取第二步就是距离度量学习相反的,卷积神经网络(CNN)和循环神经网络(RNN)是以端对端的结构,端对端的方式就是输入数据集,输出结果),为了学习具有区分度的特征,CNNS RNN 用基于欧几里得距离的损失函数来训练。比如,Siamese Loss Triplet Loss 和它们的变体,在推断阶段,两个提取特征之间的欧式距离揭示了这两个人的相似性。 这样,所生成的相似度可以直接输出人员re-id结果。

根据之前的总结,行人重识别有四种模式,图片-图片,视频-图片,图片-视频,视频-视频,其中,图片-图片最为常见,query和gallery都是图片,*图片-视频模式利用查询图片作为第一帧,**视频-视频 都是视频(query 和 galley),其中,视频-视频是最好的方式,因为,视频中包含更丰富的空间和时间信息相比于单张图片。这篇论文利用了视频-视频模式,调查了图片-图片和视频-视频的联系性,得到预训练过的图片-图片可以加强视频-视频的行人重识别的表现

一般来说,行人姿势,光照是主要的re-id课题的障碍,有障碍或者图片质量不好,会导致特征提取受限,,而且当行人出现在不同的摄像机里边,人物大小尺度也不尽相同,而且,不精确的检索结果会带来大量的背景噪声。例如图片1,一个自然地处理方法就是让行人重识别算法集中于好的帧,就是那些人物可以完全显示并且清晰,有了这个动机,一些方法尝试引进了注意力机制应用在视频模式的re-id,目前的注意力机制主要表现在图片级别因此可以视为时间注意力模型。**对于好的图片分配高的权重。有遮挡的分配低的权重,表明每个像素对行人重识别表征特征贡献很小。**但是,目前存在的方法忽视了一个事实,有遮挡的图片也可以有利于re-id,提供有关身体的空间信息。
Fig. 1: Examples from MARS. The three images of a targetperson come from three different cameras. The red boxesindicate the important parts including crucial information forperson re-id. As shown in the figure, the important parts aredifferent in location and scale across different cameras.

这篇论文中,我们的动机是选取好的局部从整个视频序列,而不是对于每个帧分配一个全局权重,提出了MSTA模型。不同于传统的基于动态信息的时间注意力模型,MSTA模型利用了整个视频序列每一帧的局部重要性,基于空间和时间领域。原因如下:(1)很多人的行走方式和相关行为很相似,导致很难抽取有效的特征在混杂的背景环境和有遮挡的情况下。(2)视觉感知研究发现,外表和运动刺激表明,模式检索阈值比运动检索阈值低得多。因此,识别外表比怎么走表现好,基于这个动机,作者的工作主要是集中于挑选显著的局部从每一帧,形成有区别度的外表表征,利用多尺度的注意力机制侧略。利用视频中关键外表信息,跟那些利用精确的动态信息提取相反。

总而言之,我们旨在通过为空间和时间方面的考虑将权重分配给局部区域特征来提出一种注意机制。 通过将以不同比例加以注意力权重学习的局部特征与注意的权重相加来形成视频表示。 为了实现这一目标,我们做出了以下贡献:
我们提出了一种新颖的时空注意力模型,以学习和聚集用于re-id视频表示的局部区域特征。
为了充分利用视频序列的时空特征,建议的注意力模型设计为以多尺度方式进行。
设计了一种新的训练策略,其中结合了图像到图像模式以增强对提出的MSTA模型的训练,该模型在视频到视频的re-id模式下工作。

相关方法

基于视频的行人重识别

行人重识别方法两个步骤:第一步:特征提取来描述一个人 第二步:度量学习用来对数据库的行人排序。
McLaughlin 三层CNN 获取空间特征 和一个RNN 得到时间行为。 损失为:matching loss + identity loss
Zheng alexnet 进行特征提取,通过平局帧特征得到视频特征。

re-id中的注意力机制

注意力机制在不同的课题中取得了很大的成功,一些首创的注意力机制模型提出来应用于基于视频的re-id。
Zhou [1] 时间RNN 在视频序列的不同帧上分配可以改变的权重。可以让特征学习关注于高权重的帧。
Liu [13] 提出了在质量不好的图片自动分配低分数来减小最终表征的噪音。
这两种方法是图片级别的注意力机制。可以看做时间注意力模型,错失了不好帧的好的局部信息。
Xu [6] 提出了采用时间和空间注意力机制来生成特征。但是忽略了不同帧局部区域的动态时间联系,因此,图片的局部区域不一定起到了重要的作用,
不同于这些注意力机制,我们的方法目标是关注好的局部区域,从整个视频序列的角度。可以看做时空注意力模型。

扫描二维码关注公众号,回复: 11244370 查看本文章

时空注意力模型

如何使模型在时空领域对特征关注不同级别的注意力,很多人设计时空注意力模型。
Mnih 【28】采用时间注意力模型来学习图片级别的视觉注意力用来图片分类。
‘’‘’‘’‘’‘’
‘’‘’‘’‘’‘’‘
‘’‘’‘’‘’‘’‘’
我们的方法为所有帧的局部特征学习时空注意力权重在一个单一的阶段,减少了计算量和得到更好地表现。同时,我们的方法不需要额外的基础事实纤细,比如 显著性和学习基于图片特征映射的注意力权重。

提出的方法

在这里插入图片描述
这部分主要展示了特征表征的生成。如上图2所示, MSTA 分两个部分:
(1)== encoder 用来为每一帧提取特征==
(2) 后边的Aggregator 有挑选的通过注意力策略来融合特征, 最后,用于行人重识别的视频表征就生成了。

Encoder

resnet-50的效果在re-di中效果很好,就直接剪裁resnet50 ,移除了最后的全连接层(FC),作为encoder ,用来对视频序列特征提取,一个视频有T个帧,输入到encoder,最后卷积层输出的特征映射大小为 HW, 整个视频序列的局部有NT,其中(N=H*W是一帧的局部).,因此,整个视频视频序列特征可以表示为 I = {I1,1,I12,,,,,,I1N,,IT,N} ,其中,Ii,j 是第i帧的第j个区域,2048维度对于resnet-50来说。

Aggregator

(1) 时空注意力池化: 为了建立帧的全局表征,每一帧的局部特征{Ii,1,Ii,N}通过平均时间池化,核大小为H*W,来聚集。也就是说,局部每一个地方都是平等的,没有说哪个地方是显著重要的,得到每一帧的表征
然后每一帧也是同等重要 ,就可以 得到最后特征,S-T池化
可以看到 每一帧,和每一帧里边的部分区域都是同等重要的。

在视频领域,以前的关注作品[1],[13]基于re-id的重点是学习时间级别的注意力权重{w 1,…,w T },而忽略了空间上的关注。在这论文中,我们提出了一个时空注意力集中来学习在时空领域上的注意力权重。我们使用具有两层的多层感知器(MLP)来计算计算特征{I ij } 的注意权重{a ij }时空汇集。整个注意力机制可以表示为:在这里插入图片描述
在这里插入图片描述
等式(2)W1,W2分别代表了MLP第一层和第二层的全连接层, 然后增加一个标准层(归一化层)利用softmax 就是等式(3)得到了attention 权重
最后 增加了两个FC,降低表征特征的维度。


在这里插入图片描述
在这里插入图片描述
(2)多尺度分支:在空间领域,我们应用不同尺度大小的平均池化来得到不同尺度的区域表征,相比于原始的特征映射,具有更大的接受野, HW大小的空间池化 ,将N个区域特征转化到一个特征,但是这样大小的池化核大小忽视了局部区域的有辨识度的表征.。为了全面调查给出视频不同尺度的显著区域。在特征映射上应用了多尺度分支,如图所示,11和1*4都是独立的流,最后把两个最后特征串联起来作为最后的视频表征。

(3)结构细节 : 如图3所示,每一个独立分支中,通过MLP学习得到注意力权重,MLP有两个FC,(等式2),为了减小注意力权重的通道数目减到一个,第一层和第二层分别有1024和1个神经元,然后融合局部特征和注意力权重,两个FC来减小视频特征的维度,第一层和第二层分别有1024和128神经元。因此,最后没个分支生成的大小是128维度。

因为两个分支,11 14 这样得到的效果好,串联两个分支结果,得到了256维度

训练

应用batch hardtriplet loss with soft-margin 以端到端的方式来训练我们的模型。【12】
在这里插入图片描述
B是一个batch中三元组的个数。
我们训练模型从图片-图片慢慢过渡到视频-视频,因为注意力模型学习权重依赖于encoder的特征提取,特征学习和注意力权重互相冲突,因此,如果视频-视频模式从零开始训练整个注意力模型,表现不是很好。
第一阶段,我们训练encoder图片-图片的模式,没有任何注意力模型在这一步,训练目的就是学得特征提取,经过这一步之后,encoder得到一般的特征提取能力。
第二阶段,我们对encoder增加了多尺度注意力模式,在整个模型上以视频-视频模式微调,因为特征编码器已经训练好了,这个训练过程就是轻微的调整参数和关注于学习注意力权重。
提出的训练策略不仅减小了特征提取和注意力之间冲突,还利用了多元化训练数据的优点。使每一步都得到了训练充分和有效,第一阶段训练样本为图片,减小了噪音相比于视频,所以特征提取从图片上得到了有缺别度的的信息。**第二阶段,训练样本是视频,具有更多的序列和外表信息可以利用,**总体来说,从整个序列角度来看。所提出的时空注意力模型可以发展成为学习如何分配权重到所有帧中每一帧的区域。

实验

(1) 数据集
(2)实施细节
(3)时空注意力池化对比
(4)多尺度分支对比
(5)训练策略对比
(6)与其他时空注意力对比
(7)注意可视化
(8)与目前比较好的方法对比

总结

在本文中,我们提出了一种基于注意的深度模型,用于从视频中进行行人重新识别。 通过将时空多尺度池与一个自注意网络集成,该方法能够从所有视频帧中选择可区分的局部区域进行识别。 为了优化训练,从图像到图像模式到视频到视频模式逐步训练了建议的注意力模型。 基准数据集上的大量结果证明了提出的注意力模型以及两阶段训练策略的好处。

猜你喜欢

转载自blog.csdn.net/qq_37405118/article/details/105168166