跨镜追踪(行人重识别Person Re-identification)读书笔记(三)

版权声明:本文为博主原创文章,转载请注明出处 https://blog.csdn.net/weixin_33860450/article/details/86598190

《Parameter-Free Spatial Attention Network for Person Re-Identification》

论文地址:https://arxiv.org/pdf/1811.12150.pdf

GitHub代码:https://github.com/HRanWang/Spatial-Attention

文章指出,全局平均池化Global average pooling (GAP)能够为回归问题聚焦出有效的信息,但也可能造成部分信息的丢失。因此作者在GAP前添加了一个spatial attention来改善问题,如下图所示,其中FCN表示全连接层FC。

                                                         

 文章将reid看成classification问题,提出的网络框架如下图所示,采用ResNet-50前4个stage作为backbone,并且每个stage都添加一个监督loss,即左下红色区域。采用PCB的做法,将最后的特征进行横向均分成6个部分。下图黄框为backbone,红框为各stage的监督信号,绿框中的SA即为GAP之前的spatial attention,右下蓝框便是PCB的部件分类模块。注意右边的那个SA(spatial attention)并非main model的部分,它只是用在减模型测试时使用。监督分支的输入特征都经过一个SA(spatial attention)进行空间信息筛选,然后全局平均池化GAP,接着便是全连接层并用cross-entropy loss进行分类。最后的loss由三个部分组成,监督信号的三个loss+全局loss+6个部件loss。测试的时候移除掉classifier,采用Euclidean distance来计算不同目标之间的特征距离即可。

                                                 

 接下来说一下SA(spatial attention),如下图所示,蛮简单的,把feature在channel通道上压缩,采用各通道数值直接相加的办法,得到的H×W的特征图,然后reshape成一个1×(H*W)大小的数组,接上一个softmax来得到每个像素点出现的权重,接着reshape回原来的H×W尺寸,并和原feature各个通道相乘即可。

                                         

 整体没有特别复杂的东西,但是得到的结果很不错,文章贴出的在各个数据集指标如下,但是用了github作者给的maeket上训练好的模型,得到的map却大大低于文章所示,不知道怎么回事,有时间再自己练一个看看吧。

                                    

猜你喜欢

转载自blog.csdn.net/weixin_33860450/article/details/86598190
今日推荐