论文阅读笔记(三十八)【AAAI2020】:Semantics-Aligned Representation Learning for Person Re-identification

Introduction

(1)Motivation:

当前的reid存在语义不对齐的问题,如下图:

图(a)显示了不同图片的相同位置对应了行人的不同身体部位;图(b)显示了不同图片呈现的部位不一样,有些是正面有些是背面等。

(2)Contribution:

提出了一个语义对齐网络(Semantics Aligning Network,SAN),介绍了对齐纹理生成子任务。该网络包含一个ReID编码器SA-Enc和一个重构对齐语义纹理的解码器SA-Dec。

The Semantics Aligning NetworkSAN

(1)网络框架:

扫描二维码关注公众号,回复: 11335398 查看本文章

网络框架包含了两部分,SA-Enc用于编码行人的特征,SA-Dec用于生成语义对齐后的纹理图片,解码器理解为把3D的行人展开为2D图片,该图片包含的区域特征已经完全对齐了。SA-Enc模块最终输出的特征映射为,进行平均池化得到特征向量,损失函数采用ID损失和三元组损失。SA-Dec采用非ReID的数据集进行训练(忽略ReID的监督),损失函数应用三元组损失和重构损失。

(2)Densely Semantically Aligned Texture Image

行人纹理图包含了一个人的3D样貌,如下图所示:

 

伪纹理图像的生成:作者采用了去掉ReID监督的SAN网络,即SAN-PG网络,生成图片对应的纹理图像。为了训练SAN-PG,作者基于SURREAL数据集合成了Paired-Image-Texture数据集(PIT),合成方法如下图。通过给出纹理图、3D人体模型、背景图,得到行人生成图。

(3)SAN:

① SA-Enc:采用了ResNet50的四个残差模块。损失函数采用了交叉熵(ID)损失和三元组损失。

② SA-Dec:损失函数采用了重构损失,最小化生成的纹理图和真实纹理图的距离。解码器不仅需要生成纹理图,还需要能够判别行人的ID,因此衡量了解码器每一层的每一个纹理区域的特征距离,损失函数采用的三元组损失,第 l 个模块的损失计算如下:

其中为该特征映射的分辨率。

(4)优化:

第一步:只使用重构损失,采用PIT数据集训练SAN-PG;

第二步:SAN采用SAN-PG的权重进行初始化,再对SAN进行训练,同时进行ReID和对齐纹理图的生成。

Experiment

(1)实验设置:

数据集:CUHK03、Market1501、DukeMTMC-reID、MSMT17、Partial REID、Partial-iLIDS;

(2)方法效果图:  

 

(3)实验结果:

猜你喜欢

转载自www.cnblogs.com/orangecyh/p/13172467.html