论文之FD-GAN: Pose-guided Feature Distilling GAN for Re-id

今天分享一篇发在今年NIPS上的一篇论文,论文全称如下:

FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification(想要论文的留言~)

这篇论文的工作主要是不用姿势辅助信息,提出只学习身份相关的特征,而不用姿势无关的特征,从而不需要额外的pose information也减少了计算量,从而降低了复杂程度。核心是这个工作用了一个二分支siamese网络来学习多个判别式模型,此外,领完一个工作是除了identity discriminator以及pose discriminator之外,本文还提出了一种same-pose loss,主要是根据siamese网络最小化两个生成的fake image之间的pose loss。这样也就使得两个相同的图片的两个生成图片更加相似。

看下面的网络架构图能更好的的明白全文的工作:

 图①

上图是siamese分支网络中的一个分支,利用位pose引导的图像发生器和鉴别器,学习鲁棒的与身份相关和与姿态无关的表示。在推理过程中,不需要姿态信息和额外的计算成本。

下图是整个Siamese分支网络架构:

图②

从上图可以清晰地看到这篇文章所做的工作,在损失函数方面,作者一共考虑了五种损失函数的计算,在下文详细讲解。看一下每个模块的具体架构:

在这里插入图片描述

(1) 上图是生成器G和图像编码器E的网络架构,即输入一张图X1经过Resnet网络编码特征,得到一个2048维的向量,同时设定的Target pose也会经过pose encoder进行编码到128维向量,最后再加入256维的noise,将三者融合共同输入generator网络得到fake image y,对于另一张图片X2亦是如此。

在这里插入图片描述
(2)上图是验证分类器的网络架构,即对应图②中绿色和蓝色部分的特征

损失函数定义如下(binary cross-entropy loss):

损失函数之一
在这里插入图片描述

在这里插入图片描述
(3)上图是身份判别器的网络架构,即判断输入图像与生成的图像是否是同一人,注意上图图中圈出的②与(1)中的①不共享权重,因为在①中的目的是学习姿态无关的特征,②是用于区分真假图

在这里产生一个identity loss…即输入图x1与生成图y之前的损失如下,当生成的image为真时表示成Let yk’ represent the real person image having the same identity with input image xk and the target pose p(引文有两个分支,所以x1,x2表示一开始输入image)

损失函数之二
在这里插入图片描述
在这里插入图片描述
(4)上图是姿态判别器的网络架构,即生成图像与原目标pose之间的一个衡量,验证生成图yk是否与target pose匹配,损失函数定义如下:

论文之FD-GAN: Pose-guided Feature Distilling GAN for Re-id
损失函数之三
在这里插入图片描述
(5)作者还考虑了生成的真假图之间的损失,即Reconstruction loss,定义如下:
损失函数之四
在这里插入图片描述

其中mn是真实/虚假图像中的像素数,(当输入图像X1,X2和目标POSE p没有对应的ground truth图像yk’时,这个损失就没有被利用。)

(6)图像发生器G的作用是帮助图像编码器只提取与位置无关的信息。作者将同一个人的两幅不同的图像和相同的目标姿态输入到Siamese网络的两个分支中,如果这两个分支中的条件视觉特征真的只是与身份相关,那么生成的两幅图像在外观上应该是相似的。因此,提出了一个相同的姿态损失(如下),称为Same-pose loss,以最小化两个生成的图像之间的相同的人与目标的姿态的差异

论文之FD-GAN: Pose-guided Feature Distilling GAN for Re-id
损失函数之五
在这里插入图片描述

整体损失定义:
在这里插入图片描述

实验部分:

三个数据集:Market-1501, CUHK03 , 以及 DukeMTMC-reID .

看一下实验对比:
在这里插入图片描述

作者提出的FD-GAN还是取得了很好的效果,代码打算这几天研究一下复现看看效果。有兴趣的可以留言讨论~

猜你喜欢

转载自blog.csdn.net/weixin_43979572/article/details/85254036
GAN