Joint Discriminative and Generative Learning for Person Re-identification

行人重识别之端到端的生成与识别

Joint Discriminative and Generative Learning for Person Re-identification
原文链接：http://openaccess.thecvf.com/content_CVPR_2019/papers/Zheng_Joint_Discriminative_and_Generative_Learning_for_Person_Re-Identification_CVPR_2019_paper.pdf

喜欢公布代码的文章，这样对于推动科研的发展才更有意义，也更经得起检验。推荐大家看看这篇文章的代码：
https://github.com/NVlabs/DG-Net

一般的使用GAN做样本增强的算法都是先训练GAN，然后再用生成的图像训练CNN。这篇文章的贡献是将两者结合成了端到端的网络，与此同时也在一定程度上解决了行人重识别中图像的结构变化、外观变化的问题。唯一的缺点是，损失函数的超参数偏多，训练流程些许繁琐。

话不多说，直接分析其算法框架：
在这里插入图片描述

图中的编码器、生成器、判别器都是resnet的结构，在层数上有一些差别。
a代表外观信息，包括服装、头发、背包、背景等。s代表结构信息，主要指行人动作，具体如下图。除了最左一列和最上一行的图像，其余都是生成的。
x只有下标:表示数据库中的第i张图像。
x有下标和上标:图像是生成的，利用了上标图像的外观信息，利用了下标图像的结构信息。看一下框架图中的c就可以理解。

了解了以上内容，接下来详细说一下算法的内容：

(接下来用a代表外观特征向量、s代表结构特征向量)

生成模型：

扫描二维码关注公众号，回复： 10618420 查看本文章

类内生成模型：

如(b)所示，提取i的a和s，提取t的a，两张图像的label相同，所以利用以上a和s生成的图像应该是相同的。损失函数如下：
在这里插入图片描述

前两者对生成图像的差异进行惩罚，后者对图像的label进行监督。通过以上三者，实现了类内生成的监督。主要目的是为了训练G。
注意:由于G对于s更加敏感，容易忽略a，所以，提取s的时候只使用灰度图像。