Camera Style Adaptation for Person Re-identification(Camstyle)阅读笔记

前言

最近几天受我郭师叔指导,一直在看关于person Re-identification的文章,方法林林总总有很多。比如前两天看的关于AACN框架的,以及昨天的那篇利用adversarially sample进行数据增广从而提高模型性能的。今天看的这篇文章则是提出来一个新的观点,他认为影响模型性能的一个重要因素是,训练的图片如果都由一个相机采集,那么由于其他不同相机采集的图像在测试的时候,由于位置,相机本身性能等诸多因素的影响,会导致模型性能的下降。那么呢,文章中提出了一种称为Camera style adaption的方法,可以将一幅图像增光为由不同相机拍摄出来的样子,从而达到了以下两个目的:1)解决了数据量不足的问题。2)学习到了不同相机背景下图片本身的特征。那么先给大家看一下图像自适应增广之后的结果图:


上面的这个图像增广是Market-1501这个数据集上进行的。将他里面一个固定相机场景下的图片转化为由其他另外五个相机拍摄出来的图片。这里有几点说明:(1)一开始我认为这个效果是很差的,因为图片之间并不存在明显差异,后来经过分析,不同相机并不是不同角度拍摄,同一角度不同相机拍摄的话只需要存在细微的差异就够了,从模型的角度分析的话,这样的一点差异,就屏蔽了原图的一些特征,从而促使训练过程中需要寻找新的特征,从而醋精来模型性能的提高。(2)在图片中红色标注的部分,不可避免的出现了一些噪声点,为了解决这个问题,文中引入了label smoothing regularization来解决这个问题。

下面首先介绍一下模型的总体框架:


首先是真实数据集的图片,经过style transfer model增广了其他角度的相机图片,然后生成新的数据集,然后再经过CNN网络,池化层,全连接层输出最后的结果。

本文中最重要的部分就是他题目里面提到的camera-aware transfer,那么这个到底是什么呢?简单来说就是一个多通道的对抗网络。CycleGAN,这个网络包含了两个模型,一个函数G表示从数据集A向数据集B转化,一个函数F表示由数据集B向数据集A转化,然后有两个判别式Da和Db用来判断这个输出的图像是原图像还是转化之后的图像。整个模型的损失函数可以写成下面这个方程:


其中的第一个和第二个分别是G和F自己的损失函数,最后一个是循环同步损失(cycle consistency loss)用来计算图片经过转化和恢复之后与原图之间的损失函数。

在文章中,我们使用了上述方法来进行数据增广,这个增广方法对于不同的相机需要两个两个来进行。同时为了保证图片转化之后在色彩上的连续型,文章中还加入了identity mapping loss(个人特征损失)这样一个函数单损失方程中去,进行像素级的对比训练,这个函数表述如下:


完成上述两步之后,最后的ReLD训练的函数采用的ResNet-50作为基础,在ImageNet与训练的基础上微调。将最后一千维度的全连接层删除,加入两个全连接层,第一个全连接层有1024个单元,之后是batch归一化,Relu激活函数和drop out层,然后再接入你需要的转化相机个数的全连接层。具体如上图所示。

训练

这之后的训练过程可以分为普通版本以及full version。Camstyle解决了数据量不足以及过拟合的问题,但是却引入了噪声,当使用较少的摄像头拍摄,不采用Camstyle就避免了噪声,但是由于数据量太少又容易引起过拟合,这就是一个矛盾体,但是引入了LSR之后就有效的解决了这个问题。

在普通版本(Vanilla version without LSR)里面,每个batch中会随机选择M个真实数据以及N个fake数据,这个损失函数可以表示为:


其中的LR和LF可以表示为:


其中C表示有多少种类,p(c)表示的是输入图片被预测属于原始图片的几率,所以所有的P(c)加起来应该为1.q(c)是真实数据的分布,可以表示为:


当对于一个给定的人物的时候这个方程还可以继续简化下去,这里就不详细讲解了。

下面说说full version与Vanilla version的区别,其实主要也就是LSR,那么什么是LSR呢,就是在之前关于q(c)这个ground-truth的分布采用的是one-hot这样一种办法,非一即零,在LSR里面呢,我们对真实的label少一点权重,对于其他的类也给一点点权重,方程如下:


 

到晚上了写到最后有点写不下去了,简单总结一下吧。个人觉得这篇文章主要是介绍一种数据增广的方法并且把它应用到ReLD里面来了,增加camera的数量而提高模型的性能,本质上就是数据增广了,数据量增大了,模型的性能必然会有一些提升。当然,本人纯属初学者,如有言论不当的地方欢迎指教。

猜你喜欢

转载自blog.csdn.net/weixin_40955254/article/details/80991345