《Deep Transfer Learning for Person Re-identification》-阅读笔记

行人重识别是一种对不同个体跨摄像头的细粒度检索任务，由于任务自身的特性，数据的标注代价远大于其他常见的视觉任务，例如图片分类（ImageNet）或者一些人脸匹配任务。目前最大的行人重识别数据集也仅仅只有数千人，十万个左右的bounding box，这对于神经网络的训练来说，并不是一个充足的大小，因此，如果能将在一个或者若干个数据集上学习到的模型进行一些简单的调节就可以应用到新的场景下降非常具有实际意义。但是实际情况是，reid的常用模型在跨数据集场景下，准确率将大大下降，远远不如在target数据集监督训练的结果。因此，通过迁移学习，将一个已经学习的比较好的模型去适应新的场景将变得非常重要。但是实际上在reid领域，除了最新的CVPR2018的几篇，之前只有一两篇谈论过这个问题，例如：A Discriminatively Learned CNN Embedding for Person Re-identification，有兴趣的朋友可以自行查阅

对于迁移学习，一般的思路都是在source domain进行充分的训练，然后同网络进行一些简单的修改（例如全连接层的size）之后再target domain进行fine tuning

但是，本身图像分类任务和reid任务还是存在很大的区别，作者首先提出了第一个点：即尽可能的充分利用label信息。换到网络上就是将classification和verification网络和起来来对base network进行更新，网络结构如下：

网络可以总结如下：

1.base network相当于一个特征提取器，是一个在ImageNet上预训练过的GoogLeNet的特征提取部分

2.添加了两种subnet来充分利用ID信息，对输入的图片不仅进行ID分类，还进行照片对的验证

3.利用一个dropout选择器，首要的当然是防止过拟合，至于为什么要搞一个选择器，也很好理解，classification部分图片对随机dropout互不影响，而在verification部分，需要对图片对的dropout进行统一，也是为了排除dropout对核实的影响

4.两个部分都采用cross-entropy loss

其上上面这种classification和verification结合的思想好像在2016就有了。。。作者在此基础上又提出了一个two-step fine tuning的创新点（感觉就是个trick。。。。）

1.将softmax层替换成target域的ID数量，固定前面所有参数，进行一步fine tuning（固定base/verification network）

2.待softmax收敛或者达到一定轮数后，接触限制，对整个网络进行fine tuning

这就是传说中的two step fine tuning。。。。。

然后个人觉得比较有价值的是作者提出的关于无监督情况下的迁移学习

作者对self-training和co-training进行了介绍和比较：

self-training的思想很简单，将图片分成两个域（文中是分成camera A,B），给A这中的每个图片一个ID，然后用聚类的方法对B中每一张图片找到A最近的ID，从而赋ID给B，这种方法存在巨大的噪音，基本上是没啥用处的，在此基础上，作者提出了一种Co-training的方法：

1.self-training存在巨大的噪音，训练效果很差

2.co-training本身是针对具有相同网络的两个模型相互填补unlabel的部分，进一步可以换成两种不同的网络。将上文的self-training作为其中一个网络，再加上一个graph regularised subspace learning model，目的是去学一个特征子空间（相当于一个聚类了），然后再结合self-training进行聚类，反之利用self-training输出的作为另一个网络的输入

试验部分结果如下：

1.一致的Dropout VS 随机的Dropout： 80.8%-> 83.7%

2.Two-stepped VS one-stepped: 47.6%->56.3%(VIPeR）

3.有监督迁移和无监督迁移

《Deep Transfer Learning for Person Re-identification》-阅读笔记

猜你喜欢