Unsupervised Person Re-identification by Soft Multilabel Learning

CVPR2019 行人重识别

Unsupervised Person Re-identification by Soft Multilabel Learning

原文链接：https://arxiv.org/abs/1903.06325

本文介绍了一种无监督学习的REID新算法，主要有两个贡献:

1. 提出了soft multilabel，一种应用于无监督学习的REID新思想。
2. 基于soft multilabel，设计了几种损失函数，解决了一些常见的问题（比如跨摄像头问题等）。

重点介绍其思想，数学方面比较简单，可以参考原文。

soft multilabel

坐标（1，1，2）可以表示空间中的一个点，其中三个维度分别对应x轴、y轴、z轴。现在想象，把x轴、y轴、z轴替换成N类行人图片，每一类图片构成一个维度，那么，N类行人图片就构成了一个N维空间。那么如果N足够大，这个空间不就可以表示任意的行人了吗？
基于以上思想，作者利用有标签的行人数据库，构建了该空间（当然是利用其embedding）。那么无标签行人数据库的embedding就可以利用该空间表示出来。比如在该空间中的坐标是(0.1,0.02,0.7,0.1,…)，再通过一定的数学约束，那么该坐标就是无标签训练数据库的soft multilabel。
如下图所示。
在这里插入图片描述

三种损失函数

一、针对hard negative
在这里插入图片描述
如图所示，pair1和pair2的embedding的相似度很高。（pair1是同一个人，pair2不是）但是pair2中两张图的soft multilabel的相似度（agreement）较低，所以pair2就是hard negative。针对该问题，使用如下损失函数。使pair1接近，pair2远离。其中P和N分别代表pair1和pair2所在的集合。
在这里插入图片描述
二、针对多摄像头

这个比较好理解，同一类图片因为摄像头角度变化而产生较大差异是我们不愿意看见的。如下图所示。
在这里插入图片描述
我们希望同一个人在不同摄像头下的soft multilabel是一致的，而实际并非如此。P1和P2代表了同一批图片的soft multilabel在不同摄像头下的分布。于是作者对分布的差异性进行惩罚，提出如下损失函数。

其中v代表摄像头编号。该loss做的也就是惩罚不同摄像头下分布的均值和方差的差异性。

三、针对表征空间

我们希望利用有标签数据库中的N类图片构建表征空间，那么为了让该空间具有更强的表征能力，就需要让每一维空间具有正交性。也就是让每一类图片的差异大一些，作者据此提出了损失函数Lal。

前面说到，使用该空间表征另一个数据库中的行人图片。但是我们不希望被表征的数据和某一维度的特征太像。这样不就构成了hard negative pair 吗？所以，作者又提出了损失函数Lrj。

扫描二维码关注公众号，回复： 10618500 查看本文章

将两种损失加权，组成新的损失函数。如下图。

在这里插入图片描述

最后将以上三种损失函数加权组合为最终的损失函数训练模型。

实验数据证明，这种方法非常有用，性能大幅提高。但是个人认为横向比较有失公平性，因为毕竟利用了有标签数据库对训练进行了辅助。但是这种思想还是值得借鉴的。

最后看一张图片直观感受一下这种方法。

在这里插入图片描述
红框标记的是6对hard negative pair。后面对应的两张图片是表征空间中与其最相似的两张图片。我们通过soft multilabel将其检测出来。那么，soft multilabel能否具象为实际意义呢？图片下方的文字给出了说明。比如第一组，虽然外观相似，但是上面的胖一些，下面的瘦一些，导致了soft multilabel具有差异性。

之前有过这种想法，被抢先做了…不说了，我要努力学习了！

完

欢迎讨论，欢迎吐槽。

嘻嘻哈哈yjy

发布了38 篇原创文章 · 获赞 142 · 访问量 2万+

私信关注