论文之Learning Discriminative Features with Multiple Granularities for Person Re-Identification

最近几天看了这篇2018年发在CVPR上的文章，针对之前的reid的方法中，越来越多的方法考虑到不仅要关注全局特征，还要关注局部特征。好多论文的工作提出分块思想主要是更好地提取局部特征。但是，考虑到以往的基于part的方法主要是通过定位具有特定预先提取语义的区域来学习局部表示，这增加了学习的差异性，对方差较大的场景没有效率或鲁棒性。所以作者提出了一种端到端的学习判别信息的方法通过不同粒度的学习。（这了很像金字塔结构SPP啊，就是根据每层网络结构设置不同的size）。
行人重识别任务中，在姿态多变性，服装上以及混杂的背景下一直具有很大的挑战。在我们根据查询的行人整个身体的图片提取判别信息时，往往会忽略掉很多细节的东西，包括近来几年提出的一些pose以及分块思想的方法中，并不能很鲁棒的学习行人的特征，包括最近的方法使用attention，在基于分块的方法中根据part定位方法主要分为三种渠道：①定位part区域根据强有力的结构信息，比如说有关于人类身体的先验知识（这里我理解的是，比如说定位到了一个人的胳膊，很明显根据part显示的图片就知道这个人的上衣穿的是短袖）或者是姿态信息。②通过区域定位学习更好地part的定位。③通过在mid-level加入attention，从而在一些显著区域加强特征。然而，明显的局限性阻碍了这些方法的有效性。首先，姿态或遮挡变化会影响局部表示的可靠性。其次，这些方法几乎只关注特定区域语义的特定部分，而不能覆盖所有的判别信息。最后，这些方法大多不是端到端的学习过程，这增加了特征学习的复杂性和差异性。
在本文中，我们不用额外的信息去定位更好地学习判别信息。
主要亮点是提出了MGN这个多分支的网络结构吧，大致主要分为三个分支，第一个分支学习整张图的全局特征，另外两个分支分别学习局部特征，而且这两个分支设置的粒度，一个分割成两个part，另外一个分成三个part…如下图：
在这里插入图片描述
Feature response maps in diﬀerent granularities
阐述几个不容易理解的词语：granularities，这里是指网络的部分，网络主要是三个分支，而且每个分支分的part不同，所以可以理解为多granularities。
Coarse—>Fine
这里在文章中，作者吧在第一个分支提取全局特征来进行判别语义信息的过程称为Coarse。另外两个分part的提取局部特征这个过程叫做Fine。
最后实验部分还没验证，欢迎各位交流指正啊！

论文之Learning Discriminative Features with Multiple Granularities for Person Re-Identification

猜你喜欢