2018.09.10

Person Re-Identification by Deep Learning Multi-Scale Representations 

Motivation:

目前所有re-id的方法,不管是不是基于CNN的,第一步都是将图像resize到统一大小然后再来提取特征。这种做法会模糊掉图像在不同尺度上的显著性特征,因此作者认为这样的方法不是最优的,本文提出了一种在多尺度上提取特征并且共同学习的方法,称之为DPFL(Deep Pyramidal Feature Learning)。

Network:

Loss:

  • Single Scale Feature Learning

 

使用的主网络是42层的Inception-V3,每个scale上都是用同样的网络结构进行softmax分类,得到每个scale上输入图像的分类概率

  • Multi-Scale Consensus Learning

同样利用公式(2)进行multi-scale的feature learning

提取主网络最后一层卷积层的特征c∗c∗2048c∗c∗2048维,然后加上averaging-pooling→vector concatenation→dropout得到2048*m维的向量,m为scale的个数。然后进行softmax分类,得到各个scale特征融合之后的分类概率

当T的值为1的时候变为hard target,即标准的softmax loss,此时对于多分类用的是one-hot形式表示的label,这样表示存在的问题就是不能更好的表示类间可能存在相似性,比如猫和虎之间的概率差值范围到不了1,但T值变大的时候,类间的差别变得平滑。但在文中,T值仍然设置的为1.

  • Feature Regularisation by Consensus Propagation

一致性传播的特征约束,本人理解为多个scale的预测概率要跟混合之后的预测ID是相同的,于是在单scale的loss上加了一个正则项约束。

  • 模型优化:

实验结果忽略。

前向时先每个分支学习,然后每个分支上加上正则项;反向时先每个分支更新梯度,然后融合的分支更新梯度。

本文主要考虑的是scale因素,不同scale的特征会弥补单scale提取特征的不足,单scale可能会忽略或者漏掉一些重要的信息特征,多scale是否能够用在parts上的?

Part-Aligned Bilinear Representations for Person Re-identification 

本文主要是解决了part misalignment问题,主要应用Bilinear Representationstwo-stream network,如图示:在原始的Bilinear CNN中,一个stream学习图像区域的位置,一个stream学习的对应位置的特征,之后经过Bilinear层将位置与其对应区域的特征进行外交,之后再concatenate特征,经过度量计算相似度,这样的方法相当于在appearance feature的相似度计算上加上了part feature作为权重约束。本文的loss是传统的triplet loss。

Bilinear CNN 双线性模型在一系列视觉任务表现很好,如语义分割,细粒度识别,面部识别

 

问题:

怎样把对应位置的feature相乘?

appearance feature map怎样和location feature map对应起来,进行对应的外积呢

猜你喜欢

转载自blog.csdn.net/dashan8608/article/details/82596634