2018.09.10

Person Re-Identification by Deep Learning Multi-Scale Representations

Motivation：

目前所有re-id的方法，不管是不是基于CNN的，第一步都是将图像resize到统一大小然后再来提取特征。这种做法会模糊掉图像在不同尺度上的显著性特征，因此作者认为这样的方法不是最优的，本文提出了一种在多尺度上提取特征并且共同学习的方法，称之为DPFL（Deep Pyramidal Feature Learning）。

Network：

Loss：

Single Scale Feature Learning

使用的主网络是42层的Inception-V3，每个scale上都是用同样的网络结构进行softmax分类，得到每个scale上输入图像的分类概率

Multi-Scale Consensus Learning

同样利用公式（2）进行multi-scale的feature learning

提取主网络最后一层卷积层的特征c∗c∗2048c∗c∗2048维，然后加上averaging-pooling→vector concatenation→dropout得到2048*m维的向量，m为scale的个数。然后进行softmax分类，得到各个scale特征融合之后的分类概率

当T的值为1的时候变为hard target，即标准的softmax loss，此时对于多分类用的是one-hot形式表示的label，这样表示存在的问题就是不能更好的表示类间可能存在相似性，比如猫和虎之间的概率差值范围到不了1，但T值变大的时候，类间的差别变得平滑。但在文中，T值仍然设置的为1.

Feature Regularisation by Consensus Propagation

一致性传播的特征约束，本人理解为多个scale的预测概率要跟混合之后的预测ID是相同的，于是在单scale的loss上加了一个正则项约束。

模型优化：

实验结果忽略。

前向时先每个分支学习，然后每个分支上加上正则项；反向时先每个分支更新梯度，然后融合的分支更新梯度。

本文主要考虑的是scale因素，不同scale的特征会弥补单scale提取特征的不足，单scale可能会忽略或者漏掉一些重要的信息特征，多scale是否能够用在parts上的？

Part-Aligned Bilinear Representations for Person Re-identification

本文主要是解决了part misalignment问题，主要应用Bilinear Representations，two-stream network，如图示：在原始的Bilinear CNN中，一个stream学习图像区域的位置，一个stream学习的对应位置的特征，之后经过Bilinear层将位置与其对应区域的特征进行外交，之后再concatenate特征，经过度量计算相似度，这样的方法相当于在appearance feature的相似度计算上加上了part feature作为权重约束。本文的loss是传统的triplet loss。

Bilinear CNN 双线性模型在一系列视觉任务表现很好，如语义分割，细粒度识别，面部识别

问题：

怎样把对应位置的feature相乘？

appearance feature map怎样和location feature map对应起来，进行对应的外积呢

猜你喜欢