论文阅读笔记（三十二）【ACM Multimedia 2018】：Learning Discriminative Features with Multiple Granularities for Person Re-Identification

Introduction

当前的part-based reid方法分为如下三类：

① 采用人体部件位置的先验知识或者姿态估计来定位部件区域（如把图片按若干个水平区域划分）；

② 通过部件定位方法来识别部件；

③ 采用注意力机制来关注部件区域。

作者提出了一个全局、局部不同粒度特征联合学习策略，即 Multiple Granularity Network（MGN），如下图：

Multiple Granularity Network

IDE baseline 提取出的行人特征映射图如下所示，可以发现即使没有采用注意力机制，深度神经网络依然能够提取出行人肢体的语义信息。

（1）网络结构：

三个网络分支的细节为：

① 上层分支为全局特征提取。先采用步长为2的下采样，紧接着全局最大池化得到特征映射，再进行1*1卷积、batch正则化、ReLU激活，把2048维的特征下降到256维的；

② 中间分支和下层分支不采用下采样，区别在于中间分支将特征map划分为2块，下层分支将特征map划分为3块，分别对全局和局部进行池化。

③ 在测试阶段，所有的256维度的特征向量进行concat，得到最终的特征向量进行度量。

（2）损失函数：

① softmax损失：

其中对应的是第 k 类的权重，对于三层的局部特征和全局特征均计算softmax损失。

② 三元组损失：

对于三层的全局特征计算三元组损失。

Experiment