2018-CVPR-Harmonious Attention Network for Person Re-Identification

论文地址
 代码实现【Pytorch】

Motivation

对于大幅度的姿势变化以及错检带来的行人框对准问题，现有方法采用constrained attention selection mechanisms解决并不是最优的，如何更好的优化该问题呢？

Contribution

提出了新的联合学习多尺度注意力徐州与特征表示方法
Harmonious Attention Moudle
- hard region-level
- soft pixel-level
  ==> a lightweight Harmouious Attention module
cross-attention interaction learning scheme：进一步提高注意力选择与特征表示的兼容性

1.Introduction

本文关注的问题：
- 检测算法带来的对准、背景混杂、遮挡、缺失身体问题
- 不同摄像头视角下姿势变化的图像匹配不对准问题
现有方法解决思路：
- 成对图像匹配中的局部区域校准和显着性加权 ==> 缺点：依赖手工特征，缺少深度特征的判别力
- Attention deep learning model:借助现有分类模型，过于复杂且只有粗糙的区域注意力，忽视了细节信息，对小数据集的训练不是很有效
本文将注意力选择与特征表示进行联合学习，提出了一个轻量级网络HACNN

2.Related Work

attention selection techniques:
- hand-crafted features
attention deep learning methods(PDC等):
- regional attention selection sub-network(hard attenion)
- soft attention
HA-CNN的优势：
- soft + hard
- multi-level correlated attention
- cross-attention interaction learning

3. Harmonious Attention Network

目标：在剧烈的视角变化的情况下学到最优的深度特征表示模型

HA-CNN Overview

- a harmonious attention learning scheme：对于边界框未知的不对准进行attention selection - hard attention ==> local branch - soft attention ==> global branch - a cross-attention interaction learning scheme between the local and global branches：提高柔和与兼容性来同时优化每一个branch

3.1.Harmonious Attention Learning

hard regional attention(STN) + soft spatial(RAN) + channel attention(SE)

(Ⅰ)Soft Spatial-Channel Attention

(1) Spatial attention:

4层的网络(10个参数)
- a global cross-channel averaging pooling layer(通道维度池化)
- 3 x 3 conv s = 2
- resizing bilinear layer
- scaling conv layer:自适应学习融合尺寸，达到与通道注意力的最优融合
跨通道池化公式定义: $h \times w \times c$ ==> $h \times w \times 1$ ，对于第二层的卷积降低了c倍参数
$S^l_{input}= \frac{1}{c}\sum_{i=1}^{c}X^l_{1:h,1:w,i}$
cross-channel pooling合理性：所有通道共享相同的空间注意力图

Channel Attention

4-layers
squeeze-and-excitation sub-network

(Ⅱ)Hard Regional Attention

作用：利用STN思想，在不同的层次通过转换矩阵定位潜在的 $T$ 个判别区域 (这里有些细节还不是很清楚需要再看看）
$\mathbf{A}^l = \left[ \begin{matrix} s_h & 0 & t_x \\ 0 & s_w & t_y \\ \end{matrix} \right]$
与STN的区别：

(Ⅲ)Cross-Attention Interaction Learning

通过全局与局部特征的交互来提高联合学习soft与hard attention的效果：
- 利用Hard attention产生的区域将全局与局部特征对应
  $\mathbf{X}_L^ {l,k} = \mathbf{X}_L^{l,k}+\mathbf{X}_G ^{(l,k)}$
反向传播过程中，全局分支的参数通过全局与局部损失联合进行优化
$\Delta\mathbf{W}_G^{(l)} = \frac{\partial\mathcal{L}_G}{\partial\mathbf{X}_G^{(l)}}\frac{\partial\mathbf{X}_G^{(l)}}{\partial\mathbf{W}_G^{(l)}} + \sum_{k=1}^T\frac{\partial\mathcal{L}_L}{\partial\widetilde\mathbf{X}_G^{(l,k)}}\frac{\partial\widetilde\mathbf{X}_G^{(l,k)}}{\partial\mathbf{W}_G^{(l)}}$