Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

作者：魏秀参，Chen-Wei Xie，Jianxin Wu
来自：南京大学新型软件技术国家重点实验室
https://arxiv.org/pdf/1605.06878.pdf
本文针对细粒度图像识别问题，提出了一种新颖的端到端Mask-CNN模型，它不需要完全连接层来进行细粒度识别。该模型基于细粒度图像的部分标注，由完全卷积网络构成，用于定位可识别的部分(如头部和躯干)，更重要的是生成obj Mask以及part Mask，用于选择有用和有意义的卷积描述符。然后，建立一个四流Mask-CNN模型，用于同时聚合选定的obj级和part级描述符。与先进的细粒度方法相比，所提出的Mask-CNN模型具有最小的参数数、最小的特征维数和最高的识别精度。
主要贡献：
- Mask-CNN是第一个端到端的选择深度卷积描述符用于细粒度识别的模型。
- 基于区域的四流模型，放弃了全连接层，且与之前的方法相比，M-CNN有最少的参数量和最小的特征维数，通过SVD whitening方法，特征表示被压缩到4096-d，同时精确度提高到85.5%。
- 局部区域定位的表现优于其他需要标注框的方法。

关于如何学习Mask，作者使用了FCN，关于FCN模型大概就是在最后的时候吧FC替换成Transposed conv，将feature map放大，这样就可以得到mask，更详细的部分等看了再补充
下面是FCN的检测效果

训练细节补充：
- 使用VGG-16作为baseline，并保留pool5之前的层(包括pool5)。当输入图像为224 × 224时，pool5的激活张量为7 × 7 × 512。因此，我们有49个512-d的深度卷积描述符
- Mask是1-0矩阵，选择实现的过程就是和Mask矩阵之间的乘积运算