论文笔记HCP：Single-label to Multi-label

1 简介

参考2014年论文《CNN: Single-label to Multi-label》，该论文中提出了HCP（hypothesis-CNN-Pooling）。HCP可以进行一张图片中多物体（多标签）的识别。Hypothesis基本可以理解为物体建议（object proposal）。

先介绍个模型BING（binarized normed gradients 二值化标准梯度）。对于物体的识别，比如RPN模型，其检测效果依赖于大量的ground-truth 标注，这样就导致RPN的检测效果不具有一般性，即训练过的物体可以识别，换一种其他物体就很难识别。而BING就尝试提出一种具有一般性的物体建议（object proposal）检测方法，其采用normed gradients作为特征。

从单标签图片分类到多标签图片分类，标签的空间就会从n扩展到2的n次方，所以需要更多的训练数据。同时多标签图片数据的收集与标注也需要庞大的工作量。所以HCP采用了BING。

2 模型特点

不需要ground-truth bound ing box。和BING有关吧
HCP对噪声是健壮的。
HCP不需要明确的hypothesis 标签。和BING有关吧
shared CNN可以预训练。采用imageNet（单独标签的）。
HCP的输出本质上是多标签预测结果。

3 模型架构

（1） BING提取了一些物体的proposal，然后采用HS（hypothesis selection）方法从这些proposal中选择出一些hypothesis。
（2）上面的hypothesis输入到shared CNN网络。该网络采用imageNet（单独标签的）数据进行了预训练。对于每个hypothesis，输出一个c维的预测结果。
（3）微调参数，针对多标签数据进行训练。采用cross-hypothesis max-pooling 产生最终的预测结果。
在这里插入图片描述