HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

提出的HyperNet网络基于设计的Hyper特征,这种特征主要先集合分等级的特征图,然后将其压缩到一个空间。这种Hyper特征同时具有足够深和很好的语义信息,在PASCAL VOC 2007和2012上可以通过每张图产生仅仅100个proposal,而达到很好的精度和效果,同时可以达到实时,GPU下 5 fps的速度。

Hyper方法主要的贡献有:
(1)在仅仅 50 proposal情况下,可达到 recall 95%,在100 proposal情况下,达到 recall 97%,远远高于其他算法
(2)在PASCAL VOC 2007和2012中, mAP分别达到76.3%和71.4%,比 Fast R-CNN提高 0.6 和 0.3
(3)速度可以达到实时,用深的CNN模型时可以达到 5 fps

HyperNet网络框架

这里写图片描述

上图即为HyperNet的网络框架图,从图形可以清楚地看到,本文提出一个新的特征Hyper 特征,而该特征主要是对于产生的分级的特征图进行整合得到的一个特殊空间。后面基于Hyper特征进行proposal的提取,并进一步完成分类与检测模块。

Hyper特征

在Hyper特征形成细节上,由于不同层大小的不同,在低层添加了max pooling layer以完成降采样过程;而在高层,添加 deconvolutional operation (Deconv),去卷积化来形成上采样。这样作者认为得到的信息结合了更多的语义信息,同时形成一个特殊的空间,最后通过local response normalization (LRN)标准化,即得到 Hyper 特征。
该特征主要有以下优点:
(1)多级抽象,将不同高低的层的CNN特征结合
(2)适当的分辨率,对于一个他1000*600的图像的特征图分辨率正好调整至250*150,这个尺度对于检测很方便
(3)计算效率,所有特征可以在proposal和detection产生前进行预计算好,做到没有计算冗余

训练中的loss函数主要有两部分,类别loss,bounding box和positive box的loss,这里主要参考了其他文章,没有特别的地方。而proposal的产生部分参数,则主要参考R-CNN。

其算法步骤如下:

这里写图片描述

加速方法

为了速度的提升,这里去除了ROI pooling层后面的3*3*4的卷积层加速,这样主要有两点优势:Hyper特征图数量大大减少,同时滑动窗分类器更加简单(from Conv-FC to FC)

这里写图片描述

实验结果

这里重点看一下Hyper特征的视觉化效果,如下:
这里写图片描述

其他实验结果:
 width = "180%"

这里写图片描述

                                            <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/production/markdown_views-68a8aad09e.css">
                                </div>

提出的HyperNet网络基于设计的Hyper特征,这种特征主要先集合分等级的特征图,然后将其压缩到一个空间。这种Hyper特征同时具有足够深和很好的语义信息,在PASCAL VOC 2007和2012上可以通过每张图产生仅仅100个proposal,而达到很好的精度和效果,同时可以达到实时,GPU下 5 fps的速度。

Hyper方法主要的贡献有:
(1)在仅仅 50 proposal情况下,可达到 recall 95%,在100 proposal情况下,达到 recall 97%,远远高于其他算法
(2)在PASCAL VOC 2007和2012中, mAP分别达到76.3%和71.4%,比 Fast R-CNN提高 0.6 和 0.3
(3)速度可以达到实时,用深的CNN模型时可以达到 5 fps

HyperNet网络框架

这里写图片描述

上图即为HyperNet的网络框架图,从图形可以清楚地看到,本文提出一个新的特征Hyper 特征,而该特征主要是对于产生的分级的特征图进行整合得到的一个特殊空间。后面基于Hyper特征进行proposal的提取,并进一步完成分类与检测模块。

Hyper特征

在Hyper特征形成细节上,由于不同层大小的不同,在低层添加了max pooling layer以完成降采样过程;而在高层,添加 deconvolutional operation (Deconv),去卷积化来形成上采样。这样作者认为得到的信息结合了更多的语义信息,同时形成一个特殊的空间,最后通过local response normalization (LRN)标准化,即得到 Hyper 特征。
该特征主要有以下优点:
(1)多级抽象,将不同高低的层的CNN特征结合
(2)适当的分辨率,对于一个他1000*600的图像的特征图分辨率正好调整至250*150,这个尺度对于检测很方便
(3)计算效率,所有特征可以在proposal和detection产生前进行预计算好,做到没有计算冗余

训练中的loss函数主要有两部分,类别loss,bounding box和positive box的loss,这里主要参考了其他文章,没有特别的地方。而proposal的产生部分参数,则主要参考R-CNN。

其算法步骤如下:

这里写图片描述

加速方法

为了速度的提升,这里去除了ROI pooling层后面的3*3*4的卷积层加速,这样主要有两点优势:Hyper特征图数量大大减少,同时滑动窗分类器更加简单(from Conv-FC to FC)

这里写图片描述

实验结果

这里重点看一下Hyper特征的视觉化效果,如下:
这里写图片描述

其他实验结果:
 width = "180%"

这里写图片描述

                                            <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/production/markdown_views-68a8aad09e.css">
                                </div>

猜你喜欢

转载自blog.csdn.net/jxy0123456789/article/details/79591590