【论文笔记】人脸检测窗口选择办法 NMS convnet

原文地址:https://blog.csdn.net/elaine_bao/article/details/50458463

文章地址:
A CONVNET FOR NON-MAXIMUM SUPPRESSION (2016 ICLR Under Review)

A brief introduction of NMS for object detection

NMS,即Non-maximum suppression,非极大值抑制,在object dection中应用非常广泛,简单地说,他就是对一些region proposals(物体的候选框)进行筛选,得到最佳的物体检测位置。
这里写图片描述
如上图所示,在做人脸检测时我们可能会得到多个人脸的候选框,但是其实这些框完全可以进行“合并”,得到一个人脸的框框。这个“合并”的策略就是NMS。NMS主要有两个指标来进行合并:
1.score:对于每一个proposal,分类器会给出一个score来表示当前候选框的置信度,尽量保留置信度较高的候选框
2.IoU(Intersection-over Union):重叠面积,位置邻近的候选框重叠面积大于一定阈值的话则进行合并

所以NMS的实现是:
1. NMS计算出每一个bounding box的面积,然后根据score进行排序。
2. 计算其余bounding box与当前最大score的box的IoU,去除IoU大于设定的阈值的bounding box。
3. 重复上面的过程,直至候选bounding box为空。
需要注意的是:NMS一次处理一个类别,如果有N个类别,NMS就需要执行N次。

NMS的缺点:
NMS的合并策略是一种较贪婪的方法,在平衡精度和召回率时会有问题。例如出现两个人脸靠得很近的情况,我们首先得到了许多红色的region proposal,然后用NMS来筛选候选框。
这里写图片描述
假设我们能设置一个合适的阈值,那么两个人脸可以被两个框分别框住。
这里写图片描述
如果我们将IoU阈值设定得高一些,也就是说合并相对困难,则会出现下图(a)的筛选结果,说明非极大值抑制得不够充分;那么我们将IoU阈值设定得低一些,合并相对容易,就会得到下图(b)的结果,也就是说多个ture positive被merge到了一起。
这里写图片描述

Convnet for NMS

2.1 Overview

传统的NMS在判决融合的时候,只利用到了2个信息:Score 和 IOU ,即每个框的得分和框与框之间的重叠比例。
文章用神经网络去实现NMS,所利用的同样也是这2个信息。如下图的整个流程图:
这里写图片描述

2.2 Score map的生成

假设我们的图片是W*H的,在这里我们以16*16大小的图片为例,我们对他生成w*h大小的score map,其中w=W/4,h=H/4,也就是说score map上的一个点对应原图中4*4的区域。然后假设我们得到了一个物体的bounding box,其置信度为0.8,我们将其中心点的位置记录在score map中,因为他的中心点落在第(3,2)个score map区域中,因此该区域置信度为0.8;接着我们又得到一个新的bounding box,其置信度为0.9,且中心点也落在了(3,2)的区域,根据NMS保留大置信度的特点,我们对该区域的置信度进行更新,也就是说(3,2)这个区域的置信度变成了0.9。注意在更新置信度的时候,我们也保留了原始bounding box的原始位置信息,以便最终的索引。
这里写图片描述
到此,我们已经得到了w×h×1的score map.
文章提到,卷积神经网络的线性操作和relu无法模仿NMS中对score进行排序的操作, 因此,文章先用传统的NMS处理一遍bounding boxes, 然后再生成一张同样大小的score map,记作S(T),T为NMS的阈值。
最终,我们得到了w×h×2的score map. 记作S(1,T)

2.3 IoU layer

NMS的另一个重要概念是通过重叠面积来筛选候选框。这一步在convnet中是这么做的:对于score map上的每个点,我们已经记录了其是否包含bounding box以及该box的置信度。那么我们以每个点为中心,选取其11*11的领域,计算这121个点保存的bounding box与中心点的IoU,然后保存成121维的向量用于描述该点的IoU特性。例如,以下图这个15*15的score map为例,对于(7,7)这个点来说,我们取其11*11的邻域,然后计算邻域中每个点所包含的bounding box和(7,7)的bounding box的IoU,比如领域中左上角第一个点不包含bounding box,则特征I(7,7,1)=0,第二个点包含了bounding box(图中有颜色的小方格代表包含bounding box,白色的则没有包含),则我们计算该点的bounding box和(7,7)的bounding box的IoU,并存入到I(7,7,2)中。以此类推,每个点都有121维的特征,则整个score map输出的特征为15*15*121.
这里写图片描述

以下部分内容来自于:http://blog.csdn.net/shuzfan/article/details/50371990

2.4 网络解析

我们再来看一下网络结构,注意2点:

  • IOU层的kernel size 为1,stride也为1。

    Score map层的kernel size 为11×11,这是为了呼应IOU层;stride 为1 ,pad 为5,这是为了获得和输入同样尺寸的输出:

  • Layer 2将之前的2个输出拼接,之后所有的卷积都是1×1。最终的输出仍然是一个尺寸一致的score map。

2.5 输出及Loss

理想的输出是一个同输入尺寸完全一致的score map 图,在该图中,每一个目标只拥有一个score,相应地也只对应了一个bounding box。

因此训练的目标就是保留一个,抑制其它。如下图:
这里写图片描述

(1)上图a的score map 是我们的输入,由图易知,这里面一共有5个有效的score,则也对应着5个bounding box。

(2)假设5个bounding box都是同一个目标的检测结果。则我们的训练目的则是保留最好的一个,抑制其余4个。
为此,我们首先分配标签:5个bounding box 中满足与ground truth 的IOU大于0.5且得分最高的box作为正样本,其余均为负样本,如上图b所示。

(3)显然正负样本的数量严重不均衡,因此计算loss之前,我们要分配一下权重用于权衡这种失衡。权重的分配很简单,如图c所示,正样本的权重总和与负样本的权重总和相等。

(4)上右侧的图为理想的输出。综上,我们的Loss Function就可以很容易得出了(类似于pixel级别的分类):
这里写图片描述
其中,p属于G,表示score map 中有值的点。

Discuss

这篇文章最大的selling point在于它解决了NMS设置阈值难的问题。传统的NMS是hard-pruning decision,而在NMS convnet中,作者通过学习的方法来获得最佳的输出。如果真能做到的话,以后NMS都替换成NMS convnet,那么各种检测问题的精度又可以上一个台阶了。

文章地址:
A CONVNET FOR NON-MAXIMUM SUPPRESSION (2016 ICLR Under Review)

A brief introduction of NMS for object detection

NMS,即Non-maximum suppression,非极大值抑制,在object dection中应用非常广泛,简单地说,他就是对一些region proposals(物体的候选框)进行筛选,得到最佳的物体检测位置。
这里写图片描述
如上图所示,在做人脸检测时我们可能会得到多个人脸的候选框,但是其实这些框完全可以进行“合并”,得到一个人脸的框框。这个“合并”的策略就是NMS。NMS主要有两个指标来进行合并:
1.score:对于每一个proposal,分类器会给出一个score来表示当前候选框的置信度,尽量保留置信度较高的候选框
2.IoU(Intersection-over Union):重叠面积,位置邻近的候选框重叠面积大于一定阈值的话则进行合并

所以NMS的实现是:
1. NMS计算出每一个bounding box的面积,然后根据score进行排序。
2. 计算其余bounding box与当前最大score的box的IoU,去除IoU大于设定的阈值的bounding box。
3. 重复上面的过程,直至候选bounding box为空。
需要注意的是:NMS一次处理一个类别,如果有N个类别,NMS就需要执行N次。

NMS的缺点:
NMS的合并策略是一种较贪婪的方法,在平衡精度和召回率时会有问题。例如出现两个人脸靠得很近的情况,我们首先得到了许多红色的region proposal,然后用NMS来筛选候选框。
这里写图片描述
假设我们能设置一个合适的阈值,那么两个人脸可以被两个框分别框住。
这里写图片描述
如果我们将IoU阈值设定得高一些,也就是说合并相对困难,则会出现下图(a)的筛选结果,说明非极大值抑制得不够充分;那么我们将IoU阈值设定得低一些,合并相对容易,就会得到下图(b)的结果,也就是说多个ture positive被merge到了一起。
这里写图片描述

Convnet for NMS

2.1 Overview

传统的NMS在判决融合的时候,只利用到了2个信息:Score 和 IOU ,即每个框的得分和框与框之间的重叠比例。
文章用神经网络去实现NMS,所利用的同样也是这2个信息。如下图的整个流程图:
这里写图片描述

2.2 Score map的生成

假设我们的图片是W*H的,在这里我们以16*16大小的图片为例,我们对他生成w*h大小的score map,其中w=W/4,h=H/4,也就是说score map上的一个点对应原图中4*4的区域。然后假设我们得到了一个物体的bounding box,其置信度为0.8,我们将其中心点的位置记录在score map中,因为他的中心点落在第(3,2)个score map区域中,因此该区域置信度为0.8;接着我们又得到一个新的bounding box,其置信度为0.9,且中心点也落在了(3,2)的区域,根据NMS保留大置信度的特点,我们对该区域的置信度进行更新,也就是说(3,2)这个区域的置信度变成了0.9。注意在更新置信度的时候,我们也保留了原始bounding box的原始位置信息,以便最终的索引。
这里写图片描述
到此,我们已经得到了w×h×1的score map.
文章提到,卷积神经网络的线性操作和relu无法模仿NMS中对score进行排序的操作, 因此,文章先用传统的NMS处理一遍bounding boxes, 然后再生成一张同样大小的score map,记作S(T),T为NMS的阈值。
最终,我们得到了w×h×2的score map. 记作S(1,T)

2.3 IoU layer

NMS的另一个重要概念是通过重叠面积来筛选候选框。这一步在convnet中是这么做的:对于score map上的每个点,我们已经记录了其是否包含bounding box以及该box的置信度。那么我们以每个点为中心,选取其11*11的领域,计算这121个点保存的bounding box与中心点的IoU,然后保存成121维的向量用于描述该点的IoU特性。例如,以下图这个15*15的score map为例,对于(7,7)这个点来说,我们取其11*11的邻域,然后计算邻域中每个点所包含的bounding box和(7,7)的bounding box的IoU,比如领域中左上角第一个点不包含bounding box,则特征I(7,7,1)=0,第二个点包含了bounding box(图中有颜色的小方格代表包含bounding box,白色的则没有包含),则我们计算该点的bounding box和(7,7)的bounding box的IoU,并存入到I(7,7,2)中。以此类推,每个点都有121维的特征,则整个score map输出的特征为15*15*121.
这里写图片描述

以下部分内容来自于:http://blog.csdn.net/shuzfan/article/details/50371990

2.4 网络解析

我们再来看一下网络结构,注意2点:

  • IOU层的kernel size 为1,stride也为1。

    Score map层的kernel size 为11×11,这是为了呼应IOU层;stride 为1 ,pad 为5,这是为了获得和输入同样尺寸的输出:

  • Layer 2将之前的2个输出拼接,之后所有的卷积都是1×1。最终的输出仍然是一个尺寸一致的score map。

2.5 输出及Loss

理想的输出是一个同输入尺寸完全一致的score map 图,在该图中,每一个目标只拥有一个score,相应地也只对应了一个bounding box。

因此训练的目标就是保留一个,抑制其它。如下图:
这里写图片描述

(1)上图a的score map 是我们的输入,由图易知,这里面一共有5个有效的score,则也对应着5个bounding box。

(2)假设5个bounding box都是同一个目标的检测结果。则我们的训练目的则是保留最好的一个,抑制其余4个。
为此,我们首先分配标签:5个bounding box 中满足与ground truth 的IOU大于0.5且得分最高的box作为正样本,其余均为负样本,如上图b所示。

(3)显然正负样本的数量严重不均衡,因此计算loss之前,我们要分配一下权重用于权衡这种失衡。权重的分配很简单,如图c所示,正样本的权重总和与负样本的权重总和相等。

(4)上右侧的图为理想的输出。综上,我们的Loss Function就可以很容易得出了(类似于pixel级别的分类):
这里写图片描述
其中,p属于G,表示score map 中有值的点。

Discuss

这篇文章最大的selling point在于它解决了NMS设置阈值难的问题。传统的NMS是hard-pruning decision,而在NMS convnet中,作者通过学习的方法来获得最佳的输出。如果真能做到的话,以后NMS都替换成NMS convnet,那么各种检测问题的精度又可以上一个台阶了。

猜你喜欢

转载自blog.csdn.net/imodel/article/details/79916060
NMS
今日推荐