Finding Tiny Faces 解读

提出三个部分针对图像中小脸的寻找:1。尺度不变性,2图像分辨率,3上下文推理。

提出了尺度在预训练深度网络中的作用,提供一种调整网络的方法将有限的尺度推广到极端的尺度, 论证出在大规模的基准人脸数据集上(FDDB和WIDER FACE)上均有较好的结果。

尺度不变性几乎是所有当前识别和物体检测系统的基本属性。 但从实际的角度来看,尺度不变性不适用于有限分辨率的传感器:识别300px高脸的线索无疑与识别3px高脸的线索不同。

尺度的多任务建模:对象检测的许多近期工作都使用了尺度标准化分类器。

当将区域大小调整为规范的模板大小时,我们会问一个简单的问题 - 模板的大小应该是多少? 一方面,我们想要一个可以检测小脸的小模板; 另一方面,我们需要一个可以利用详细功能(例如,特殊部分)的大型模板来提高准确性。我们不是采用“一刀切”的方法,而是针对不同尺度(和纵横比)调整单独的探测器。训练大量特定尺度的探测器可能会因缺乏单个尺度的训练数据而受到影响,并且在测试时运行大量探测器会导致效率低下。 为了解决这两个问题,我们以多任务方式训练和运行特定尺度的探测器:它们利用在单个(深)特征层次结构的多层上定义的特征。 虽然这种策略可以为大型物体提供高精度的探测器,但找到小东西仍然具有挑战性。

如何概括预训练网络? 我们提供了两个关于寻找小物体问题的关键见解。

第一部分是如何最好地从预训练的深层网络中提取尺度不变特征。 我们提出现有网络针对特征尺寸的对象进行了调整(在预训练数据集中遇到过,如ImageNet)。为了将从这些网络中微调的特征扩展到新颖尺寸的对象,我们采用了一种简单的策略:通过插值和抽取在测试时调整图像大小。虽然许多识别系统通过处理图像金字塔以“多分辨率”方式应用,但我们发现插入金字塔的最低层对于寻找小物体尤其重要[5]。 因此,我们的最终方法(图2)是尺度特定探测器的精细混合物,其以尺度不变的方式使用(通过处理图像金字塔以捕获大规模变化)。

如何最好地编码上下文? 寻找小对象具有根本性的挑战性,因为对象上几乎没有信号可以利用。

因此,我们认为必须使用超出对象范围的图像证据。 这经常被称为“背景”。 在图3中,我们提出了一个简单的人体实验,用户试图对真实和假阳性面部进行分类(由我们的探测器给出)。很明显,人类需要背景来准确地分类小脸。 虽然这种观察在计算机视觉中是非常直观和广泛应用[16,21],但众所周知难以量化地证明语境在识别中的好处[4,6,22]。其中一个挑战似乎是如何有效地编码大图像区域。我们证明从多个层提取的卷积深度特征(也称为“超列”特征[8,14])是有效的“中心凹”描述符,它们同时捕获高 -  大型感受野的分辨率细节和粗糙的低分辨率线索(图2(e))。 我们表明,我们的中心凹描述符的高分辨率成分(从较低的卷积层中提取)对于图5中的这种精确定位至关重要。

我们的贡献:我们提供了对图像分辨率,对象比例和空间背景的深入分析,以便找到小面孔。 我们在大规模基准面部数据集(FDDB和WIDER FACE)上展示了最先进的结果。 特别地,当与WIDER FACE上的现有技术相比时,我们的结果将误差减少了2倍(我们的模型产生的AP为81%,而现有技术的范围为29-64%)。

多尺度表示:多尺度表示已被证明对许多识别任务有用。 [8,14,1]表明深度多尺度描述符(称为“超级列”)对语义分割很有用。 [2,13]证明了这种对象检测模型的改进。 [27]汇集了多尺度的投资回报率特征。 我们的模型使用“超列”特征,指出精细尺度特征对于定位小物体最有用(第3.1节和图5)。

RPN:我们的模型表面上类似于为特定对象类而不是一般“对象”提议生成器[18]训练的区域提议网络(RPN)。 重要的区别在于我们使用中心凹描述符(通过多尺度特征实现),我们通过交叉验证选择一系列对象大小和方面,我们的模型利用图像金字塔来找到极端尺度。 特别是,我们寻找小物体的方法利用针对插值图像调整的特定尺度的探测器。 如果没有这些修改,小脸上的表现会急剧下降超过10%(表1)。

尺度不变性:绝大多数识别都集中在尺度不变表示上,可追溯到SIFT [15]。 目前的检测方法,如更快的RCNN [18]也赞同这一理念,通过ROI池或图像金字塔提取尺度不变的特征[19]。 我们提供了对尺度变量模板的深入探索,这些模板以前曾被提出用于行人检测[17],有时在速度提高的背景下[3]。 SSD [13]是最近基于深度特征的技术,它利用了尺度变量模板。 我们的工作在探索微小物体检测的背景方面有所不同。

上下文:上下文是查找多个识别任务中显示的小实例的关键。 在物体检测中,[2]在感兴趣区域之外堆叠空间RNN(IRNN [11])模型上下文,并显示对小物体检测的改进。 在行人检测中,[17]使用地平面估计作为上下文特征,并改进了对小实例的检测。 在人脸检测中,[27]同时汇集面部和身体周围的ROI特征以进行评分检测,从而显着提高整体性能。 我们提出的工作以尺度变量的方式利用大的局部上下文(而不是全局上下文描述符[2,17])(与[27]相对)。 我们证明了上下文对于寻找低分辨率的面部非常有用。

在本节中,我们将对正在发挥作用的问题进行探索性分析,以便为我们的最终模型提供信息。 为了构思讨论,我们提出以下简单问题:找到固定大小(25x20)的小脸的最佳方法是什么? 通过明确地根据期望的输出分解出尺度变化,我们可以探索上下文和规范模板大小的作用。 直观地说,背景对于寻找小面孔至关重要。 规范模板大小可能看起来像一个奇怪的维度 - 考虑到我们想要找到大小为25x20的面,为什么要定义除25x20之外的任何大小的模板? 我们的分析给出了一个惊人的答案,说明何时以及为什么要这样做。 为了更好地理解我们的分析的含义,我们还要问一个大对象大小的类似问题:找到固定大小(250x200)的大面积的最佳方法是什么?

设置:我们探索了为固定尺寸(例如,25x20)面构建扫描窗口检测器的不同策略。 我们将固定大小的对象检测视为二元热图预测问题,其中像素位置(x,y)处的预测热图指定以(x,y)为中心的固定大小检测的置信度。 我们使用在最先进的架构ResNet [9]上定义的完全卷积网络(FCN)[14]来训练热图预测器。 我们探索从ResNet-50的最后一层提取的多尺度特征,即(res2cx,res3dx,res4fx,res5cx)。 我们今后将这些称为(res2,res3,res4,res5)特征。 我们将在第5节讨论我们培训管道的其余细节。

图4给出了上下文影响的分析,由用于进行热图预测的感受野(RF)的大小给出。 回想一下,对于固定大小的检测窗口,我们可以选择使用与此窗口相比具有任意更小或更大的感受域的特征进行预测。 因为较高层的卷积特征倾向于具有较大的感受野(例如,res4特征跨越291×291像素),较小的感受野需要使用较低层特征。

我们看到了一些总体趋势。 添加上下文几乎总是有帮助,但最终微小面孔(超过300x300像素)的额外上下文会受到伤害。 我们证实这是由于过度拟合(通过检查培训和测试性能)。 有趣的是,较小的感觉区域对于小脸更好,因为整个脸部是可见的 - 如果只寻找鼻尖,很难找到大脸。 更重要的是,我们通过比较“紧密”RF(限于对象范围)与具有额外背景的最佳得分“松散”RF的性能来分析上下文的影响。 小面孔的准确度提高了18.9%,而大面积的准确度提高了1.5%,与我们的人体实验一致(这表明背景对于小实例最有用)。

我们的结果表明,我们可以为具有相同感受野(大小为291x291)的不同大小的探测器构建多任务模板,这很容易实现为多通道热图预测问题(其中每个特定尺度的通道和像素位置) 有自己的二进制损失)。 在图5中,我们比较了有无黄斑结构的描述符,这表明我们的黄斑中心描述符的高分辨率成分对于小实例的准确检测至关重要。

猜你喜欢

转载自blog.csdn.net/sinat_36371321/article/details/85317983