PyramidBox

PyramidBox
- 0 摘要
- 1 简介

0 摘要

$\quad$ 人脸检测研究从多年前就已开始，然而，在不受控制的环境中检测小的、模糊的及部分遮挡的人脸仍旧是一个有待解决的难题。针对棘手的人脸检测问题，本文提出了一种语境辅助的单次人脸检测新方法——PyramidBox。考虑到语境的重要性，我们从以下三个方面改进语境信息的利用。首先，我们设计了一种全新的语境 anchor，通过半监督的方法来监督高层级语境特征学习，我们称之为 PyramidAnchors。其次，我们提出了一种低层次级特征金字塔网络，将充分的高层级语境语义特征和低层级面部特征结合在一起，使 PyramidBox 能够一次性预测所有尺寸的人脸。再次，我们引入了语境敏感结构，扩大预测网络的容量，以提高最终的输出准确率。此外，我们还采用「数据-anchor-采样」的方法对不同尺寸的训练样本进行扩充，增加了较小人脸训练数据的多样性。PyramidBox 充分利用了语境的价值，在两个常用人脸检测基准——FDDB 和 WIDER FACE 上表现非凡，取得当前最优水平。

1 简介

$\quad$ 人脸检测是各种人脸应用中的一项基本任务。Viola-Jones的开创性研究利用了Harr-Like特征的AdaBoost算法来训练级联的人脸和非人脸检测器。之后【8,9,10】通过对可变形面部关系的建模，将可变形部件模型DPM引入到了人脸检测任务中。这些方法主要是基于设计的特征，这些特征不具有很好的可表示性，而且是通过分离的步骤训练出的。近年来，卷积神经网络 ( CNN ) 取得了巨大突破，基于 CNN 的现代目标检测技术在人脸检测方面取得了很大进展，包括 R - CNN [ 11、12、13、14]、SSD [15]、YOLO [16]、FocalLoss [17] 及其延伸产物。得益于强大的深度学习方法和端到端的优化，基于 CNN 的人脸检测器性能显著增强，为以后的方法划定了一个新的基线。当下基于 anchor 的检测框架旨在检测不受控制的环境中的非常规面部，例如 WIDER FACE[ 18 ]。SSH [ 19 ] 和 $S^3FD$ [ 20 ] 开发了尺度不变网络，以在单个神经网络中检测来自不同层的尺度各异的人脸。人脸 R - FCN [ 21 ] 利用位置敏感的平均池，对分数图上嵌入的响应进行重新加权，并消除人脸每个部位中非均匀分布的影响。FAN [ 22 ] 提出 anchor 级别的注意机制，通过突出面部区域的特征来检测被遮挡的面部。虽然这些工作为设计 anchor 和相关网络来检测不同尺度的人脸提供了一种有效的方法，但如何利用语境信息进行人脸检测还没有引起足够的重视，这一问题应该在非常规人脸检测中发挥重要作用。显然，人脸从不单独出现在现实世界中，肩部或身体通常也一起出现，它们提供了可兹利用的丰富的语境关联资源，尤其是在分辨率低、模糊和外部遮挡导致面部纹理不可区分的情况下。针对这一问题，我们提出了一种新的语境辅助网络框架，以充分利用语境信号，具体步骤如下：
首先，网络不仅要能学习人脸特征，还要能学习头部和身体等语境部分的特征。为了实现这一目标，我们需要额外的标签，并设计与之匹配的 anchor。在本任务中，我们使用半监督解决方案来生成与面部相关的语境部分的近似标签，并且发明了一系列名为 PyramidAnchors 的 anchor，以便将其添加到基于 anchor 的一般架构中。
其次，高层次的语境特征应与低层次的语境特征充分结合。常规人脸和非常规人脸的外观可能存在很大差别，这意味着并非所有高级语义特征都有助于识别较小的人脸。我们研究了 Feature Pyramid Networks( FPN ) [ 23 ] 的性能，并将其修改为较低级别的 Feature Pyramid Network( LFPN )，以将对彼此有帮助的特征连接在一起。
第三，预测分支网络应充分利用联合特征。为了将目标人脸周围的语境信息与更广更深的网络相结合，我们引入了语境敏感预测模块 ( CPM )。同时，为了进一步提高分类网络的性能，我们提出了一种可以预测模块的最大输入输出层。
此外，我们还提出了一种名为「数据-anchor-抽样」的训练策略，对训练数据集的分布进行调整。为了学习更具代表性的特征，非常规人脸样本的多样性非常重要，可以通过跨样本的数据扩充来获得。
为表述清晰，本研究可以概括为以下五点：
1. 本文提出了一种基于 anchor 的语境辅助方法，即 PyramidAnchors，从而引入有监督的信息来学习较小的、模糊的和部分遮挡的人脸的语境特征。
2. 我们设计了低层次特征金字塔网络 ( LFPN ) 来更好地融合语境特征和面部特征。同时，该方法可以在单次拍摄中较好地处理不同尺度的人脸。
3. 我们提出了一种语境敏感的预测模型，该模型由混合网络结构和最大输入输出层组成，从融合特征中学习准确的定位和分类；
4. 我们提出了可以感知尺度的数据-anchor-抽样策略，改变训练样本的分布，重点关注较小的人脸。
5. 在通用人脸检测基准 FDDB 和 WIDER FACE 上，我们达到了当前最佳水平。
Anchor-based Face Detectors
Scale-invariant Face Detectors
Context-associated Face Detectors

PyramidBox 百度人脸检测算法论文阅读

PyramidBox

0 摘要

1 简介

猜你喜欢

PyramidBox 百度人脸检测算法 论文阅读

PyramidBox

0 摘要

1 简介

猜你喜欢

PyramidBox 百度人脸检测算法论文阅读