Face Detection SSH 论文理解

最近做人脸相关项目的时候在检测阶段用到了SSH和MTCNN两种算法，学习一下paper的具体内容并记录一些重点

paper：: Single Stage Headless Face Detector
link：SSH paper
code：https://github.com/mahyarnajibi/SSH

摘要

本文提出了一个one stage人脸检测器
- headless的解释：在分类CNN网络的基础上移除了fully connected layer；
- 具有尺度不变性性特征：没有用图像金字塔image pyramid输入策略，只是在inference的时候用了多尺度的特征层feature pyramid来做检测（SSD算法思想）；
- 由此产生的优点：速度快、轻量级，如果用上图像金字塔策略在WIDER所有的subset上都取得很好的表现；

引言

目前存在问题：虽然目前人脸检测的性能已经有了飞跃的提升但是在同时考虑速度和内存利用有效性的情况下，小人脸的检测还存在很大的挑战，WIDER数据集中就包含大量的小人脸；
提出一个解决方案SSH：基于去掉head的CNN分类网络，使用特征金字塔代替图像金字塔设计出one stage人脸检测算法；
在各数据集上的表现：WIDER上配合图像金字塔可以在三个子集都达到最好的性能，FDDB和Pascal-Faces在相对小的输入尺寸的情况下能够达到最好的性能；

SSH network

SSH的设计目标：inference time少，memory foot-print低，scale-invariant特性；
SSH整体结构：
- 从上图2中可以看出在stride为8、16、32的feature map后面加上detection module， $M_1, M_2, M_3$ ，这些模块主要由卷积层组成用以完成binary classifier和regressor；
- 关于bbox回归的任务，参考RPN的思路引入anchor，每个location有 $K$ 个不同scale anchor，文中提到在人脸检测任务中anchor的长宽比固定就行，多样的比例对检测结果没有明显的影响；
- feature map size为 $W_i \times H_i$ ，总共有 $W_i \times H_i \times K_i$ 个anchor，由不同的scale组成的集合 ${S_i^1, S_i^2,\dots,S_i^{K_i}}$ ;
- detection module中还添加了一个context module用来提升感受野的影响，模型最终的输出tensor shape为 $W_i \times H_i \times K_i \times 2$ 用来表示bbox的分类结果， $W_i \times H_i \times K_i \times 4$ 用来表示bbox的回归结果；
尺寸不变性设计：
- 通过在不同stride的feature map上检测small、medium、larger人脸解决目标多尺度的问题；
- 在 $M_i$ 的检测阶段中用到了特征融合的方法将 $conv5.3$ 的feature map使用bilinear的方法上采样和 $conv4.3$ 的feature进行融合；
context模块：
- context module使用 $3 \times 3$ 的卷积核序列来实现 $5 \times 5$ 以及 $7 \times 7$ 的卷积核效果，通过卷积层来代替two-stage检测方法中通过扩充proposal around window来达到上下文合并的策略(没太明白文中提到的two-stage检测方法中的context合并策略，可能得回归一下Faster-RCNN的RPN部分了)；
- detection module整体比RPN的参数量要少，context module能够提升检测性能；
training：
- 针对不同的检测模块使用不同scale的人脸进行训练，只要人脸的scale没有在当前模块的规定scale范围内则不会回传loss，anchor和GT iou大于0.5则被当做true positive；
- Loss function： $\sum_{k} \frac{1}{N_k^c}\sum_{i\in A_k} l_{c}(p_i, g_i)+\lambda\sum_{k} \frac{1}{N_k^r}\sum_{i\in A_k} \tau(g_i=1)l_{r}(b_i, t_i)$ ：
  - $l_c$ 代表分类loss采用logistic loss， $A_k$ 表示 $M_k$ 检测阶段所有的anchor， $i$ 表示和GT iou大于0.5具有positive label的bbox和iou小于0.3具有negtive label的bbox， $N_k^c$ 表示参与分类运算的anchor数量；
  - $l_r$ 代表回归loss采用smooth L1 loss，和大多数检测一样需要将anchor和GT在log空间进行编码， $\tau$ 表示只有positive anchor才能参与回归loss的计算；
OHEM在线困难样本挖掘：
- OHEM在SSH中被独立地应用于每一个检测模块 $M_k$ ，在每一个检测模块中选择置信度最高的负样本和置信度最低的正样本按照3：1的比例进行批量训练(和SSD里面OHEM用法有所区别，SSD只有困难负样本挖掘，且OHEM是针对分类任务的概念/font>)

实验结果

anchor生成阶段对应的尺寸是 $M_1\in(1,2), M_2\in(4,8), M_3\in(16,32)$ ，anchor的基础大小是16个像素，在训练阶段每个检测阶段每张图旋转256个检测框，在inference阶段每个检测模块输出1000个分数最高的检测anchor然后用阈值为0.3的NMS进行各阶段检测结果的融合；
在WIDER数据集的表现：