深度学习论文精读（7）：MTCNN

认为人脸检测和人脸对齐之间是有内在联系的，因此提出了一种同时训练两个任务的结构。
提出了一种基于深度学习的级联结构，用于以下两种人脸识别任务。
- 1.人脸检测（face detection）
- 2.人脸对齐（face alignment）
提出了一种新的hard sample选取策略： online hard sample mining strategy，有效提高训练精度。
在各类数据库中达到state-of-the-art。同时延迟较低。

如下图所示，MTCNN的结构共分为三层，分别为：
- P-Net(Proposal Network)，用于生成预选框
- R-Net(Refinement Network)，用于精炼预选框
- O-Net(Output Network)，用于输出人脸，以及脸部标志点

1545739024296

1545740741673

MTCNN共包含三个任务，分别为：
- Face classification(人脸分类，用于判断边框内是否为人脸）
- Bounding box regression(边框回归，用于标定人脸边框的范围）
- Facial landmark localization(人脸标志点定位，用于定位人脸上的特征部位)
其损失函数分别为：
- Face classification，使用交叉熵损失：
  
  $\Large y_i^{det}=-(y_i^{det}log(p_i)+(1-y_i^{det})(1-log(p_i)))$ ，其中 $y_i^{det}$ 为label， $p_i$ 为网络得出该边框是否为人脸的概率。
- Bounding box regression，使用欧氏距离损失：
  
  $\Large L_i^{box}=\|\hat y^{box}_i - y_i^{box}\|^2_2$ ，其中 $\hat y^{box}$ 为网络预测的边框信息， $y^{box}$ 为边框标签。 $y^{box}$ 内包括边框的左顶点，以及边框的宽和高。 $y^{box}\in\R^4$ 。
- Facial landmark localization，使用欧氏距离损失：
  
  $\Large L_i^{landmark}=\|\hat y^{landmark}_i-y^{landmark}_i\|_2^2$ ，其中 $\hat y^{landmark}_i$ 为网络预测的特征点信息， $y^{landmark}_i$ 为特征点真值。 $y^{landmark}$ 包括左右眼，鼻尖，以及左右嘴角的位置。 $y^{landmark}\in\R^{10}$ 。

MTCNN的框架里，每一层级的网络结构都需要完成的上述的三个任务，但在每层网络中，各个任务的重要性又不尽相同，因此，文中使用超参数来控制不同网络内，不同任务的损失权重。如下：

$\Large min\sum^N_{i=1}\sum_{j\in\{det,box,landmark\}}\alpha_j\beta^j_iL^j_i$
其中， $N$ 为样本总数， $j$ 为损失类别， $\alpha$ 为用于控制损失权重的超参数， $\beta$ 用于描述样本类型，下面会提到。
$\alpha$ 的具体设置如下，用以调节在不同网络内不同任务的权重，以得到更优秀的结果。
- P-Net 和R-Net： $\Large\alpha_{det}=1,\alpha_{box}=0.5,\alpha_{landmark}=0.5$
- O-Net： $\Large\alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=1$

根据样本的好坏，以及作用的任务分为以下四类：
- positives：与 ground truth 的IOU高于阈值。（文中使用0.65）
- negatives：与 ground truth 的IOU低于阈值。（文中使用0.3）
- part faces：与 ground truth 的IOU处于两个阈值之间。（文中使用0.4以及0.65）
- landmark faces：拥有landmark的标签。（五个面部关键点）
不同任务使用不同的训练数据，并以 $\Large \beta_i^j$ 来规定样本能否参加训练，能参加的则置1，否则置0。
- Face classification使用 positives & negatives。
- Bounding box regression预测使用 potitives & part faces。
- Facial landmark localization预测使用 landmark faces。

MTCNN用于人脸识别的话，将会是用于裁剪人脸，获得边框。之后再输入到传统CNN中，获取特征向量，再通过特征向量进行距离的判断，以一个阈值来划分是否为同一张人脸。