retinaface论文阅读

本文链接： https://blog.csdn.net/weixin_38145317/article/details/100580847

人脸检测训练过程通常同时包含分类和box回归损失,chen等人(即mtcnn网络),在观察到对齐后的人脸形状为人脸分类提供更好的特征的基础上,提出了将人脸检测和对齐结合在联合级联框架中,受[6]的启发,MTCNN和stn同时检测人脸和5个人脸landmark,由于训练数据的限制,mtcnn还没有验证微小的人脸检测是否可以从额外的5个人脸landmark的监督中获益.我们在本文中所要回答的问题之一是,能否利用5个人脸landmark构成额外监控信号,在wider face的hard测试集上推进目前最好的性能(90.3%[67])

在mask r-cnn中,通过添加一个用于预测目标的mask(这是啥?)的分支,与现有的用于边界框识别和回归的分支并行,显著提高了检测性能.这证实了密集的像素级注释也有助于改进检测,遗憾的是,对于wider face具有挑战性,无法进行密集的人脸注释(以更多的landmark或语义段的形式),由于有监督的信号不易获得,问题是我们能否应用无监督的方法进一步提高人脸检测.

在fan[56]中,提出了一种anchor-level注意图(attention map)来改进遮挡人脸检测,然而,所提出的注意图相当粗糙,不包括语义信息,近年来,自监督三维形态模型在wilder实现了很有前景的三维人脸建模,特别是mesh解码器,利用节点形状和纹理上的图形卷即实现了超实时速度.然而,应用mesh解码器到单级探测器的主要挑战是1)相机参数难以去准确地估计,2)联合潜在的形状和纹理表示是从单个特征向量(特征金字塔上的1*1conv)而不是roi池化的特征预测,这表示特征转换的风险.本文才用与现有监督分支并行的网格解码器通过自监督学习预测像素级的三维人脸形状.

综上所属,我们的主要贡献如下:

1. 在单阶段设计的基础上,提出了一种新的基于像素级的人脸定位方法retinaface,该方法采用多任务学习策略,同时预测人脸评分,人脸框,五个landmark以及每个人脸像素的三维位置和对应关系.

2.在wilder face hard子集上,retinaface的性能比目前最先进的两阶段法的ap高出1.1%

...

相关工作

图像金字塔vs特征金字塔,滑动窗口范例,其中分类器应用于密集的图像网格,可以追溯到过去的几十年,尽管图像金字塔上的滑动窗口是主要的检测方式,但随着特征金字塔的出现,多尺度特征图上的滑动anchor迅速主导了人脸检测.

两阶段vs单阶段:动目前的人脸检测方法继承了一般目标检测方法的一些成果,可分为两类,两阶段方法(如faster r-cnn)和单阶段方法(如ssd和retinanet),两阶段方法采用了一种具有高定位精度的proposal与细化机制,相比之下,单阶段方法密集采样人脸位置和尺度,导致训练过程中positive和negative样本极不平衡.为了解决这种不平衡,广泛采用了采样和重加权方法.与两阶段方法相比,单阶段方法效率更高,召回率更高,但存在假阳性率更高和定位准确性降低的风险.

上下文建模(这段不太懂): 利用特征金字塔上的上下文模块,增强模型捕捉微小人脸,ssh和pyramidbox的上下文推理能力,扩大欧几里德网格的感受野.为了提高cnns的非刚性变换建模能力,可变形卷积网络(deformalbe convolution network,dcn)采用了一种新的可变形层对几何变换进行建模.wilder face 2018[33冠军方案]表明,为了提高人脸检测的性能,刚性(expansion)和非刚性(deformation)上下文建模是互补和正交的.

多任务学习:联合人脸检测与对齐被广泛应用,对齐后的人脸形状为人脸分类提供了更好的特征,在mask r-cnn中,通过添加一个平行分支来预测目标mask,显著提高了检测性能,densepose采用mask-rcnn的结构,在每个选定区域内获得密集的part标签和坐标,然而, [20,1]中的dense回归分支是通过监督学习训练的,此外,dense分支是一个小的FCN应用于每个roi预测像素到像素的密集映射.

三\RetinaFace

3.1 对于任何训练anchor i, 我们减少以下多项任务的损失

$L=L_{cls}(p_i,p^*_i) +\lambda _1p_i^*L_{box}(t_i,t_i^*)+\lambda _2p_i^*L_{pts}(l_i,l_i^*) +\lambda _3p_i^*L_{pixel}$

1)人脸分类损失Lcls(pi,pi*),其中,pi是anchor i为人脸的预测概率,对于positive anchor, pi*是1,对于negative anchor为0,分类损失了Lcls是二类softmax损失(这是什么?)

2)人脸回归box回归损失为Lbox(ti,ti*),其中 $t_i=\{t_x,t_y,t_w,t_h\}_i$ 表示正anchor的预测框, $t_i^*=\{t_x^*,t_y^*,t_w^*,t_h^*\}_i$ 表示实际标注ground truth框的坐标.我们按照[16]对box回归目标(即中心位置,宽度和高度)进行标准化,并使用 $L_{box}(t_i,t_i^*)=R(t_i,t_i^*)$ ,其中R是[16]中定义的鲁棒损失函数(smooth-L1)

3)人脸特征点landmark回归损失, $L_{pts}(l_i,l_i^*)$ 其中, $l_i=\{l_{x1},l_{y1},...,l_{x5},l_{y5}\}_i$ 表示5个预测的人脸特征点landmark, $l_i^*=\{l_{x1}^*,l_{y1}^*,...,l_{x5}^*,l_{y5}^*\}_i$ 表示实际标注ground truth.与box中心回归相似,五个人脸landmark回归也采用了基于anchor中心的目标归一化

4)dense回归损失

$L_{pixel}=\frac{1}{W*H} \sum_i^W \sum_j^H||R(D_{PST,P_{cam},P_{ill}}) _{i,j}-I_{i,j}^*||_1$

其中,W,H为anchor $I_{i,j}^*$ 的宽和高.

损失平衡参数 $\lambda _1=0.25,\lambda _2=\lambda _3=0.01$

3.2 Dense回归分支

mesh解码器,我们直接使用[70,40]中的mesh解码器(mesh convolution and mesh up-sampling),这是一种基于快速局部谱滤波的图卷积方法,为了实现进一步的加速,我们还使用了类似于70中方法的联合形状和纹理解码器,而不是只解码形状的[40].

猜你喜欢