参考网址:https://blog.csdn.net/qq_36782182/article/details/83624357
https://kpzhang93.github.io/MTCNN_face_detection_alignment/
Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
joint: 联合
face alignment: 人脸对齐
网络结构如下
问题:p-net, r-net, o-net都是什么?
答:P-Net全称为Proposal Network,生成候选框,输入尺寸为12x12x3
R-net: refinement network, 对p-net生成的候选框进行进一步的校正,输入尺寸为24x24x3
O-Net: output network: 用来生成box和特征点landmark,输入尺寸为48x48x3
具体的网络结果为:
图像金字塔+
1.当给定一张照片的时候,将其缩放到不同尺度形成图像金字塔,以达到尺度不变。其基本的构造是一个全连接网络。对上一步构建完成的图像金字塔,通过一个FCN进行初步特征提取与标定边框,并进行Bounding-Box Regression调整窗口与NMS进行大部分窗口的过滤。
问题:什么尺度不变?
hard sample mining
我理解的就是他认为loss比较大的前70%对网络的收敛作用比较大,而剩下的30%因为loss比较小,所以就直接认为已经训练好了。不需要在反向传播的时候参与计算了。