mtcnn(Multi-task Cascaded Convolutional Networks)理解(一)----理论理解

参考网址:https://blog.csdn.net/qq_36782182/article/details/83624357

https://kpzhang93.github.io/MTCNN_face_detection_alignment/

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

joint: 联合

face alignment: 人脸对齐

网络结构如下

问题:p-net, r-net, o-net都是什么?

答:P-Net全称为Proposal Network,生成候选框,输入尺寸为12x12x3

 R-net: refinement network, 对p-net生成的候选框进行进一步的校正,输入尺寸为24x24x3

 O-Net: output network: 用来生成box和特征点landmark,输入尺寸为48x48x3

具体的网络结果为:

图像金字塔+

1.当给定一张照片的时候,将其缩放到不同尺度形成图像金字塔,以达到尺度不变。其基本的构造是一个全连接网络。对上一步构建完成的图像金字塔,通过一个FCN进行初步特征提取与标定边框,并进行Bounding-Box Regression调整窗口与NMS进行大部分窗口的过滤。

问题:什么尺度不变?

hard sample mining

我理解的就是他认为loss比较大的前70%对网络的收敛作用比较大,而剩下的30%因为loss比较小,所以就直接认为已经训练好了。不需要在反向传播的时候参与计算了。

猜你喜欢

转载自blog.csdn.net/weixin_38145317/article/details/89520958
今日推荐