MTCNN应用详解

很多人应该是读过MTCNN这篇文章的，所以这里没有简单的流程介绍，如果只是简单地算法介绍，百度上已经有很多了。

开始之前，先确认以下几个问题

为什么要做图像金字塔，图像金字塔在MTCNN中带来的优势和劣势分别是什么？
MTCNN为什么可以接受任意尺寸的图片输入？
检测最小人脸尺寸ninSize为什么是12？缩放因子factor为什么是0.709？
什么是边框回归？
为什么ONet可以同时输出人脸位置和5个关键点位置？

现在从头开始将MTCNN梳理一遍

1、读取一张图片，按照设置的检测最小人脸参数minSize，来进行图像金字塔操作

    float scale = 12.f / minSize;
    float minWH = std::min(imgHeight, imgWidth) *scale;
    std::vector<float> scales;
    while (minWH >= 12) {
        scales.push_back(scale);
        minWH *= factor;
        scale *= factor;
    }

scale的个数就是图像金字塔的层数，从这里看出minSize越大，图像金字塔的层数越少

然后将金字塔中不同层的图像分别输入PNet网络

for (int i = 0; i < scales.size(); i++)
{
    int ws = (int)std::ceil(imgWidth*scales[i]);
    int hs = (int)std::ceil(imgHeight*scales[i]);
    cv::resize(img, resized, cv::Size(ws, hs));
		warpPNetInput(img);
    PNet->Forward();
}

从上面可以看出，图像金字塔有多少层就进行了多少次的PNet的forward运算。

很明显，上面的问题已经有了答案

图像金字塔的优势就是可以输入多尺寸的图像到CNN，提升CNN对多尺度目标的检出能力；劣势也很明显，直接增加了运算次数，也就成比例地增加了推理时间。在通用目标检测领域，影响召回率的两大难题：1，目标尺寸过小；2，目标尺度变化过大。工业界应用中提升召回率常用两种方法
图像金字塔，在输入端进行多尺度变化，以适应多尺度检测，但是其缺点明显就是耗时
特征金字塔，在特征图上进行多尺度，浅层特征负责检出大目标，深层特征负责检出小目标，例如SSD，FPN
MTCNN可以接受任意尺寸的图像输入。因为PNet是一个全卷积网络，没有全连接层，常见的卷积，池化，非线性激活层都是可以接受任意尺度的输入运算的，全连接是需要事先定义好连接数量所以不能接受任意尺度运算，当然也有例外，例如Kaiming He的SPP。MTCNN文章截图如下图1所示，但是实际开源的代码中跟这个结构略有不同，PNet没有进行landmark的回归，只有两个分支，一个用来分类人脸得到confidence值，另外一个用来回归box位置
图像金字塔生成的图像尺寸要和12尽量接近，因为训练PNet的数据是归一化到12大小的。在文章中说明了，图像金字塔低层的面积是上一层的0.5，也就是面积的scale是0.5，对应的边长的scale就是sqrt(0.5)，即0.709。minSize和factor两个参数直接影响到算法性能和推理时间

2、PNet输出的位置回归

按照PNet的网络结构，可以得到这样一个结论，12x12的矩阵可以得到1个prob(就是上面softmax的输出也就是人脸的概率)和一个4值向量(上面conv4-2输出，人脸的回归值)。

由于PNet不限制输入尺寸，所以输入的尺寸肯定有很多比12大的。由于卷积池化都是在输入特征图上“滑动”，所以现在把PNet看成是一个判别器，判断每一个12x12区域是否有人脸输出1个confidence和4个regression值，这样PNet就被看成一个12x12的“滑动核”。

假设一个输入图片中，某一个12x12块，左上角为(x，y)。其对应输出特征图大小应该是(x/2-5,y/2-5),所以根据输出信息反推回去，就可以知道哪一个12x12的块出现了人脸。假设PNet输出的特征图中某一个点检测出现人脸，反推回去原图上的坐标，例如输出特征图中(x,y)点反推回原图左上角(x1,y1)右下角(x2,y2)。

x1 = x * 2;y1 = y * 2;x2 = x1 + 12;y2 = y1 + 12,由于PNet做了图像金字塔，所以还需要还原Scale倍。

上面的内容只说明了某一个12*12区域是否存在人脸，但是具体位置还不知道，所以需要另外的4个回归值。

4个回归值分别代表的是中心点横坐标，纵坐标，宽，高四个值的偏移量。这样有了坐标值，有了偏移量，就可以得到原图上精确坐标。

bbox回归，个人觉得也是一个非常重要的知识点，所以准备单独用一篇文章的篇幅来总结，这里先不写。

3、landmark检测

在Onet输出的时候，有三个分支，如下图，prob1是人脸confidence，conv6-2是人脸位置回归值，conv6-3是landmark回归值。

prob1是softmax的分类输出，conv6-2和conv6-3都是全连接层输出。在训练阶段，人脸使用交叉熵loss，landmark使用均方差损失，两者加权求和作为整个网络loss训练

4、mtcnn推理时间分析

经过观察mtcnn的三个网络结构，结构非常简单，计算参数量也非常少，主要耗时都存在于金字塔的生成过程中。三个阶段的耗时大约为：Pnet占75%，RNet占15%，ONet占10%。

但是通过工具计算单个网络参数量之后发现，PNet由于其最简单的网络结构，其参数量只有6.83K个,但是为啥耗时最多呢？原因是图像金字塔操作都在CPU上完成，然后forword操作再gpu上完成，这样导致数据不停地在显存和内存中拷贝，数据IO时间消耗已经不能被忽略了，并且在CPU上进行的resize操作时间消耗也不能被忽略。

MTCNN的推理优化主要从PNet下手，找到金字塔层数和待检测目标大小之间的平衡
控制显存和内存之间IO交互的时间，例如将resize在gpu上实现。

5、mtcnn拓展

mtcnn的思想为工业界开阔了很大的视野，有很多使用mtcnn做的其他应用。例如mtcnn做行人检测，mtcnn做人头检测，mtcnn做人脸跟踪等等。

github上zuoqing大佬对mtcnn做了魔改，并且有一系列的拓展，强烈推荐看一下。
人脸跟踪。第一帧采用完整mtcnn检测，检测到人脸之后，在第二帧中利用上一帧人脸位置稍微外扩一点，然后在此小图上直接使用ONet推理，直接就可以输出人脸位置。这样对于单人脸检测跟踪效果不错。

MTCNN是2016年的CVPR文章，再过一个月，马上就2020年了。时间总是在推着技术向前发展，我们也要跟上时代的步伐。虽然现在很多方法已经把MTCNN甩在后面了，但是我们不能忘记mtcnn对人脸检测算法做出的贡献。

关注公众号：卡本特
内容持续输出

西红柿爱吃小番茄

发布了65 篇原创文章 · 获赞 63 · 访问量 15万+

私信关注

MTCNN应用详解

MTCNN应用详解

猜你喜欢