MTCNN应用详解

MTCNN应用详解

很多人应该是读过MTCNN这篇文章的,所以这里没有简单的流程介绍,如果只是简单地算法介绍,百度上已经有很多了。

开始之前,先确认以下几个问题

  • 为什么要做图像金字塔,图像金字塔在MTCNN中带来的优势和劣势分别是什么?
  • MTCNN为什么可以接受任意尺寸的图片输入?
  • 检测最小人脸尺寸ninSize为什么是12?缩放因子factor为什么是0.709?
  • 什么是边框回归?
  • 为什么ONet可以同时输出人脸位置和5个关键点位置?

现在从头开始将MTCNN梳理一遍

1、读取一张图片,按照设置的检测最小人脸参数minSize,来进行图像金字塔操作

    float scale = 12.f / minSize;
    float minWH = std::min(imgHeight, imgWidth) *scale;
    std::vector<float> scales;
    while (minWH >= 12) {
        scales.push_back(scale);
        minWH *= factor;
        scale *= factor;
    }

scale的个数就是图像金字塔的层数,从这里看出minSize越大,图像金字塔的层数越少

然后将金字塔中不同层的图像分别输入PNet网络

for (int i = 0; i < scales.size(); i++)
{
    int ws = (int)std::ceil(imgWidth*scales[i]);
    int hs = (int)std::ceil(imgHeight*scales[i]);
    cv::resize(img, resized, cv::Size(ws, hs));
		warpPNetInput(img);
    PNet->Forward();
}

从上面可以看出,图像金字塔有多少层就进行了多少次的PNet的forward运算。

很明显,上面的问题已经有了答案

  • 图像金字塔的优势就是可以输入多尺寸的图像到CNN,提升CNN对多尺度目标的检出能力;劣势也很明显,直接增加了运算次数,也就成比例地增加了推理时间。在通用目标检测领域,影响召回率的两大难题:1,目标尺寸过小;2,目标尺度变化过大。工业界应用中提升召回率常用两种方法

  • 图像金字塔,在输入端进行多尺度变化,以适应多尺度检测,但是其缺点明显就是耗时

  • 特征金字塔,在特征图上进行多尺度,浅层特征负责检出大目标,深层特征负责检出小目标,例如SSD,FPN

  • MTCNN可以接受任意尺寸的图像输入。因为PNet是一个全卷积网络,没有全连接层,常见的卷积,池化,非线性激活层都是可以接受任意尺度的输入运算的,全连接是需要事先定义好连接数量所以不能接受任意尺度运算,当然也有例外,例如Kaiming He的SPP。MTCNN文章截图如下图1所示,但是实际开源的代码中跟这个结构略有不同,PNet没有进行landmark的回归,只有两个分支,一个用来分类人脸得到confidence值,另外一个用来回归box位置
    PNet
    PNet-out

  • 图像金字塔生成的图像尺寸要和12尽量接近,因为训练PNet的数据是归一化到12大小的。在文章中说明了,图像金字塔低层的面积是上一层的0.5,也就是面积的scale是0.5,对应的边长的scale就是sqrt(0.5),即0.709。minSize和factor两个参数直接影响到算法性能和推理时间

2、PNet输出的位置回归

按照PNet的网络结构,可以得到这样一个结论,12x12的矩阵可以得到1个prob(就是上面softmax的输出也就是人脸的概率)和一个4值向量(上面conv4-2输出,人脸的回归值)。

由于PNet不限制输入尺寸,所以输入的尺寸肯定有很多比12大的。由于卷积池化都是在输入特征图上“滑动”,所以现在把PNet看成是一个判别器,判断每一个12x12区域是否有人脸输出1个confidence和4个regression值,这样PNet就被看成一个12x12的“滑动核”。

假设一个输入图片中,某一个12x12块,左上角为(x,y)。其对应输出特征图大小应该是(x/2-5,y/2-5),所以根据输出信息反推回去,就可以知道哪一个12x12的块出现了人脸。假设PNet输出的特征图中某一个点检测出现人脸,反推回去原图上的坐标,例如输出特征图中(x,y)点反推回原图左上角(x1,y1)右下角(x2,y2)。

x1 = x * 2;y1 = y * 2;x2 = x1 + 12;y2 = y1 + 12,由于PNet做了图像金字塔,所以还需要还原Scale倍。

上面的内容只说明了某一个12*12区域是否存在人脸,但是具体位置还不知道,所以需要另外的4个回归值。

4个回归值分别代表的是中心点横坐标,纵坐标,宽,高 四个值的偏移量。这样有了坐标值,有了偏移量,就可以得到原图上精确坐标。

bbox回归,个人觉得也是一个非常重要的知识点,所以准备单独用一篇文章的篇幅来总结,这里先不写。

3、landmark检测

在Onet输出的时候,有三个分支,如下图,prob1是人脸confidence,conv6-2是人脸位置回归值,conv6-3是landmark回归值。

prob1是softmax的分类输出,conv6-2和conv6-3都是全连接层输出。在训练阶段,人脸使用交叉熵loss,landmark使用均方差损失,两者加权求和作为整个网络loss训练

4、mtcnn推理时间分析

经过观察mtcnn的三个网络结构,结构非常简单,计算参数量也非常少,主要耗时都存在于金字塔的生成过程中。三个阶段的耗时大约为:Pnet占75%,RNet占15%,ONet占10%。

但是通过工具计算单个网络参数量之后发现,PNet由于其最简单的网络结构,其参数量只有6.83K个,但是为啥耗时最多呢?原因是图像金字塔操作都在CPU上完成,然后forword操作再gpu上完成,这样导致数据不停地在显存和内存中拷贝,数据IO时间消耗已经不能被忽略了,并且在CPU上进行的resize操作时间消耗也不能被忽略。

  • MTCNN的推理优化主要从PNet下手,找到金字塔层数和待检测目标大小之间的平衡
  • 控制显存和内存之间IO交互的时间,例如将resize在gpu上实现。

5、mtcnn拓展

mtcnn的思想为工业界开阔了很大的视野,有很多使用mtcnn做的其他应用。例如mtcnn做行人检测,mtcnn做人头检测,mtcnn做人脸跟踪等等。

  • github上zuoqing大佬对mtcnn做了魔改,并且有一系列的拓展,强烈推荐看一下。
  • 人脸跟踪。第一帧采用完整mtcnn检测,检测到人脸之后,在第二帧中利用上一帧人脸位置稍微外扩一点,然后在此小图上直接使用ONet推理,直接就可以输出人脸位置。这样对于单人脸检测跟踪效果不错。

MTCNN是2016年的CVPR文章,再过一个月,马上就2020年了。时间总是在推着技术向前发展,我们也要跟上时代的步伐。虽然现在很多方法已经把MTCNN甩在后面了,但是我们不能忘记mtcnn对人脸检测算法做出的贡献。


关注公众号: 卡本特
内容持续输出

发布了65 篇原创文章 · 获赞 63 · 访问量 15万+

猜你喜欢

转载自blog.csdn.net/qq_17278169/article/details/103451053