MTCNN的训练与测试小结

本文重点介绍其中一篇关注度比较高的文章《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》也就是标题中提到的MTCNN。

MTCNN网络结构

训练数据：该算法训练数据来源于wider和celeba两个公开的数据库，wider提供人脸检测数据，在大图上标注了人脸框groundtruth的坐标信息，celeba提供了5个landmark点的数据。根据参与任务的不同，将训练数据分为四类：人脸正样本（positives）、非人脸负样本（negatives）、部分脸（partfaces）、关键点（landmark）。positives、negatives、partfaces由随机取的框与groundtruth的overlap区域比例的大小决定，大于0.65为positives，小于0.3为negatives，0.4到0.65之间为partfaces。positives和negatives参与到分类任务，positives和partfaces参与到回归任务，landmark数据参与到关键点回归任务。关键点回归仅在第三个net中实用，此时landmark数据的人脸框位置可由前两个net的模型检测得到，或是由landmark的坐标位置拟合出来。在每个batchSize中的样本比例如下，positives：negatives：partfaces：landmark = 1 ： 3 ： 1 ： 2。到此为止，数据的来源组成我们都交代完毕，但是如何生成训练数据呢，这也是很多MTCNN的拥簇者希望能开源训练代码。本文以caffe为例，采用hdf5数据格式，先由脚本随机在wider上截取positives、negatives、partfaces，注意要覆盖到不同尺度的，负样本的量级达到2000w左右（该文作者透露）。之所以采用hdf5的数据格式，是考虑到能够方便的实现多label，以前两个net为例，笔者采用的label为7为，分别是 f1 c1 f2 dx1 dy1 dx2 dy2，f1和f2是标记位，f1标记该样本是否参与分类，f2标记该样本是否参与回归，f1和f2后面紧跟的是真实的label信息，c1是样本类别，dx dy是偏移量。与此对应的是，笔者自己实现了带标志位的softmax和euclidean loss（这种训练的方式不够美观，有其他更好的方式还望有读者能告知我）。

网络结构：三个net的网络结构如上图所示，注意pnet是全卷积的结构，不包含fc层。笔者在训练pnet和rnet的时候，并没有加入landmark回归的任务，分类和人脸框回归的loss_weight之比为1：0.5，onet加入landmark回归，分类、人脸框回归和关键点回归的loss_weight之比为1：0.5：0.5。

hard mining：笔者按照论文上的在线hard mining的方式，只计算loss大的前70%样本的梯度，没有取得收益。rnet和onet训练的时候，负样本分别是经过前面的net处理而搞不定的这些。

MTCNN测试流程

测试

测试流程参见附图，对图像进行金字塔处理，笔者用的缩放系数是1.3，注意pnet是全图计算，得到的featureMap上每个点对应金字塔图上12*12的大小，然后是否通过分类阈值进行窗口合并（NMS）和人脸框位置矫正。在pnet和rnet阶段，笔者实验发现人脸框位置矫正在NMS之前能提高召回率，在onet阶段，为避免同一人脸输出多个框，将NMS操作放在人脸框位置矫正之后。

还有一些简单的细节笔者没有一一详尽描述，如果读者有问题，可留言与我讨论。

更详细的介绍：见https://zhuanlan.zhihu.com/p/38520597

MTCNN的训练与测试小结

猜你喜欢