《山世光：深度化的人脸检测与识别技术》读书笔记

原文链接：http://www.leiphone.com/news/201610/rZ2Mn9UFF3x8FaEt.html

人脸识别过程

人脸识别的本质是对比两个照片是否是同一个人。这个过程可以分为以下几个步骤：

确定人脸位置
确定五官位置
提取关键人脸区域
用特征提取器把图像变成特征向量
对比两个不同人脸的特征向量的相似度

在这里面其中最核心的三个步骤是：人脸位置的确定、五官位置的确定和特征提取器将图像转换为特征向量，这也是人脸识别中最本质的三个内容。

人脸识别近期发展特点

人脸识别近期发展的最大特点是人脸识别变得和狗脸识别、猫脸识别没有太大区别了，在技术上，不用把人脸识别特别来看待了。人脸识别能在过去的三四年里能有一个快速的发展得益于深度学习。
在深度学习之后，人脸识别实现了深度化。在计算机视觉领域，深度学习应用最好、最成功的就是卷积神经网络（CNN）。

卷积神经网络（CNN）

卷积神经网络大约是20世纪80年代出现的，到1998年这期间出现了一些卷积神经网络的雏形。1998年出现的卷积神经网络和现在的神经网络在本质上没有什么区别。

卷积神经网络实质上是对输入进行加权求和之后，去做一个非线性变化的过程。输入图像通过滤波器组进行非线性卷积，卷积后在每一层产生特征映射图，然后特征映射图中的值再进行加权求和并进行非线性变换。在此过程中这些像素在池化层被池化，最后得到输出值。

人脸检测技术

在深度学习技术之前，几乎所有人脸检测都是采用滑动窗口式的方法。即设计一个分类器，对于图片设计一个滑动的窗口，检测滑动窗口部分是否是人脸，然后对图像缩放后再检测。

物体检测内涵与思路

不管是人脸检测还是物体检测，都需考虑的两个问题是：

有没有人脸
人脸在哪里

2014年来的变迁

有没有人脸部分：
- 从人脸特征–分类器学习“两步法”转变为特征和分类器End-to-End学习
- 从二分类转变为多分类

人脸在哪里部分：

从check所有可能位置和大小转变为只check可能位置和大小或者回归位置和大小（更准确）

基于深度学习的物体检测

在过去的几年里出现了一系列的方法，包括：

Region CNN系列
R-CNN →SPP R-CNN→Fast R-CNN→Faster R-CNN
回归系列
YOLO
传统方法与深度方法结合
FacenessNET
Cascade CNN（coarse-to-fine）

R-CNN

关键点：

Selective Search产生约2000个候选窗口
每个候选窗缩放到227*227（用CNN提取特征）
SVM分类

缺点：
需要2000多次CNN过程，速度很慢。

原因：
大量CNN+SVM

SPP R-CNN

SPP R-CNN
原理：
在R-CNN基础上改进，只做一次全图CNN，如果图像大小不一样就用Spatial Pyramid Pooling方法。

缺点：
不够快，GPU也需要数秒，而且训练比较繁琐。

Fast R-CNN

Fast R-CNN
原理：
比SPP R-CNN更简单的pooling策略，每个候选窗口下采样
多任务损失函数由SVM改为Softmax分类

Faster R-CNN

Faster R-CNN
原理：
用Region Proposal Networks替换Selective Search，采用anchor boxes机制，在最后层卷积图上滑窗，用K（特征图数）维特征进行分类和BB回归。
优点：
精度高，速度快（5fps GPU上）。