DeepVisage: Making Face Recognition Simple Yet With Powerful Generalization Skills

DeepVisage:利用强大的泛化能力使人脸识别更简单

作者在摘要中总结了目前人脸识别算法的一些思路，但是目前流行的思路都需要额外的工作量或者数据，作者认为只有identity-label的数据就可以进行训练。文章提出用残差网络结构加上Feature normalization训练人脸识别网络。

作者在引言中分析了近几年人脸识别算法研究的4个方向：

loss function 损失函数：提出各种使特征更加具备分辨力的损失函数，比如A-Softmax、Triplet loss、NromLoss、SpherLoss等等，几年关于人脸精度提升的一种范式方法了。
fine-tune CNN ：在各种数据集上进行微调，相当于靠大量数据，但是这样的模型泛化能力不强。
metric learning 度量学习：度量学习算是一个比较新颖的类型，但是度量学习需要特定的训练数据，而且有时候度量学习不一定能提升精度。其实就我理解而言，从度量学习上提升应该是可行的，但是作者这篇文章的思路是越简单的训练越好，所以没有考虑度量学习。
concatenating features from multiple CNNs 多模型特征拼接：用多个CNN网络提取特征，然后对特征进行拼接耦合。这个我做过，将facenet的特征和vgg2的特征拼成一个长特征，效果还真的提升了。但是有一点需要注意的是，如何保证每个CNN模型提取特征的差异性。

在对目前的人脸识别算法分析的基础上，作者提出的是仅仅用identity-label的数据，用softmax来训练一个好的CNN网络，也就是越简单越好，不辅助以其他数据和方法。

本文的方法

作者选取的网络结构是残差网络结构，但不是流行的框架。网络结构如下图所示：
CNN model
里面比较特殊的是FN层，Feature Normalization，其实是Batch Normalization的一种特殊形式，主要可以加速网络的收敛。
Pre-process:包括3个预处理步骤，

face detect via MTCNN
normalize by 2D similarity transformation
convert to grayscale

experiments

作者在4个数据库上进行了测试分别是LFW,IJB-A,YTF,CACD
都取得了state of art的水平

人脸识别-DeepVisage: Making Face Recognition Simple Yet With Powerful Generalization Skills

DeepVisage: Making Face Recognition Simple Yet With Powerful Generalization Skills

DeepVisage:利用强大的泛化能力使人脸识别更简单

本文的方法

experiments

猜你喜欢