Learning Pose-Aware Models for Pose-Invariant Face Recognition in the Wild

摘要

我们提出了一种方法，旨在推动边界的无约束的人脸识别在野外，以极端平面外姿态变化的重点。现有的方法要么期望单个模型通过对大量数据的训练来学习姿态不变性，要么期望通过将人脸对准一个正面姿态来对图像进行归一化。与此相反，我们的方法被设计来明确处理姿态变化。我们提出的姿态感知模型(PAM)使用几个特定于姿态的深度卷积神经网络(CNN)处理人脸图像。3D渲染用于从输入图像中合成多个面部姿态，既训练这些模型，又为测试时的姿态变化提供额外的鲁棒性。本文对IARPA Janus基准测试A (IJB-A)进行了广泛的分析，评估了地标检测精度、CNN层选择和位姿模型选择对识别管道性能的影响。它进一步提供了对IJB-A和PIPA数据集的比较评价。这些测试表明，我们的方法优于现有的方法，甚至惊人地匹配了专门针对目标数据集进行微调的方法的准确性。这项工作的部分内容已经出现在[1]和[2]中。

1 引言

近年来，人脸识别技术有了突飞猛进的发展，一些技术声称达到了[3]甚至超过了[4]、[5]的人脸验证性能。这尤其反映在LFW基准[6]的特定条件下报告的饱和结果中。
认识到在现实世界条件下，当前的人脸验证系统仍然存在不足，最近在[8]中提出了一个新的基准：IARPA Janus benchmark a（IJB-a）。IJB-A的设计目的是鼓励人们在无约束人脸识别的新方面开展工作。其中一个方面是，与之前的基准（最显著的是LFW）相比，强调了更广泛的面部姿势。因此，IJB-A代表了更具挑战性的观看条件，并为面部识别系统提供了一个更高的门槛。
IJB-A面部姿势的更广泛范围如图1所示。它显示了面部偏航角的分布（头部的平面偏航旋转之外），比较了LFW和更新的、更大的CASIA Web面部集合[7]与IJB-A中的面部。显然，IJB-A图像包含的头部姿势比之前的两组更广泛。IJB-A分布极端边缘的两个凸起进一步表明，在设计它时，特别强调注入大量的剖面图和近剖面图。
在这里插入图片描述
图1.LFW[6]和CASIA WebFaces[7]中头部偏航角的分布（后者用于训练我们的系统），与我们的系统测试的新IJB-A基准相比[8]。这些显示了IJB-A中更广泛的姿势和更多的近剖面图。
这些极端姿态的一个含义如图2所示，它提供了从LFW和IJB-A中可用的偏航角范围中选择的示例面。每个示例都附有其正面（对齐、正面）视图。这些例子强调了将此类近侧面图与正面位置对齐的挑战，例如[9]。该图显示，在处理近侧面图中的图像时，单一的正面参考坐标系是不够的；将纵断面面渲染到纵断面参考视图中会引入更少的伪影，并更好地保留面部外观。
在这里插入图片描述
图2.在LFW和IJB-A基准中从可用的偏航角度范围中选择面。从左到右偏航角度增加显示的面孔。每个面都显示其正面视图，在IJBA中，也显示近侧对齐视图。(a)在LFW图像中，frontalization通常是补偿姿态变化的一种手段。(b)如果在[9]、[12]之后进行，极端姿态的IJB-A面孔的正面化会带来严重的伪影。这些问题可以通过将图像对齐到近轮廓视图来解决。

除了强调姿势外，IJB-A还引入了集对集匹配的概念，即集合由异构媒体组成，而不是像LFW基准那样匹配两个单一图像，或者像YouTube Faces（YTF）基准测试[10]那样，IJB-A匹配两个混合媒体类型的集合。每一组包含来自多个来源的图像和视频。这种特定的集合匹配案例也被设计用来反映真实世界中的人脸验证设置，在这种情况下，可以收集来自多个来源的视觉信息并用于表示受试者的外观。由于集合可以包含一个物体在多个姿态上的图像，因此考虑如何处理集合到集合的匹配以及姿势变化如何参与匹配过程变得非常重要。
因为大部分现有的人脸识别工作主要是在LFW上开发和测试的，所以对极端姿势的关注从来都不是真正必要的。据我们所知，也正如其他[11]的人所注意到的，极端的姿势在之前的作品中从未直接提到过。因此，我们的工作旨在解决广泛的姿态变化和大量的近侧视图。
贡献： 本文提供了以下贡献。
（i）面向人脸识别的姿势感知模型：我们提出了一种明确考虑和处理姿势变化的人脸识别方法，包括极端、侧剖面图中的人脸。我们的方法训练了多个特定于姿势的模型，并有效地利用了这些模型来匹配不同姿势的人脸。以前的大多数方法只依赖于单个的正面姿态模型[13]，[14]，可能通过正面化对图像进行标准化[3]，[9]。我们展示了为什么这些方法不能应用于更广泛的姿势变化。与这些方法相反，我们建议通过学习PoseAware模型（PAMs）来处理姿势的变化，包括正面姿势、半侧面姿势和全轮廓姿势。与[15]、[16]相似，PAMs还允许我们克服姿势缺陷训练集的一个主要限制，从而得到更好的训练系统。
（ii）平面外人脸对齐的多个理想坐标：我们将frontalization扩展到多个姿势，以减轻在极端姿势下对人脸进行frontalization时产生的严重伪影（图2中也有演示）。我们描述了一个完整的人脸识别流程，为了在执行姿势感知的人脸识别时利用这些多姿态模型。
（iii）协同训练：我们开发了一种有效训练深卷积神经网络（CNN）位姿感知模型的方法。协同训练的目的是解决训练CNN模型的问题，在极端姿势中，可供训练的示例脸相对较少（参见图1b）。为了澄清，我们将我们的贡献与最近的贡献区分开来：[17]的工作使用多任务学习，以及[18]的多视角感知（MVP）。这两种方法都训练深层网络在视图之间进行插值，而我们的PAM使用渲染技术来生成合成的新视图。
我们的PAM模型经过了严格的测试，并在IJB-A基准测试中分析了它的各个组成部分及其对识别性能的影响。我们进一步将PAM与IJB-A和PIPA[19]基准的现有替代方案进行比较。值得注意的是，PAM在PIPA上的表现要优于DeepFace[3]和[20]，尽管PAM的训练数据要少得多，而且没有针对这一集合进行定制。最后，为了便于我们作品的复制，我们公开了PAM-CNN模型

2 相关工作

长期以来，研究者们都承认，当人们以极其不同的姿势呈现人脸图像时，人脸匹配技术会遇到困难[21]、[22]、[23]、[24]。为了解决这些问题，早期的研究建议针对不同的姿势训练人脸分类器，例如[25]将基本特征脸方法扩展到多个姿势。处理多个姿势的后续方法主要考虑在受控条件下获得的面部图像，例如在Multi-PIE数据集中可用的那些图像[26]
基于CNNs的人脸识别。最近一个非常流行的方法是通过训练cnn来处理面部姿势的变化。这些方法的目的是获得单姿态不变的表示。FaceNet[5]表明，通过一个训练在2.6亿张图像上的端到端学习系统，可以学习到一个紧凑的人脸嵌入。虽然DeepID[27]使用了CNN表示的集合，但是这些表示是在不同的面部patch上训练的，而不是不同的姿势，目的是在patch级别学习姿势不变性。与他们的联合Bayesian度量一起，他们在LFW基准测试中显示了显著的性能。他们的工作后来在[28]中得到了扩展，展示了CNN如何学习隐含地编码诸如性别等属性信息的稀疏特征。最后，为了训练CNN在[7]、[29]、[30]中的表现，我们努力制作出更加丰富多样的数据。
之前的一些工作试图通过执行多任务学习[17]或使用多视图感知器[18]来让网络分离身份和视角。这些后一种方法的缺点是，它们只对Multi-PIE数据集中的受限图像进行训练，其中的姿态是手动控制的。因此，这些方法没有在无约束的基准测试(如IJB-A)上进行测试。
与此相反，Wang et al.[13]最近的工作使用CNNs在8000万的图像库和IJB-A基准上显示了准确的人脸识别。Chen等人[14]、[31]在IJB-A上展示了引人注目的结果，他们使用了一个CNN在正面视图上从零开始训练，并对其进行微调以学习目标数据集上的有效度量。
最后，最近的研究使用3D渲染技术，通过合成新的姿势、表情和使用不同的3D通用形状来扩充训练集[15]；其他人改进了[32]中的方法，用新的3D视图和照明变化抖动VGFace集合[30]。与我们的方法相反，他们使用三维渲染来大规模扩充训练集，并在扩充集上学习单一的CNN。
使用3D模型来处理面部姿势。三维计算机图形学可以用来模拟不同姿势的脸的外观。在[33]中，使用了三维平均人脸模型，而不是依赖于早期工作中的三维圆柱形或椭球体模型。Prabhu等人[34]提出了一种使用通用弹性模型（GEM）从单个正面图像估计3D模型的有效方法。通过考虑不同种族群体的深度平均值[35]，进一步改进了该方法。他们的工作值得注意，因为这是第一个使用渲染技术来匹配正面和侧面图像的方法之一。三维数据特别用于匹配无约束二维人脸的渲染图像，说明了[36]中的小姿态变化。其他人后来提出了旋转脸部以获得不同训练姿势的想法[37]。
近年来，一些研究者提出通过在一个典型的正面视图中合成一个新的人脸视图来规范化面部姿势。[38]的工作是第一个报告通过将侧面人脸呈现到正面视图来提高人脸识别性能的。另一些人则提出了不同的方法来实现同样的frontalization（例如[3]、[9]、[39]、[40]、[41]、[42]）。[3]的DeepFace在[12]中提出的一种三维人脸形状估计方法应用于无约束人脸图像。然后，这些3D估计值被用于他们的CNN系统的训练集的前沿化。
最近，与我们的工作特别相关的是[9]的frontalization。它提出使用一个单一的通用三维脸型，不修改，以简化这个frontalization过程，提高结果。我们在这里使用类似的单一泛型方法，不过我们将其扩展到多个姿势，并在一个完全不同的识别流程中应用它。
最后，Zhu等人[43]没有使用显式的3D模型，而是使用CNN直接将近正面恢复到正面视图，并将其作为另一种对齐技术。

3 我们的方法概述

给定图像I，我们将面部姿势分布定义为 $p (p ∣ I)$ ，其中p是头部三个3D旋转角度的向量。在这项工作中，我们不假设这种分布是主要由近正面脸构成的。相反，我们建议学习多姿态特定的CNN模型。我们的面部匹配流程的概述如图3所示。给定两个被试，每个被试由一组包含多个图像和视频的集合表示，我们首先检测所有图像和视频帧上的面部标志点。这些特征点用于将每个图像与五个不同的参考姿势对齐（见第4节）。姿态感知的CNN模型，在CASIA WebFace数据集[7]的500k图像上训练，并在第5节中描述，用于提取每个姿势下图像的特征。这些特征在两组中是匹配的。我们开发了两种不同的匹配这些特征的方法，并在第6.2节中进行了描述。我们在第7节中提供了实验结果。
在这里插入图片描述
图3.给定要匹配的两组人脸图像和视频，采用位姿分类，选择相应的姿态感知CNN模型进行处理。对于多幅图像，每个模型分别提取特征并在设定的层次上进行匹配。最后，每个模型的贡献被合并成一个单一的最终分数。注意我们的方法是如何使用3D渲染来调整姿态为正面(0度)，半侧面(40度)和全侧面(75度)。

4 多比对

检测到的面部标志点提供了一种简单的方法，通过使用基本的平面内对齐，可以在面部靠近正面时补偿面部侧倾，以及面部靠近侧脸时补偿俯仰。因此，我们通过假设 $p (p ∣ I) \approx p (φ ∣ I)$ ，其中φ代表面部偏航角，集中精力补偿偏航变化。我们还注意到，[3]、[9]使用frontalization来补偿平面外变化可能是一个噪声过程，随着输入面旋转到更靠近剖面图的位置，该过程变得更加困难（参见图2）。因此，我们提出了一种将frontalization的概念扩展到姿态分布的多种模式的方法。
最后，我们没有选择单一的人脸对齐方法，而是融合了多个面对齐流程的结果。这样做是为了防止特征点定位中的错误产生错位或损坏的面。当使用平面外对齐方法（例如，当未正确检测到特征点时，会将面投影到输出视图之外）时，这是一个特别值得关注的问题。在这种情况下，平面内对齐（例如，使用简单的相似性变换）是一种更稳健的变换，需要较少的检测锚定点。

4.1 扩展训练集位姿分布

学习多姿态感知模型的一个关键挑战是，用于训练对每个姿势的有效cnn的可用数据有限，尤其是在开发一个用于处理极端视图中的人脸的系统时，例如IJB-A基准中的系统。在我们的工作中，我们使用CASIA WebFace集合作为训练集。虽然它远大于LFW，但它仍然强烈偏向于正面姿势，并且包含的近侧轮廓图像数量非常有限（见图1）
与依赖于多任务学习[17]或[18]并用单个网络对身份和视角进行建模的方法不同，我们独立地处理每种类型的对齐和数据。也就是说，我们学习每种对齐类型（平面内和平面外）和姿势分布的每种模式的特定模型。除了允许在不同视图中对外观进行更好的建模之外，这种方法的一个关键优势是它允许网络协同训练，从而提高所学特征的可迁移性（更多关于协同训练的内容，请参阅第5.2节）。我们发现这对于推广到其他数据集特别重要。然而，这种方法假设有足够的例子来训练每个模型，而CASIA的情况并非如此。
为了解决这个问题，我们在CASIA训练集中自动拉伸面部姿势的分布，以产生涵盖从正面到整个侧面的例子。为此，我们开始将CASIA偏航角的范围划分为子集。每个子集中的脸会被人为地映射到极端姿势。
具体地说，给定2维特征点，将其转换为齐次坐标 $l∈R^{3×|J|}$ 和J一组特征点索引，我们以类似于[12]的方式计算3D姿势，方法是考虑相同面部标志J在通用3D面部形状M的表面上的位置，用齐次坐标表示它们为： $L=M(J)∈R^{4×|J|}$ 。固定的三维通用形状M取自一组混合形状[44]，选择一个中性表达式。然后我们可以估计一个透视相机模型，将3D人脸M上的点L映射到图像上，如
在这里插入图片描述
其中

尽管最近的深度方法在3D人脸对齐[45]和[46]中显示出了更高的精度，但我们使用受限的局部神经场(CLNF)[47]来检测68个面部特征点。然后在PnP方法[48]中使用这些参数来估计相机的外部参数，假设主点在图像中心，通过最小化特征点重投影误差来修正焦距。
从p中提取代表模型M相对于图像的三维旋转参数的旋转矩阵 $R∈R^{3×3}$ 。通过分解R，我们得到了在通用三维模型的坐标系中，整个数据集的面部偏航值φ。为了估计训练姿势分布 $p (φ ∣ I)$ ，我们累加了所有 $\{φ_i\}^N_{i=1}$ 值。这些分布如图1所示。
我们不是将所有的图像都视为属于同一个正面模型，而不考虑其潜在的偏航分布，而是将人脸分割成单独的偏航分布。为了得到的主要T模式训练偏航分布 $p (φ ∣ I)$ ,我们在 $\{φ_i\}^N_{i=1}$ 运行k - means
在这里插入图片描述
以及将每个图像硬分配到特定模式。我们可以将这些难以分配的图像解释为一个函数，该函数将每个图像映射到一个特定的模式

实际上，我们考虑T=5模式：一个用于大致的正面视图，两个附加视图用于正偏航角和负偏航角。每个 $μ_{φ_t}$ 代表偏航分布中的一个模式， $δ (\cdot)$ 为每个图像分配每个t模式。在CASIA集合上，我们发现模式相互平衡，大致集中在{-33.96°; -15.87°;0.25°;16.50°;33.13°}上。如图1所示，大多数图像聚集到正面模式和两个近正面模式。
通用形状和特定形状。我们主要根据[9]中的研究结果，鼓励使用简单的三维通用形状M，即任何通用脸型都和另一个一样好，这取决于在所有测试中保持不变。为了使用不同受试者之间有区别的特定人脸形状，特别是在侧视图（例如鼻子轮廓）中，系统应能够重建真实的3D形状，以便正确地呈现侧视图。然而，估计IJB-A图像的正确和稳定的3D形状非常困难，尤其是在测试时。因此，当三维重建失败时，尝试三维重建实际上会降低识别精度。出于这个原因，我们倾向于使用通用三维模型的更稳健的解决方案。
讨论更细粒度的PAMs。显然，在选择T时需要权衡:如果T等于1，我们将回归训练单一模型，而不考虑姿势;尽管我们可以通过增加PAMs的密度来提高T来更好地识别人脸。这有两个主要问题:首先，通过增加pose模式的数量，每个PAM将训练在更少的图像上，因此更有可能过度拟合;其次，更多的PAMs需要更多的存储空间和更慢的测试时间。因此，我们选择T - 5作为一种有效的妥协。

4.2 平面对齐模型

虽然公式（3）使用了五种模式，但是我们可以使用面部对称性来简化这个模型。具体来说，我们根据 $μ_{φ_t}→|μ_{φ_t}|$ 翻转偏航分布的一个方向。这是通过在这些模式下沿垂直轴翻转图像并相应地修改公式（4）中的赋值来实现的。因此，我们只能考虑分布 $p (φ ∣ I)$ 的一侧，例如，左侧减少了我们需要训练的模型的数量，并简化了我们的系统。结果是一组三种模式 $φ'=\{μ_{frontal},μ_{near-frontal},μ_{profile}\}$ ，对应于以{0.25°;16.50°;33.13°}为中心的偏航值。
我们将这些模式用于二维平面内对齐，如下所示。我们将 $p (φ ∣ I)$ 表示为双峰分布，将数据集分为两类：具有较小姿态变化的近正面人脸和具有高姿态变化的侧面人脸。特别地，我们使用式（4）中的图像分配对图像进行分割，如果图像属于第三模式 $μ_{profile}$ ，则将其分类为profile，否则将其分类为front。通过这种方法，将CASIA数据集划分为两个独立的子集，可以用来训练两个具有平面对齐图像的CNN模型。我们把它们称为PAMinf和PAMinp。另外，由于正面图像和侧面轮廓是分离的，所以我们可以对每一组图像使用不同的理想目标坐标。正面图像使用面向正面的九个最可靠的标志点进行对齐，而侧面图像（其中一半的脸不太明显）则使用鼻尖和两只眼睛的中心对齐。对于两种对齐，我们使用非反射相似性转换 $S(s;θ;t_x;t_y)$ 。每个集合的对准参数通过标准技术恢复，利用检测到的和参考的特征点来求解一个线性方程组，这些路标对于每个特征点来说都是特定的。

4.3 平面外姿势模型

第4.2节中描述的过程对图像应用有限的平面内变换。因此，它不能解释剧烈的姿态变化，也不会为训练集引入比原始CASIA集合中已有的更高偏航角的新例子。基于这两个原因，我们并不完全依赖于平面内对齐的图像，而是学习补偿平面外旋转的模型；这些模型最小化了姿势的可变性，并解决了训练数据中轮廓面的不足。
我们再次将 $p (φ ∣ I)$ 表示为具有三个突出模式的多模态分布，并再次利用等式（3）和面部对称性，正如我们在第4.2节中所做的那样——这次通过将姿势与目标偏航值对齐来调整姿势。这个过程类似于[9]的frontalization，只是这里我们使用了一个以上的目标偏航角。
具体来说，我们希望我们的模型能够代表正面、半侧面和全侧面，但是正如我们在第4.1节中所示，我们所有的三种模式都集中在近正面视图上（最极端的集中在33.13度）。通过将训练图像转化为新的目标分布，消除训练集中偏航分布中的训练偏差。为此，我们使用三维通用模型M和公式（2）的估计姿态p将每个训练人脸渲染成期望分布的新模式。使用的特定渲染技术源自[9]。
在实践中，我们预先设定目标分布有正面（0度）、半侧面（40度）和全轮廓模式（75度）。训练图像被映射（渲染）到这些模式中的一个或多个，这种方式在生成良好的渲染面和生成足够的侧视图之间提供了一种权衡。具体地说，根据图像的估计面部姿势和图4中的有向图将图像渲染为新视图；图中的每条边表示从某个输入姿势到目标姿势的渲染过程。因此，例如，中间模式下的图像（属于平均偏航为16.50度的簇）渲染为侧视图、半侧面视图和正面视图，而属于正面模式的图像仅渲染为正面和半侧面视图。
这个过程产生的合成图像为目标分布中的每一种模式提供了充足的例子。训练数据的增加因子是分配给每个源模式的图像数量和进入目标节点的边缘数量的函数。按照这个过程，我们可以训练三个额外的网络，每个网络对应新的期望位姿分布模式，也就是 $PAM_{out-0}, PAM_{out-40}, PAM_{out-75}$ 。
在这里插入图片描述
图4.(a)用于映射CASIA偏航分布的每个模式到所需目标模式的有向图。(b)该过程有助于正确渲染人脸图像:如果人脸是正面的，我们将其同时渲染到正面和半侧面视图;如果它远离正面，我们避免正面化，只渲染轮廓视图。

5 学习POSE-AWARE模型

根据其估计的位置，输入图像最多对齐5次——要么使用对正面视图或剖面视图的2D对齐(章节4.2)，要么使用平面外对齐(章节4.3)最多对齐3次。对于这五个CNN，我们分别训练一个独立的CNN模型，得到五个CNN的集合。每个CNN都通过学习自己的位置特征来了解自己的观点，这就是我们的方法的名称。

5.1 微调PAMs

对于第4节中描述的五种模式，我们分别训练一个独立的、感知姿势的CNN。因为从头训练一个CNN可能需要数百万张注释过的图片，所以我们通过微调在ImageNet上训练的最先进的CNN模型来训练我们的姿态感知CNN。在我们的实现中，我们实验了一个拥有8层(AlexNet)[49]的CNN和一个拥有19层(VGGNet)[50]的CNN。我们测试了不同的网络类型，以证明通过融合多个位置感知模型获得的性能增益与所使用的特定CNN架构无关。
所有这些CNN模型都以全连接层fc7和fc8结束。fc8的输出被送入C-way SoftMax，该C-way SoftMax在C类身份标签上给出分布。用 $y_i(I)$ 表示给定图像I上网络的第i个输出，分配给第i类的概率是SoftMax函数的输出 $p_i(I)={e^{y_i(I)}\over ∑^C_{l=1}e^{y_l(I)}}$ ：注意，根据第4节中产生的数据集，每个PAM中的fc8输出可能包括不同数量的受试者。
训练参数。如前所述，我们从最初在ImageNet数据集中学习的预学习权重开始。然后我们初始化fc8的值以允许它从头开始训练。fc8的初始值来自于平均值为零、标准偏差为0.01的高斯分布。然后通过随机梯度下降（SGD）和标准反向传播[51]对我们的面部数据集进行微调，最小批量为60。我们使用1e-3的初始学习率。这个速率适用于整个网络，除了新的fc8，它的学习率更高一个数量级。学习偏差的速度是权重的两倍。最后，当验证集误差达到饱和并停止增加时，学习率下降一个数量级。最终学习率为1e-4。通过对权重衰减参数为5e-4的权值施加L2范数，并对概率为0.5的全连通层应用dropout，我们使用0.9的动量来正则化训练。我们所有的输入图像都经过预处理，以减去训练集上计算的平均图像；在训练和测试过程中没有数据抖动。
对于每种模式，我们采用完全相同的学习模式:我们只使用与特定模式相关的数据进行再训练，包括所有训练对象至少有五幅图像;我们随机选择80%的图像进行训练，剩下的20%用于验证。

扫描二维码关注公众号，回复： 13352604 查看本文章

5.2 PAM与权值共享初始化联合训练

即使为我们的每个模式生成了训练集，我们的训练集也没有包含足够的样本来从头训练我们的模型。因此，根据[52]中提供的分析，我们根据最初使用ImageNet训练集学习的权值对网络进行微调。
为了提高学习模型的可转移性和减少模型的过拟合，我们建议进一步联合训练我们的模型。该方法的目的是在损失最小化过程中寻找一个更好的优化点，并对所有模型进行正则化。联合训练的动机是使用卷积过滤器和权值，这些过滤器和权值是在人脸上调整的，而不是在ImageNet中的一般图像上。与在普通CASIA(例如[7])上训练的基线模型不同，我们有多个CNN模型，每一个都针对人脸的特定视点和特定的对齐方式而设计。我们建议通过从不同的角度使用不同的集合来优化不同的损失函数来利用这多种模型。
我们概述了算法1中的协同训练过程。用于平面对准模式的网络最初是根据ImageNet预先学习的权重（PAMinf）进行微调的。根据经验，我们发现这还不够，而且从ImageNet进行微调的PAMinp表现不佳，因为可用于训练的配置文件图像很少。因此，我们通过从为PAMinf获得的权重恢复优化，PAMinf是在大得多的一组正面上训练的。对于平面外模式（第4.3节），我们再次从ImageNet权重开始微调 $PAM_{out0}$ 。然后我们微调 $PAM_{out40}$ ，使用 $PAM_{out0}$ 中的权重初始化。我们继续通过交替的联合训练迭代，直到验证精度在两个模型中饱和。
在这里插入图片描述
协同训练是一种正则化的形式，但它与权值共享的不同之处在于，在这种情况下，使用已经优化过的网络A的网络权值作为网络B的初始化，以避免过拟合。通过比较，权值共享假设网络A和网络B在同一个优化过程中共享相同的权值。
图5显示了使用AlexNet架构进行联合训练所提供的验证精度的大幅提高。在这些模型训练完成后，我们继续进行联合训练PAMout 75和PAMout 40。在第7节中用于报告性能的更深层次的架构中也观察到了类似的(虽然更快)进展。我们对VGGNet执行了相同的过程，但是这个更深层次的模型需要更少的联合训练步骤来饱和验证的准确性。
在这里插入图片描述
图5.随着微调过程中的迭代，验证精度的急剧提高。每条曲线代表了协同训练过程中的一个步骤。迭代以对数尺度表示

6 POSE-AWARE人脸识别

在第五节中学习到的姿态感知CNN模型可以被视为针对特定姿态分布模式而明确训练的判别分类器。接下来我们将描述这些单独的模型{PAMinf，PAMinp，PAMout0，PAMout40，PAMout75}如何在我们的识别管道中联合使用。

6.1 测试时的对齐

给定一个测试图像,我们基于估计姿势的脸图像选择一个对齐(见图6)。我们进一步利用面部对称性以同样的方式,我们在训练set-aligning或渲染一张脸一边然后翻转回来,如果有必要,使它与相应的PAM。
在这里插入图片描述

平面内对齐。在测试时，对于图像I，我们首先检测面部标志，然后使用这些标志来估计面部姿势。然后使用与第4.2节中外形面模式对应的 $μ_{profile}$ 对姿势进行分类。该过程与平面内对齐训练图像的处理过程相同。正式地
在这里插入图片描述
我们使用与第4.2节中外形面模式对应的阈值 $μ_{profile}$ 。这一决定在图6（左）中示出。在一般情况下，如果一个集合包含多个图像（集合到集合匹配），我们将根据分类的姿势将每个人脸图像与 $PAM_{in-f}$ 或 $PAM_{in-p}$ 对齐。
平面外对齐。同一图像I还通过将面部渲染为第4.3节中定义的多种模式{0°;40°;75°}进行三维对齐。我们总是将每个图像渲染为半侧面视图（40度）。然后，如果图像被分类为近正面，我们还将其正面化到0度。否则，我们将图像渲染到纵断面图（75度）。使用PAMout0，PAMout40，PAMout75处理这些图像。图6（右图）说明了该过程。
减轻特征点故障。本节所述的对准过程很大程度上取决于特征点探测器及其精度。IJB-A或其他野生标本中的图像可能会导致探测器失效，如果图像特别具有挑战性的话，这可能经常发生。这会影响对齐的质量，进而降低识别系统的性能。当探测器在一组图像上找不到地标时，我们就用未对齐的人脸图像代替。由于在这些情况下没有可用的姿势信息，因此使用PAMinf简单地处理这些图像。

6.2 匹配方法

人脸表示与匹配。每个PAM按照第6.1节所述处理对齐的图像并生成特征表示。对于这个表示，我们取非线性ReLu激活后的fc7层响应。然后利用主成分分析（PCA）对目标数据集的训练图像进行变换。在PCA之后，通过元素有符号平方根（SSR）进行非线性变换。这种转换通常用于Fisher向量编码[53]，我们发现它在这里也很有用。结果是我们的最终面部表示，用x表示。
两个这样的表示之间的匹配分数 $s(x_1,x_2)$ 通过计算它们的相关性来计算
在这里插入图片描述
当匹配整个集合（可能同时包含静态图像和视频帧）时，我们尝试了两种截然不同的匹配方法：
1）使用公式（6）进行成对相似性比较，然后使用公式（7）的SoftMax进行分数融合。
2）每个集合中所有特征的元素平均值，根据它们的来源（静态图像和视频帧分开合并，见下面的等式（8）），然后是集合特征向量的相似性。
成对相似性比较和SoftMax。每个PAM使用等式（6）对来自两个集合的特征对进行成对比较。然后通过取加权平均值来融合这些成对得分，其中每个权重是使用指数函数的分数的函数。正式地
在这里插入图片描述
其中， $T_1$ 代表一组特征集合 $T_1=\{x_1,x_2...x_N\}$
最终集合间相似性得分的是由多个值β=[0…20]的SoftMax响应的平均值定义的。这里有意思的是，SoftMax超参数β控制平均分数或取其最大值之间的权衡。为了澄清这一点，我们强调提出的SoftMax算子与通常用于训练cnn进行闭集分类的算子有很大的不同，这里，它允许开放集人脸识别。
帧和图像池。以前的一些研究提出了不同的方法来集中特征描述符[54]，[55]。在本节中，我们提出一种更简单但高效的替代方法。具体地说，如果一个集合包含多个图像，则首先根据它们的类型对这些图像进行池化。从静态图像中提取的特征（用 $T_{img}$ 表示）和视频帧（用 $T_{frm}$ 表示）分别使用元素平均值汇集在一起，如下所示：
在这里插入图片描述
一旦使用公式（8）中的帧和图像池将一个集合展平，则通过获取集合特征之间的相关性并获得最终的集合分数来比较两个集合： $s(pool(T_1),pool(T_2))$ 。
跨PAM融合。给定要匹配的集合（或图像）对，上述过程将产生多达五个相似度得分，每个相似度得分通过匹配从特定PAM获得的特征而产生。在我们的实现中，这些值通过简单的未加权平均值汇集在一起。我们发现这为我们所有的实验提供了一个很好的基线。

7 实验结果

本文的主要贡献是提出了位姿感知模型的训练和应用及匹配的概念。然而，围绕这个概念设计的系统包括许多其他设计细节和组件。我们的实验开始时，我们仔细分析了其中的许多组成部分，并在设计人脸识别系统时做出了选择。这些是在IJB-A设备上进行的。此外，第7.1节和第7.2节提供了在具有挑战性的无约束环境中进行人脸识别的两个公共基准的比较实验结果。
我们强调，我们的系统不使用目标数据集执行任何监督训练；监督训练只通过训练我们的PAM使用CASIA WebFace的外部数据来执行。也就是说，与[14]、[31]相反，我们不会重新训练模型，也不会使用每个基准点上提供的训练分割对其进行微调，也不会在目标训练数据上学习任何有监督的嵌入。通过避免这种情况，我们在将我们的系统应用于新的数据集时需要较少的培训工作量。此外，这突出了我们的方法的可移植性，超出了用于训练它的限制域。最后，为了进行公平的比较，我们通过对受试者名字的字符串匹配，删除了IJB-a中包含的CASIA集中的所有受试者。因此，总共有26名重叠的受试者从训练集中被移除。

7.1 IARPA Janus基准A（IJB-A）

IJB-A是为了推进野外人脸识别的前沿由IARPA提出并由NIST2提供的一种新的人脸识别挑战。它遵循LFW结果的饱和[6]（现有的标准事实基准）。IJB-A在极端的观看条件下提供500个受试者，反映姿势、表情、照明等方面的变化。IJB-A评估协议由人脸验证（1:1）和人脸识别（1:N）组成。如前所述，每个IJB-A主题由包含图像和/或视频帧的集合表示。
我们研究了在二维平面对齐CASIA图像上训练基线及其关键部件对性能的影响。特别是，我们检查了选择不同的面部标志点检测方法、面部表情和我们的方法的其他组成部分的效果。我们还提供了这个基线、多姿态表示和基于姿势增强数据训练的网络之间的比较[15]，[16]。最后，我们比较了共同训练的PAMs和用标准但更具攻击性的正则化方法训练的CNNs。在这些实验中，所使用的核心匹配系统是基于等式（7）的成对相似性和SoftMax集合分数融合。使用的数据集是IJB-A。
特征点检测方法的效果。不同的特征点检测方法在不同的基准上报告了不同的准确率。由于特征点检测精度会直接影响人脸识别流程的性能，因此评估不同的特征点检测方法以评估影响程度以及系统其他部分对该选择的鲁棒性非常重要。

不写啦