《Look at Boundary: A Boundary-Aware Face Alignment Algorithm 》阅读笔记

摘要

本文提出了一种新的边界感知人脸对齐算法,算法通过利用边界线作为人脸几何框架实现人脸 landmark 的定位。与传统的基于热力图或基于回归的方法不同,本文的方法从边界线处提取人脸 landmarks,消除了定义 landmark 的歧义。本文探讨并回答了以下三个问题:

1. 为什么使用边界?
2. 如何使用边界?
3. 边界估计与 landmark 坐标之间有什么关系?

该算法的效果远远超过了当前最优的算法。在 300-W Fullset 上的平均误差为 3.49%,该算法还可以整合其他数据集的信息,通过使用数据集 300-W 的边界信息,该算法在数据集 COFW 上的平均误差和错误率分别为 3.92%,0.39%;在数据集 AFLW-Full 上的平均误差为 1.25%。为了统一不同因素(包括姿态、表情、光照、化妆、遮挡以及模糊)下的训练和测试,作者提出了一个新的数据集 WFLW。

1、前言

人脸对齐也就是人脸特征点定位是许多人脸应用中的关键步骤,例如人脸识别、人脸验证以及 face frontalisation 等。

研究问题

设计出一种高效的适用于多个数据集、多种标记方式的人脸对齐算法,该算法可以处理无约束的人脸姿态变换以及遮挡条件下的人脸对齐问题。

解决办法

利用人脸边界作为人脸几何结构对 landmark 进行回归预测。

与人脸检测和人脸识别不同,人脸对齐(识别人脸几何模型)可以看作对高度结构化的输出进行建模。每个面部 landmark 与某个明确的面部边界线高度相关,例如眼眶和鼻梁。

Q1:为什么使用边界?

  1. 与边界相比,面部 landmarks 并不是那么好定义。在较大姿态变化以及遮挡的情况下,除了一些边缘点以外,面部 landmarks 几乎不可能保持在同一位置;
  2. 现有数据集的不同标记方式导致各数据集的 landmark 数量有所差异,而且很难对未来人脸对齐数据集的标记方式进行预测,但边界是对结构进行详尽和明确的描述,因此在不同的头部姿势以及不同的数据集间是一致的;
  3. 人脸 landmarks 与人脸边界高度相关,因为大多数 landmarks 都落在边界线上;
  4. 在第二部分的消息传递机制中,在边界之间传递消息比在 landmark 之间传递消息的开销小。

作者认为一个唯一的面部框架对人脸 landmarks 的定位至关重要,因为人脸是没有歧义的(比如鼻子不可能在眼睛上面)。

因此作者选用明确的面部边界作为人脸的几何结构。在大的姿态变换以及遮挡情况下,人脸边界的确定比人脸 landmark 的确定更为容易。本文中,我们使用了 13 条边界线作为面部框架。 每条面部边界线可以通过对多个数据集上足够多的面部 landmark 进行插值得到,而且不会受不同标记方式的影响。

边界感知人脸算法包括两个阶段:

首先对面部边界热力图进行预测;
然后利用边界热力图对人脸 landmarks 进行回归。

Q3:边界估计与 landmark 坐标之间有什么关系?

为了探索面部边界与 landmarks 之间的关系,作者提出了基于 landmark 边界有效性判别器的对抗学习思想。实验证明,边界预测的质量越好,landmark 坐标的精确度越高。

对抗学习
采用对抗学习进一步提高严重遮挡条件下的人脸位姿估计精度。

本文算法由三个部分组成:

1. 边界热力图预测器
2. landmark 回归器
3. 边界有效性判别器

作者使用堆叠沙漏结构对边界热力图进行预测,为了增强遮挡状态下的鲁棒性,作者使用消息传递机制对人脸边界间的关系进行建模。人脸边界热力图生成之后,下一步就是利用边界得到人脸 landmarks。为了充分利用结构信息,作者在 landmark 回归网络中的多个阶段使用边界热力图,实验结果表明,应用阶段越多,landmark 预测效果越好。

堆叠沙漏网络
堆叠沙漏网络因为其自下而上、自上而下的设计使得网络可以获取多尺度信息从而取得了不错的精确度。

消息传递机制
消息传递机制在人体关节结构建模中的效果很好。

2. 相关工作

在人脸对齐的文献中,除了经典的算法,例如 ASMs,AAMs,CLMs 以及级联回归方法以外,最近,DCNNs(深度卷积神经网络)取得了很好的效果,基于深度卷积神经网络的方法主要分为两类,坐标回归模型热力图回归模型

坐标回归模型

直接学习输入图像与 landmark 坐标向量间的关系。尽管坐标回归模型可以不经过预处理就可以明确推断出 landmark 的坐标,但它的效果还是不如热力图回归模型。

热力图回归模型

为每个 landmark 单独的生成可能的热力图。该方法最近在人脸对齐领域取得了不错的效果。

3. 边界感知人脸对齐算法

边界感知人脸对齐算法整体框架
在这里插入图片描述
正如上文所说,该算法由三个部分组成:

3.1 边界感知 landmark 回归器
结合边界信息以级联的方式预测 landmark 的坐标;
3.2 边界热力图预测器
生成边界热力图作为人脸几何结构;
3.3 基于 landmark 的边界有效性判别器
因为边界热力图对最后的 landmark 回归至关重要,因此作者通过引入基于对抗学习思想的边界有效性判别器,辅助边界热力图预测器,以进一步提高边界热力图的质量从而得到更精确的 landmark 坐标预测。

3.1 边界感知 landmark 回归器

为了将边界线融合到特征学习中,作者将 landmarks 转换为边界热力图,边界热力图中的每个像素点的反应(是亮还是暗)都由它到相应边界线的距离决定。

边界热力图的定义如下:

  1. 给定一张人脸图片,给出人脸的 L 个 landmark 的真实标注,S = { s l s_{l} } l = 1 L ^{L}_{l=1}
  2. 将 S 划分成 K 个子集,每个子集代表相应边界线上的 landmarks,例如左上眼睑和鼻梁;
  3. 对于每个子集 s i s_{i} 进行插值以得到密集的边界线;
  4. 遍历图片中的每个像素点,若在边界线上,则标记为 1,否则为 0,最终得到一个二值边界图 B i B_{i} (大小与输入图像相同的 0 1 矩阵);
  5. 基于 B i B_{i} 计算距离变换得到距离图 D i D_{i} ,然后用标准差为 σ 高斯表达式将 D i D_{i} 转换成真实边界热力图 M i M_{i} ,公式如下:
    在这里插入图片描述

其中 3σ 用于过滤 D i D_{i} 使边界热力图更聚集在边界区域,实际上,为了计算效率真实边界热力图的长是输入图像的 1/4。

为了更好的利用边界热力图中包含的大量信息,作者提出了多层边界热力图融合方案。 本算法以一个 4 阶段 18 层的网路结构为基础网络,在输入层和每个阶段上执行边界热力图融合。实验结果表明在基础网络上执行的如何次数越多,得到的效果越好。

输入图像与边界热力图的融合

融合之后的输入 H 定义如下:
在这里插入图片描述
上述设计使得融合输入仅关注边界周围的细节纹理,忽略了大多数背景和无纹理的面部区域,这极大地增强了输入的有效性。原始输入图像也与融合之后的结果相连接以保持其他有用的信息。

边界热力图 M 与特征图 F 的融合
在这里插入图片描述
融合之后的特征图 H 定义如下:
在这里插入图片描述
因为 M 的通道数与之前定义的边界数相同,是不可变的,因此需要一个转换矩阵 T,作者选用沙漏结构子网络作为转换函数 T 以保证特征图尺寸。下采样与上采样是对称的,多尺度的信息结合通过跳跃式传递完成。然后激活层的 sigmoid 函数将输出归一化到 [0,1] 之间。

因为边界热力图在 landmark 坐标回归中被大量使用,因此边界热力图的质量对预测精度至关重要。所以接下来系那个介绍几种方法来提高得到的边界热力图的质量。

3.2 边界热力图估计

与之前的人脸对齐和人体姿势的研究方法一样,作者也采用堆叠沙漏通过最小化生成边界热力图与真实边界热力图之间的均方误差对边界热力图进行预测,但是,正如下图所示,当人脸被严重遮挡时,生成的热图总是受到噪声和多模响应的影响。

为了缓解遮挡带来的影响,作者采用了消息传递机制来传递边界间的信息,过程如下图所示:
在这里插入图片描述
在遮挡条件下,根据人脸结构,没有被遮挡的边界可以为被遮挡的边界提供帮助。

内部消息传递
在每个 stack 的结尾使用,用于传递不同边界热力图间的信息,所以信息可以从没有被遮挡的边界传递到被遮挡的边界。

层间消息传递
因为沙漏的不同 stack 聚集不同的人脸信息,因此在堆叠更多的沙漏子网络的情况下,通过层间消息传递将低层信息传递给高层来保证边界热力图的质量。

在消息传递机制的实施过程中,特征图在每个 stack 的最后都要被划分成 K 个部分,K 就是边界的数量,每个部分代表一种边界特征图。这也显示出边界热力图与 landmark 热力图相比的优势所在, K 的值更小而且是不变的。由于不必再 68 个 或者 194 个 landmark 之间传递消息,因此边界间消息传递的计算和参数开销较小。

3.3 边界有效性评估器

如果边界热力图得到精确的 landmark 坐标估计,则说明边界热力图的质量较好。因此,作者使用一个基于 landmark 的边界有效性评判器来判别生成的边界热力图的有效性。对于一张生成的热力图 M ^ \hat{M} ,将其对应生成的 landmark 坐标记为 S ^ \hat{S} S,真实的距离矩阵图记为 Dist,决定生成边界热力图是否有效的评判器 D 的真实结果 d f a k e d_{fake} 的定义如下:
在这里插入图片描述
与参考文献 [9,10] 的做法一样,作者引入对抗学习思想来辅助边界有效性判别器 D 和边界热力图估计器 G,D 的损失函数如下:
在这里插入图片描述
……………………

3.4 跨数据集人脸对齐

近年来,随着人脸对齐算法取得不错的进步,各种数据集也随之发布。但是,由于各数据集之间的标记方式不一,因此各数据集几乎不能被联合使用,在某个特定数据集上训练的模型在别的数据集上的表现往往很差。

针对这个问题,制定一个标记转换方法又会带来新的问题。从一个新的角度思考,可以将面部边界作为通用的中间面部几何表示。人脸边界自然地使不同 landmark 标记方式得到了统一。而且它可以被用于任何标记方式的 landmark 回归的训练中。跨数据集这个功能是将边界作为人脸几何结构得到的意外收获。

猜你喜欢

转载自blog.csdn.net/weixin_42970026/article/details/83415927