Abstract

传统的头部姿态计算是通过从目标面部提取关键点，本文认为这是没有效率的。我们在300W-LP（一个大型的综合扩展数据集）上提出了一种优雅而鲁棒的训练多重损失卷积神经网络确定内禀欧拉角（横摆、俯仰和横摇）的方法。

github源码地址：https://github.com/natanielruiz/deep-head-pose

Introduction

在过去的25年中，头部姿态估计和面部表情跟踪的相关问题在驱动用于非刚性配准和3D重建的视觉技术，以及使新的方法能够操纵多媒体内容和与用户交互方面发挥了重要作用。历史上，人脸建模有几种主要方法，其中两种主要方法是基于区分/里程碑的方法[26,29]和参数化外观模型，或者PAM[4,15](参见[30]以供进一步讨论)。近年来，利用现代深层学习工具[2，35，14]直接提取二维人脸关键点的方法由于其对遮挡和极端姿态变化的灵活性和鲁棒性，已成为面部表情分析的主流方法。基于关键点的面部表情分析的副产品是通过建立关键点和3D头部模型之间的对应关系并执行对齐来恢复头部的3D姿态的能力。然而，在一些应用中，头部姿势可能是所有需要估计的。在这种情况下，基于关键点的方法仍然是最好的方法吗？这个问题还没有用现代的深层学习工具来彻底解决，这是本文试图在文献中的空白。我们证明了使用卷积神经网络从图像强度估计3D头部姿态的直接的整体方法与基于关键点的方法相比具有更高的精度。虽然关键点探测器能大大提高识别率，但头位恢复本身却存在许多出错的机会。首先，如果无法检测到这些关键点，那么姿态恢复是不可能的。第二，三维头部模型的质量依赖于估计精度。通用的头部模型可以为任何给定的参与者引入错误，并且使头部模型变形以适应每个参与者的过程需要大量的数据，并且可能计算昂贵。虽然现在正在研究联合预测头部姿势和面部标志的关键点，但是这种情况下的目标是提高面部标志预测的准确性，并且头部姿势分支本身并不足够精确：例如[14，20，21]。在第4.1和4.3节中进行了研究。一种直接预测头部姿态的conv-net体系结构具有更简单、更精确和更快的潜力。虽然其他的工作已经解决了使用conv-nets[31,19,3]从图像中直接回归姿态的问题，但是它们没有包括对现代深层体系结构的基准测试的理解。

Fine-Grained Head Pose Estimation Without Keypoints

Abstract

Introduction

猜你喜欢