When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks阅读笔记

当人体姿态估计满足鲁棒性：对抗性算法和基准

CVPR 2021
论文链接
 代码链接

摘要：人体姿态估计旨在定位人体关键点位置，是一项基础且富有挑战性的计算机视觉任务。不同于人类视觉对各类数据损坏（如模糊，像素化等）的鲁棒性，当前的姿态估计器易受这些数据损坏的影响。本文通过建立严格的鲁棒性基准（COCO-C、MPII-C和OCHuman-C）来全面研究并解决该问题。本研究评估当前 sota 姿态估计器的不足，并提出了一种新算法AdvMix来提高姿态估计在不同损坏情况下的鲁棒性。本工作有几个独特优点：（1） AdvMix是 model-agnostic ，能在广泛的姿态估计模型中使用。（2）AdvMix包括对抗性增强和知识蒸馏，对抗性增强包含两个神经网络模块，它们以对抗性方式进行联合且竞争训练，其中生成器网络混合不同的损坏图像以混淆姿态估计器，通过从更难的样本中学习来提高姿态估计器的鲁棒性。为了通过对抗性增强来补偿噪声模式，应用知识蒸馏将干净的姿态结构知识转移到目标姿态估计器。（3）广泛的实验表明，AdvMix显著提高了各种干扰情况下姿态估计的稳健性，同时在各种具有挑战性的基准干净数据集中保持了准确性。

1. Introduction

CNN 在包含干净和高分辨率的数据集上取得了很大进展，但在现实世界中部署模型还需要对常见的损坏图像具有鲁棒性。例如，当在室外环境中跟踪和估计移动的人的关键点时，由于天气条件或相机系统造成的噪声 noisy 或模糊 blur，当前姿态估计器的性能严重下降。因此，本工作的重点是分析并增强姿态估计器的鲁棒性。
与以往关于分类、检测和分割的通用鲁棒性的研究不同，人体姿态估计混合分类和回归方法来建模人体结构，使其成为一个具有挑战性的协作性领域。鲁棒人体姿态估计的关键挑战有三个：① 首先，缺乏评估 sota 人体姿态估计方法鲁棒性的基准，使得不同模型间难以进行严格的比较，更遑论提高模型鲁棒性。② 其次，干净数据和损坏数据的准确性是一种 trade-off，保持模型在干净数据上性能的同时提高模型的健壮性是一个非常重要的问题。③ 第三，基于本文提出的基准，我们检验了一些数据增强方法的有效性。然而，我们发现简单地按顺序应用它们并不能获得理想的性能。如何有效结合现有的数据增强技术，以提高人体姿态估计器对不可预见的损坏的通用性？
受 [Benchmarking neural network robustness to common corruptions and perturbations] 的启发，我们建立了鲁棒性姿态基准，包括三个具有挑战性的数据集：COCO-C、MPII-C和OCHuman-C。基准数据集是根据模型训练中未遇到的所有未知（unforeseen）损坏类型构建的（即CNN在干净图像上训练，在损坏图像上评估）。对这些基准的广泛评估表明，现有的自上而下和自下而上姿态估计器都存在弱点：（1） sota姿态估计器在损坏的图像上性能严重下降。（2）模型通常对亮度和天气变化更为稳健，而对 motion 和 zoom blur 不那么稳健。（3）模型的鲁棒性随着模型容量的增加而增加。
对所提出基准的评估有助于筛选出一系列有效的数据增强技术，以提高模型在严重损坏情况下的鲁棒性。为充分利用这些技术并在 unforeseen 噪声数据上取得最佳性能，本研究提出了一种学习自动组合增强图像的增强生成器。具体而言，我们以对抗方式联合训练两个神经网络：增强生成器和人体姿态估计器，生成器生成权重以混合随机增强的图像，而姿态估计器尝试从更难的训练样本中学习鲁棒视觉表示。
值得注意的是，增强生成器生成的构图与原始图像可能相差甚远，这种诱发的噪声模式可能不利于干净数据的性能。为减少这种负面影响，我们使用预训练过的教师姿态估计器，将从整个干净训练数据中学习到的结构知识转移到目标人体姿态估计器上。与之前使用更强网络作教师模型的知识蒸馏方法不同，我们的教师姿态估计器与目标姿态估计器结构相同。广泛的评估表明，AdvMix显著提高了模型对各种图像损坏的鲁棒性，同时保持了对干净数据的性能。增强生成器和教师姿态估计器仅用于训练，不用于推理，因此推理不引入计算开销。同时，如图1所示，我们的方法是 model-agnostic ，对各种 sota 姿态估计模型有效。

在这里插入图片描述

图1：将AdvMix应用于 sota 方法时，模型鲁棒性（mPC）的改进。

我们的主要贡献如下：

我们提出了三个鲁棒性基准：COCO-C、MPII-C和OCHuman-C，并证明了自顶向下和自下而上姿态估计器在损坏图像上的性能会严重下降。
通过广泛的实验，我们得出了许多有趣的结论，这些结论将有助于提高未来姿态估计器的准确性和稳健性。
我们提出了一种新的具有知识蒸馏的对抗性数据增强方法：AdvMix，它不依赖于模型且易于实现。它显著提高了姿态估计模型的鲁棒性，同时保持或略微提高了其在干净数据上的性能，而无需额外的推理计算开销。

2. Related Work

2.1. Human Pose Estimation

略

2.2. Corruption Robustness

最近的研究探索了图像分类、目标检测和分割的抗干扰性。相比之下，HPE的任务更全面，它需要结合分类和回归方法来建模人体结构。数据去噪，例如稀疏和冗余表示、non-local 算法和去噪自动编码器对去噪有效，但这些方法是特定于噪声的，因此不适用于提高对 unforeseen 噪声的鲁棒性。为了提高整体鲁棒性，最近的工作探索了一些有用的技术，如 pre-training、 stability training、stylized image、NoisyStudent 和 histogram equalization（直方图均衡化）。

2.3. Data Augmentation

数据增强被广泛用作一种提高模型泛化性的有效方法，但难以提高模型对未知图像损坏的鲁棒性。用一种特定类型的噪声增强可以提高目标噪声的性能，但它不能泛化到其他未知失真上，同时也会降低干净数据的性能。Information dropping 方法和 multi-image mixing 方法在用于图像分类的干净数据上取得了不错的改进，Learned augmentation方法也能提升性能。对于姿态估计，可以利用对抗性数据增强方法来优化增强超参数，例如旋转角度，但它们只专注于搜索常见的增强超参数，并简单地按顺序组合不同的增强，以提高对干净数据的性能。相反，我们对抗性地学习用于混合随机增强图像的 attention weight，以增强模型的鲁棒性。 AugMix使用beta或dirichlet系数混合增强图像，以增强图像分类的鲁棒性。AdvMix不是简单地使用固定的增强采样器（例如dirichlet分布）来生成混合权重，而是使用对抗训练学习为每个训练样本生成合适的混合注意力权重。

3. Methods

3.1. Robust Pose Benchmark

3.1.1 Benchmark Datasets

鲁棒姿态估计基准由三个基准数据集组成：COCO-C、MPII-C、OCHumanC，它们是通过将5个不同严重程度的15种不同损坏类型应用于 COCO、MPII和OCHuman的 validation set 构建的。因此，每个基准数据集的总数是相应验证数据集的15×5倍。图像损坏的类型有四个主要类别：noise, blur, weather, and digital，这四个类别的种类繁多，足以覆盖现实世界的损坏。

COCO-C Dataset. COCO-C数据集是根据COCO val2017 set构建的。COCO数据集包含超过200000个图像和250000个人体实例，其中val2017集合有5000个图像。

MPII-C Dataset. MPII-C数据集是根据MPII test set构造的。MPII数据集由来自各种现实世界活动的图像组成，其中包含全身姿态标注。大约有25K张图片，有40K个受试者，其中有12K个受测者用于测试，其余的受试者用于训练集。

OCHuman-C Dataset. OCHuman-C由OCHuman构造。OCHuman数据集是有全面标注（包括边界框、人体姿态和实例掩码）的重度遮挡人体，共5081张图像，包含13360个精心标注的人体实例。

在这里插入图片描述

图2：数据集可视化示例。数据集包含5个不同级别的15种不同类型的损坏。图像损坏类型分为四大类：noise，blur，weather 和 digital。

3.1.2 Evaluation Metrics

对于COCO 和OCHuman ，使用标准的平均精度（average precision AP）评估模型。本文使用 $AP^∗$ 表示干净数据的性能。为了评估模型的鲁棒性，使用 mean performance under corruption (mPC)：
在这里插入图片描述
$AP_{c,s}$ 是在严重级别s下测量的破坏类型c 的 average performance。 $N_c=15，N_s=5$ 分别是破坏类型和严重级别的数量。为评估模型的鲁棒性，定义了relative performance under corruption (rPC)，如下所示：

MPII数据集的官方评估指标是PCKh。同样，使用 $PCKh^∗$ 表示干净数据的性能。与式（1,2）中的mPC和rPC类似，performance under corruption (mPC) 和 relative mean performance under corruption (rPC) 如下所示：
在这里插入图片描述

3.2. Adversarial Augmentation Mix (AdvMix)

在这里插入图片描述

图3：AdvMix overview。我们的框架由两个模块组成：对抗性增强模块和知识蒸馏模块。对抗性增强模块包含一个增强生成器和一个姿态估计器。例如，给定两个（即K=2）不同的增强图像，增强生成器估计相应的注意力图M，并将其混合到最终图像Imix种，而姿态估计器生成关键点热图。它们依据公式（10）以对抗的方式进行训练。若生成器不能混淆姿态估计器，则可以显著提高其鲁棒性。为了减少诱导噪声模式的影响，在对抗训练中使用教师姿态估计器来传递姿态结构知识。教师姿态估计器与目标姿态估计器共享相同的体系结构，并对整个干净数据进行预训练。

3.2.1 Augmentation Generator

如图3所示，给定一个图像I，先使用并行增强策略 $\mathcal{O}_k$ 随机生成K个不同增强的图像 $\mathcal{O}_k(I)$ ，默认K=2，那么加上原始图像 I，共得到一组 K + 1 个 proposal images。增强生成器 $\mathcal{G}(·, θ)$ 用于输出归一化注意力图 $\mathcal{M}^{(K+1)×H×W}$ ，其中H和W是图像分辨率。注意图 $\mathcal{M}$ 被用作混合 proposal images 的权重，如式（5）所示， $\odot$ 是Hadamard product。
在这里插入图片描述
基于基准（表1），我们发现了一系列有用的技术来提高姿态估计模型的鲁棒性。Grid-Mask 应用 information removal 在不同的计算机视觉任务上实现sota。AutoAugment会自动搜索多种增强策略，它提升了图像分类的干净性能和鲁棒性。为了避免在 held-out corruptions 测试集上过拟合，我们手动排除一些操作，例如对比度、颜色、亮度和 sharpness sub-policies。给定一个图像I，Grid-Mask 和 AutoAugment 来生成随机增强图像 $\mathcal{O}$ ，然后通过增强生成器生成的权重来混合这些图像。我们采用 U-Net 架构构建增强生成器 $\mathcal{G}(·, θ)$ ，它生成用于混合随机增强图像的注意图。

3.2.2 Heatmap Regression

2D高斯置信热图编码人体姿态，每个热图对应一个身体关键点。人体姿态估计网络 $\mathcal{D}(·,Φ)$ 的目标是最小化预测热图和 gt 热图间的MSE损失:
在这里插入图片描述
为加强对目标姿态估计器 $\mathcal{D}$ 的监督，我们引入一个教师姿态估测器 $\mathcal{T}$ ，用于知识蒸馏并提供 softened heatmap 标签。 $\mathcal{T}$ 和 $\mathcal{D}$ 共享相同的架构，且 $\mathcal{T}$ 在干净的训练数据上进行了预训练。训练时， $\mathcal{T}$ 的参数固定。选择MSE损失作为知识蒸馏损失：
在这里插入图片描述
其中，α是MSE损失和知识蒸馏损失间的损失权重平衡。我们的模型对α不敏感，在实验中选择α=0.1作为默认设置。

3.2.3 Adversarial Training

增强生成器 $\mathcal{G}(·, θ)$ 和人体姿态估计器 $\mathcal{D}(·,Φ)$ 以对抗方式进行训练。 $\mathcal{G}(·, θ)$ 试图找到最混淆的方法来混合随机增强图像，而 $\mathcal{D}(·,Φ)$ 则从较难的训练样本中学习更健壮的特征。扩增生成器的优化目标定义为：
在这里插入图片描述

4. Evaluation on Robust Pose Benchmark

4.1. Experimental Setup

为评估人体姿态估计器的鲁棒性，模型只在干净的数据（如COCO）上训练，然后在损坏的数据（例如COCO-C）上评估。OCHuman数据集仅用于验证，遵循[Pose2seg]在COCO上训练模型并在OCHuman-C上评估模型。对于输入大小为256×192和384×288的 top-down 法（即SBL、HRNet），使用官方训练的checkpoint，然后直接评估它们在 COCO-C 和 MPII-C 数据集上的鲁棒性。由于图像大小为128×96的预训练模型尚未公开，因此按照官方训练设置重新训练这些模型。对于 bottom-up 方法（即PifPaf、HigherHRNet），也遵循官方代码和设置。PifPaf 和HigherHRNet 的预训练模型直接用于评估COCO-C和OCHuman-C上的鲁棒性。结果见表1。

在这里插入图片描述

表1：COCO-C、MPII-C和OChuman-C上自顶向下和自下而上模型的鲁棒性。AP∗ 和PCKh∗ 表示干净数据的性能。mPC表示所有损坏情况下的平均性能，rPC测量相对性能。其余列细分不同损坏的AP。从表中可以看出当出现损坏时，现有的姿态估计器性能显著下降。

4.2. Benchmarking Conclusions

4.2.1 Pose estimation methods performance

top-down 和 bottom-up 模型对不同损坏表现出相似的性能下降趋势。 如图4所示，模型对不同类型的损坏的鲁棒性差异很大。然而，不同模型的性能下降是相似的。例如，所有模型对天气或亮度变化的鲁棒性更强，而对 motion 或 zoom blur 的鲁棒性更弱。

在这里插入图片描述

图4. (a) COCO-C上AdvMix对不同破坏类型的性能改进。(b) COCO-C上AdvMix在不同破坏严重程度上的性能改进。输入大小为256×192的情况下获得结果。自顶向下方法的输入大小为256×192，自底向上方法（如HigherHRNet）的输入大小是512×512。

4.2.2 Backbone network performance

鲁棒性随着模型容量的增加而增加。 相同姿态估计方法在不同 backbone 网络下的鲁棒性差异很大，且随着模型容量的增加而增加。在图5中，线形图显示了干净数据（AP*）的性能, 条形图显示鲁棒性得分（rPC）。颜色表示不同的输入图像分辨率。从图中可以观察到，相同输入分辨率下，容量较大的模型（HRNet）通常比容量较小的模型（ResNet）更准确、更稳健。这表明，可以通过使用更强的主干网络来提高鲁棒性。

在这里插入图片描述

图5：COCO-C 和 OCHuman-C 上具有不同 backbone 和输入大小的自顶向下和自下而上模型的性能。线形图显示干净数据（AP*）的性能, 条形图表示鲁棒性得分（rPC）。

5. Robustness Enhancement with AdvMix

5.1. Implementation Details

对于对抗性训练，我们只需重用 publicly available well-trained checkpoints ，并使用AdvMix对干净数据进行retrain。遵循与官方代码相同的训练设置（即相同的超参数、学习率和 total training epochs）。默认情况下，增强生成器和人体姿态估计器的初始学习率为0.001，170和200 epoch 学习速率衰减10倍，对抗训练在第210 epoch结束。我们采用ADAM优化器来训练增强生成器和人体姿态估计器。所有实验均使用PyTorch在NVIDIA TITAN X Pascal GPU上进行。

5.2. Quantitative Results

如表2和表3所示，AdvMix显著提高了模型的鲁棒性，同时保持或略微提高了干净数据的性能。AdvMix显著提高了 bottom-up 法（39.9至45.4 mPC）的鲁棒性，其鲁棒性增益大于表2中所示的top-down方法。图4（a）显示了不同模型在不同破坏情况下的性能下降和鲁棒性提高。

在这里插入图片描述

表2：COCO-C上standard training 和AdvMix的比较。 top-down 法使用 HRNet 检测到的bbox获得结果。表中可以看出在干净数据的性能AP*得以保留的情况下，mPC和rPC得到了极大的改进。

在这里插入图片描述

表3：MPII-C上 top-down 法的 standard training 和AdvMix之间的比较。AdvMix可以有效地增加mPC和rPC，同时保持干净数据 PCKh*的性能。

不同模型的性能下降趋势类似，模型通常对亮度和天气变化更为稳健，而对motion和zoom blur不那么稳健。AdvMix在不同的损坏类型方面的表现优于baselien，noise 和 digital distortion 的增益大于其他损坏类型。比较图4(b) 中不同损坏严重程度的性能，可以发现AdvMix在baseline上持续改进，损坏越严重，增益越大。
对比AdvMix与其他 sota 方法。FPD通过知识蒸馏来提高轻量级模型的性能，但教师网络比学生网络更复杂。FPD†是使用与FPD相同的设置实现的，但教师网络与学生网络架构相同。Stylized dataset也用以提高鲁棒性。如表5所示，尽管FPD可以提高干净数据的性能，但健壮性的改进是有限的。我们还发现，仅使用知识蒸馏（教师在FPD†中使用相同的体系结构）而不使用AdvMix不会提高干净数据的性能和模型鲁棒性。AdvMix不仅可以改善mPC，还可以略微改善干净数据的性能，优于AutoAugment或Grid Mask。最后，我们还证明了AdvMix可以与data stylizing 技术相结合，进一步增强对损坏图像的鲁棒性，同时几乎保持干净数据的性能。

在这里插入图片描述

表5: COCO-C上使用HRNet-W32 backbone 与其他技术的比较。使用gt bbox。表中可以观察到，AdvMix在健壮性方面明显优于sota方法，同时保持了干净数据的性能。

5.3. Ablation Studies

我们使用输入大小为256×192的HRNet-W32 backbone 在COCO-C上进行消融研究，以验证AdvMix中增强合成方法的有效性。SequentialMix 在一个 chain 中简单地组合增强操作，并按顺序应用它们。EqualMix使用相等的权重混合来自不同 augmentation chains 的增强图像。DirichletMix 对Dirichlet分布的混合权重进行采样，以混合增强图像。相比之下，AdvMix使用增强生成器来学习对抗性地生成per-pixel 混合权重。与AdvMix不同，AdvMix-Image 的增强生成器输出的是 per-image 混合权重。我们观察到，AdvMix在模型鲁棒性（mPC和rPC）方面明显优于EqualMix和DirichletMix，表明了对抗权重学习的有效性。同时，AdvMix比AdvMixImage更健壮：因为 per-pixel 合成可以生成更多样化和细粒度的训练样本，以提高健壮性，而per-image 混合难以在 region-level合成图像（例如人和背景），而具有学习权重的 per-pixel 混合可以更关注重要区域。如表7所示，知识蒸馏可避免过拟合噪声模式，有助于保持或改进干净数据的性能。

在这里插入图片描述

表6：COCO-C上具有HRNet-W32 backbone的消融研究。使用gt bbox。表中可以看出AdvMix在健壮性方面比其他增强组合方法更好。

在这里插入图片描述

表7.知识蒸馏的效果。

由于我们关注的是如何提高对未知数据的鲁棒性，因此在训练时不应该遇到 benchmark 中的损坏图像。然而，为了研究在 benchmark 中使用 test-time corruption type 能否增强图像，我们从每个损坏类别（即noise, blur, weather 和 digital）中选择一种损坏类型（即，Gaussian noise, Defocus blur, Snow 和 Contrast）作为增强类型。如表4所示，使用test-time corruption 来增强训练样本可以提高健壮性，但会大大降低干净数据上的性能。同时，使用某些特定类型的噪声增强可以提高目标噪声的性能，但它并不总能泛化到其他 unseen 损坏上，即使是相同的损坏类别（例如，对雪的增强无助于提高对雾和亮度的鲁棒性）。相比之下，使用 stylized data 的AdvMix训练可实现最佳mPC。它可以持续改进所有损坏类型的性能，同时保持与标准训练类似的干净数据性能。

在这里插入图片描述

表4.直接使用 the test-time corruption types (Transfer) 增强的结果。†表示选定的损坏类型（例如高斯噪声、散焦模糊、雪和对比度）在训练期间用作数据增强。

5.4. Qualitative Comparison

在这里插入图片描述

图6：无AdvMix和有AdvMix的HRNet间的定性比较。每个三元组从左到右分别为：GT、标准HRNet-W32预测结果、使用AdvMix的HRNet-W32的预测效果。

6. Conclusion

本研究提出了鲁棒姿态基准（COCO-C、MPII-C、OCHuman-C），并严格评估了当前sota模型在损坏图像上的性能。基于这些基准，我们得出了一些有趣的结论，并研究了一些提高模型鲁棒性的有用技术，这项工作将引起研究领域对这一挑战性问题的关注，并促进鲁棒姿态估计器的发展。为了提高模型的鲁棒性，我们提出了一种新的 model-agnostic 数据增强方法：AdvMix，来学习混合随机增强的图像。我们的方法显著提高了大多现有姿态估计模型在各种常见损坏下的鲁棒性，同时在不增加推理计算开销的情况下保持了干净数据的性能。

Appendix

A. Architecture of Augmentation Generator

我们采用U-Net 架构构建增强生成器，生成用于混合随机增强图像的注意力图。如图7所示，增强生成器是一个层间具有跳跃连接的encoder-decoder，它由6个卷积 blocks 和6个转置卷积blocks组成。为了确保下采样特征与上采样特征的尺寸相等以进行 concatenation，对输入尺寸为384×288和128×96的模型仅使用5个卷积块和5个转置卷积块。

在这里插入图片描述

图7：输入大小为256×192的增强生成器的体系结构。Conv(c，k)表示 output channel=c ,kernel size=k 的卷积块。ConvT(c，k) 表示output channel=c, kernel size=k 的转置卷积块。所有block 的kernel和stride分别为4和2。卷积层的激活层为ReLU，转置卷积层则是LeakyReLU。Conv和ConvT之间的黑色虚线箭头表示feature concatenation。

B. Robustness Enhancement for Different Input Sizes

在这里插入图片描述

表8：COCO-C上相同backbone 不同输入大小的standard training 和AdvMix 间的比较。使用与 HRNet 相同的检测边界框获得结果。mPC和rPC都得到了极大的改进，同时几乎保持了干净数据的性能。

C. Visualization Results

在这里插入图片描述

图8：无AdvMix和有AdvMix的HRNet间的定性比较。每个三元组从左到右分别为：GT、标准HRNet-W32预测结果、使用AdvMix的HRNet-W32的预测效果。