Macro-Micro Adversarial Network for Human Parsing

用于人体解析的宏-微对抗网络——MMAN(解读)(原论文


像素级分类缺点:由于其低层次局部不一致性高层次语义不一致性而使损失产生倒退。对抗性网络的引入使用单个鉴别器解决了这两个问题。然而,两种类型的解析不一致性是由不同的机制产生的,因此单个鉴别器很难解决它们。为解决这两种不一致问题,文中提出了宏 - 微对抗网络(MMAN)。有两个鉴别器:

  • 鉴别器Macro D:作用于低分辨率标签图并且惩罚语义不一致性,例如错位的身体部位。宏D的输入是低分辨率分割图,输出是语义一致性的置信度得分。
  • 鉴别器Micro D:专注于高分辨率标签图的多个片,以解决局部不一致性,例如模糊和洞。微D的输入是高分辨率分割结果,其输出是局部一致性的置信度得分。

与传统的对抗网络相比,MMAN不仅可以明确地强制实现局部和语义一致性,还可以避免处理高分辨率图像时对抗网络收敛性差的问题。


简单的MMAN网络

上方:一个简单的MMAN网络。两个鉴别器连接到一个基于CNN的生成器(G)。Macro(宏)D在低分辨率标签图上工作,接收全局字段,关注语义一致性。Micro(微)D聚集了多个局部,在高分辨率标签图上具有小的接收字段,从而监控局部一致性。如果观察到语义(局部)不一致,宏(微)鉴别器将生成“假”,否则将给出“真”。

下方:分别使用Macro D,Micro D和MMAN的定性结果。我们观察到Macro D和Micro D分别纠正语义不一致(绿色虚线圆圈)和局部不一致性(橙色虚线圆圈),并且MMAN具有两者的优点。


MMAN网络模型

MMAN有三个组件:双输出生成器(蓝色虚线框),宏鉴别器(绿色虚线框)和微鉴别器(橙色虚线框)。 给定尺寸为3×256×256的输入图像,生成器G首先产生低分辨率(8192×16×16)张量,从中得到低分辨率标签图(C×16×16)和高分辨率 生成标签图(C×256×256),其中C是类的数量。 最后,对于每个标签图(例如,尺寸为C×16×16),我们将其与第一轴(通道数)的RGB图像(尺寸为3×16×16)相连,并将其输入相应的鉴别。


训练损失

传统像素级分类损失(多类交叉熵损失):其中\hat{y}_{ic}表示第i个像素上的类c的预测概率。 y_{ic}表示第i个像素上的类c的真实概率。 如果第i个像素属于类c,则 y_{ic} = 1,否则 y_{ic} = 0。

为了强制实现空间一致性,将逐像素分类损失与对抗性损失相结合。 它可以表述为

λ 控制像素分类损失和对抗性损失的相对重要性。

其中L_{mce_l}(G)提供低分辨率输出和小尺寸目标标签图之间的交叉熵损失,而L_{mce_h}(G)是指高分辨率输出和原始真实标签之间的交叉熵损失。 类似地,L_{adver}(G,D_{Ma})是基于低分辨率特征图的对抗性损失,L_{adver}(G,D_{Mi})基于高分辨率特征图的对抗性损失。超参数λ1,λ2和λ3控制四种损失的相对重要性。MMAN的培训目标是:


双输出生成器

对于生成器(G),利用DeepLab-ASPP框架,将ResNet-101模型在ImageNet数据集上进行预训练。使用级联上采样层来扩充DeepLab-ASPP架构,使用跳过连接将它们与前面的层连接,这与U-net类似。此外,添加一个支路来从底层输出深度特征张量,并将其转移到带有卷积层的标签特征图。小尺寸标签贴图作为第二个输出与顶层的原始尺寸标签图并行。将增强的双输出架构称为Do-DeepLab-ASPP并将其作为我们的主线。对于双输出,使用原始大小的真实标签监控顶层的交叉熵损失,因为它可以保留视觉细节。此外,用尺寸调整的标签图监控底层的交叉熵损失,即原始尺寸的1/16倍。缩小的标签图更注重粗粒度的人体结构。同样的策略适用于对抗性损失。


Macro判别器

宏观判别器(DMa)旨在引导生成器产生逼真的标签图,其具有高级人类特征,例如合理的人体姿势和身体部位的正确空间关系。 DMa附着在G的底层,并侧重于整体低分辨率标签图。 它由4个卷积层组成,卷积核大小为4×4,步长为2。每个卷积层后跟一个正则化层(instance-norm layer)和一个LeakyRelu函数。给定来自G的输出标签图,DMa将其下采样到1×1以实现对其的全局监督。 DMa的输出是语义一致性的置信度得分。


Micro判别器

微型鉴别器(DM i)旨在强制标签图中的局部一致性。我们在设计DMi 时遵循“PatchGAN”的思想。 与在(缩小的)标签图上具有全局感受域的DMa不同,DMi 仅在图像块的尺度上惩罚局部误差。DMi 具有3个卷积层,卷积核大小为4×4,步长为2。每个卷积层后一个正则化层(instance-norm layer)和一个LeakyRelu函数。 DMi 旨在对高分辨率图像中的每个22×22的图像块是真的还是假的进行分类,这适合于强制执行局部一致性。 在标签图上以卷积形式运行DM后,我们将从每个感知区域获得多个响应。 我们最终平均所有响应以提供DMi 的最终输出。


优点

在基于CNN的人工解析中,卷积层深入提取零件级特征,解卷积层将深度特征带回像素级位置。 将Macro D安排到更深的层以监督高级语义特征和将Micro D安排到顶层专注于低级视觉特征。

MMAN的优点总结在四个方面:

  1. 宏观D和微观D的功能专业化。与单独鉴别器试图解决两个不一致性水平相比,宏D和微D被指定用于解决两个一致性问题之一。
  2. 宏观D和微观D的功能互补性。监督早期深层的分类损失可以为后面的顶层提供良好的粗粒度初始化。相应地,减少顶层的损失可以通过细粒度的视觉细节来弥补粗略的语义特征。
  3. 小FOV避免收敛问题。现有的对抗网络在处理复杂的高分辨率图像方面存在缺陷。 在我们的框架中,Macro D作用于低分辨率标签图,而Micro D在高分辨率标签图上具有多个小的FOV。 因此,Macro D和Micro D都避免使用大FOV作为实际输入,这有效地降低了由高分辨率引起的收敛风险。
  4. 效率。与单一生成对抗网络相比,MMAN通过两个较浅的鉴别器实现了对整个图像的监督,这些鉴别器具有较少的参数。它还拥有鉴别器的小FOV。

网络参数设置

  • 输入图像被调整大小以使其较短边固定为288。
  • 从图像或其水平翻转版本中随机采样256×256裁剪。
  • 从裁剪的图像中减去每像素平均值。
  • 在每次卷积后采用实例归一化。
  • 设置λ1= 25,λ2= 1和λ3= 100。
  • 对于下采样网络,在生成器中,使用ImageNet 预训练网络作为初始化。
  • 使用标准偏差为0.001的高斯分布从头开始初始化网络其余部分的权重。
  • 使用小批量大小为1的Adam优化器。
  • 设置β1= 0.9,β2= 0.999和weightdecay = 0.0001。
  • 学习率从0.0002开始。
  • 在LIP数据集上,学习率在15个epoch之后除以10,并且模型被训练30个epoch。
  • 在Pascal-Person-Part数据集上,学习率在25个epoch之后除以10,并且模型被训练50个epoch。
  • 在反卷积层中使用了损失,交替地优化D和G。
  • 在测试期间,对多个尺度的每像素分类分数进行平均。即,将测试图像的大小调整为其原始大小的{0.8,1,1.2}}倍。

实验

(1)LIP数据集

(2)PASCAL-Person-Part测试集

(3)PPSS数据集

发布了50 篇原创文章 · 获赞 21 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/u012839256/article/details/89452636