GAN注意力机制研究——SPA-GAN: Spatial Attention GAN for Image-to-Image Translation论文阅读笔记

一、前人工作

二、 SPA-GAN

1. 论文SPA-GAN发表于2020年TOM(IEEE Transactions on Multimedia)

一、前人工作

论文Unsupervised attention-guided image-to-image translation和论文Attention-GAN for Object Transﬁguration in Wild Images都对注意力机制与GAN结合进行了研究，但是都将attention用于分离前景(foreground)和后景(background)，主要做法为：将生成器网络拆成两部分，第一部分为预测网络（用于预测感兴趣的区域），第二部分为转换器网络（用于两个域之间图像的转换），论文Attention-GAN for Object Transﬁguration in Wild Images主要思想为：使用输入image的分割注释作为额外的监督信息来训练注意力网络，然后将注意力图应用于转换器网络的输出，从而将输入图像的背景用作输出背景，从而提高生成图像质量；

扫描二维码关注公众号，回复： 13201362 查看本文章

二、 SPA-GAN

1. 论文SPA-GAN发表于2020年TOM(IEEE Transactions on Multimedia)

名称：SPA-GAN: Spatial Attention GAN for Image-to-Image Translation (SPA-GAN)

期刊：IEEE Transactions on Multimedia 2020

作者：Hajar Emami, Majid Moradi Aliabadi, Ming Dong, and Ratna Babu Chinnam

单位：Computer Science Department, Wayne State University, Detroit, Michigan United States

2. 主要内容

SPA-GAN在CycleGAN网络结构的基础上，从判别器输出注意力图并输入生成器中用于协助生成器关注图像中更多有区分度的区域，并修改了循环一致性损失并增加特征图损失（与解码器第一层输出运算），SPA-GAN作为最新的研究成果具有最低的KID和最高的分类准确率；不足之处在于理论基础欠缺，特别是在消融实验部分关于使用编码器和解码器第几层的输出用于计算特征图损失的解释欠缺，只是从实验结果出发来分析。

3. 主要贡献

（1）将attention机制用于将判别器中，并将其结果反馈到生成器（反馈的是一个空间注意力图spatial attention map，空间注意力图的内容是判别器用于判别输入图像真假的局域），从而让生成器给有明显区分的区域给予高的权重，作者还说这样做还能更大程度保留域特有的一些特征；在生成网络中，驱使在解码器第一层获得的特征图为真实图像与生成图像中识别的感兴趣区域相匹配；将attention作为一种从判别器迁移知识到生成器的机制，从而使判别器更好地帮助生成器更明确具有区分度的区域；

（2）更改循环一致性损失和新加入了生成器特征图损失（目的是保留域的特定特征）；

（3）与之前的添加注意力机制的GAN不同（不同在于之前的方法要么需要额外的监督信息，要么需要单独的注意力网络，给GPU带来计算负担），而SPA-GAN是一种轻量级模型；

4. 评价标准

KID、分类准确率与人为视觉判断，并增加消融实验。KID被定义为真实图像与生成图像的inception representations之间的平方最大均值差(MMD)，KID是一个无偏估计量，没有任何激活分布形式的假设（比FID更加可靠），KID越小代表真实图像与生成图像有更高的视觉相似度。

5. 论文评价

本论文内容殷实，之前的方法如AttentionGAN、SAGAN等经历了attention机制结合GAN做应用的多个版本的结构变形，从最早的SAGAN（生成器和判别器都有attention机制）到后来的AttentionGAN（解耦生成器为两个结构——预测网络和转换器网络）、Attention-GAN for Object Transﬁguration in Wild Images（增加了分割注释作为额外的监督信息）、AGGAN（增加单独的注意力网络），早期的图像翻译方法孪生三胞胎CycleGAN（提出循环一致性损失，使用残差网络做图像转换）、DualGAN（使用WGAN的损失函数，稳定性更高）、DiscoGAN（使用最简单的CNN编码器解码器，使用全连接网络作为转换器）、UNIT（共享隐层空间假设、循环损失、VAE）、MUNIT（为内容和风格建立两个隐层假设，并用于多个域，内容code不变，风格多变）、DRIT（将隐层空间解耦为域共享内容空间——捕获共同信息、域特定属性空间），SPA-GAN在CycleGAN网络结构的基础上，从判别器输出注意力图并输入生成器中用于协助生成器关注图像中更多有区分度的区域，并修改了循环一致性损失并增加特征图损失（与解码器第一层输出运算），SPA-GAN作为最新的研究成果具有最低的KID和最高的分类准确率；不足之处在于理论基础欠缺，特别是在消融实验部分关于使用编码器和解码器第几层的输出用于计算特征图损失的解释欠缺，只是从实验结果出发来分析。

参考文献

[1] Emami H , Aliabadi M M , Dong M , et al. SPA-GAN: Spatial Attention GAN for Image-to-Image Translation[J]. IEEE Transactions on Multimedia, 2020, PP(99):1-1.