辅助分类器的条件图像合成AC-GAN(Conditional Image Synthesis with Auxiliary Classifier GANs)

原文链接:Conditional Image Synthesis with Auxiliary Classifier GANs

文章贡献:

1.在D的输出部分添加一个辅助的分类器来提高条件GAN的性能

2.提出 Inception Accuracy 这种新的用于评判图像合成模型的标准

3.引进MS-SSIM用于判断模型生成图片的多样性

本文工作与前人不同之处(图片来自互联网,当前版本论文无此图片):

Conditional GAN:CGAN

G:将类标签作为条件信息和噪声一起放入G后生成样本

D:将类标签和生成样本或者训练样本放入D,D的输出是输出样本为真假的概率或者0,1二值

Semi-supervised GAN:

G:不输入类别,只输入噪声来生成样本

D:输入生成样本或者训练样本,最后的输入是输入图像所属类别或者输入图像为假,一共N+1维(N是总类别数)

Info-GAN:

模型将z拆分成两个部分,一部分是没办法解释的连续噪声信号,另一部分就是c。这里c表示一种潜在的属性,在人脸任务中可以解释成面部表情、眼睛颜色、是否带眼镜、头发类型等,在minst手写数据集上可以解释成数字类别(1-9)也可以表示手写笔画的倾斜度、笔画的粗细等。另外,作者将信息论的概念引入了GAN:

G:输入定义的潜在变量c和噪声

目标函数要使c和生成样本尽可能相关,即互信息最大

AC-GANs(本文提出):


我们提出一个GAN架构的变体,将其称之为辅助分类器GAN(或ACGAN,如图2)。在AC-GAN 中,每个生成样本 除了噪声z外有一个对应的类别标签 c~Pc,。G 使用两者来生成伪图像 X (fake)=G(c,z)。判别器给出给出图像源(真假)的概率分布和类标签上的概率分布。损失函数如下:

G:与cGAN相同,同样是输入类标签和噪声

D:不再输入类标签,另外在输入样本是否为真的同时,利用另一个分类器来判断输入样本的所属类别

D训练的目标是最大L_{S}+L_{C},G训练的目标是最大L_{C}-L_{S}

Inception Accuracy:

对于合成模型是比较难去评价的,所以之前有一部分是要人工测试,即人去判断生成模型的真假。但是人工的测试结果变化比较大,所有后来OpenAI提出Inception Score,用于自动模拟人工的判断。但是作者发现当模型已经崩溃,生成的图像完全不符合人的视觉感知的时候,Inception Score依旧有可能较高,所以提出了这种新的评价标准。依旧是将合成的图像输入训练好的Incpetion v3模型,但对比的是模型分类的准确率。这种方法相比Inception Score更好计算,而且能够更好地反映每个类别的信息。

实验

最上面的实验表示模型合成不同分辨率图像的 Inception Accuracy,通过在人工降低生成图像的分析率Inception Accuracy也会随之降低后,证明了模型所生成的高分辨率图像不只是简单增加了像素,而是确实含有低分辨率图像或者简单resize低分辨率图像得到的高分辨率图像中不存在的信息。

MS-SSIM是一个用于判断图像在人的感知上相似度的评价标准,介于0-1之间,值越大表示图像之间相似度越大。作者引入这个标准来进一步评价模型生成图像的多样性。在ImageNet的所有类中,最高的MS-SSIM是0.25,作者对AC-GAN生成的图像做测试后,84.7%类的MS-SSIM比0.25低,进一步说明了本文提出的模型能够生成多样性较大的图像。

此外,作者进一步分析了当前生成模型的不足,部分类生成图像比较相似,可能是因为模型没有记忆,造成过拟合现象。

模型结构:

想说的:

本文在D的输出部分添加一个辅助的分类器来提高条件GAN的性能,同时输出真假和类别。针对任务,提出这种新的Inception Accuracy的评价方法,并引入了MS-SSIM来判断模型的效果。提出的Inception Accuracy评估方法,实验中时优于Inception Score的,但是并未在其他模型中进行对比实验。

参考资料:《Conditional Image Synthesis with Auxiliary Classifier GANs》阅读笔记

原文链接:Conditional Image Synthesis with Auxiliary Classifier GANs

猜你喜欢

转载自blog.csdn.net/qq_24477135/article/details/85758496