Triple Generative Adversarial Nets

文章下载链接:https://arxiv.org/pdf/1703.02291.pdf

https://arxiv.org/pdf/1703.02291v2.pdf

一、这篇文章解决了什么问题?

        生成对抗网络(GAN)在图像生成和半监督学习(SSL)中显示出了希望。

        但是,SSL中现有的GAN有两个问题:

(1)生成器和判别器(即分类器)可能无法同时处于最佳状态;

(2)生成器无法控制所生成样本的语义

        问题本质上是由两个参与者组成的,其中单个鉴别者在识别假样本和预测标签方面担当着不兼容的角色,并且仅估计数据而未考虑标签。为了解决这些问题,本文提出了三重生成对抗网络(Triple-GAN),该网络由三个参与者组成:生成器,判别器和分类器。生成器和分类器表征图像和标签之间的条件分布,而判别器仅专注于识别伪造的图像标签对。

       本文设计兼容的实用程序,以确保以分类器和生成器为特征的分布都收敛于数据分布。在各种数据集上的结果表明,Triple-GAN作为一个统一模型可以同时(1)在深度生成模型中获得最新的分类结果,以及(2)弄清输入的类和样式并顺利转移在数据空间中通过条件空间中的潜在空间插值。

二、Introduction

       深度生成模型(DGM)可以捕获数据的基本分布并合成新样本。 近来,基于生成对抗网络(GAN)生成逼真的图像已经取得了重大进展。 GAN被公式化为两人游戏,其中生成器G将随机噪声z作为输入并在数据空间中生成样本G(z),而判别器D则确定某个样本是否来自真实数据分布p( x)或生成器。 G和D都被参数化为深度神经网络,并且训练过程是为了解决极小极大问题:

        其中p z(z)是简单分布(例如均匀或正态),而U(·)表示效用。 给定一个生成器和定义的分布pg,在非参数设置中,最佳判别符为D(x)= p(x)/(pg(x)+ p(x)),并且如果和 仅当pg(x)= p(x)时,这在图像生成方面是需要的。

       一般说来,GAN和DGM在半监督学习(SSL)中也被证明有效,同时又保持了生成能力。 在相同的两人游戏框架下,Cat-GAN使用分类判别网络和目标函数对GAN进行了概括,该目标函数在给定真实数据的情况下最小化了预测的条件熵,而在给定生成样本的情况下最大化了预测的条件熵。Odena 和Salimans等用与生成器生成的伪造数据相对应的另一类增加了分类判别器。 现有的SSL GAN中存在两个主要问题:(1)生成器和判别器(即分类器)可能无法同时处于最佳状态; (2)生成器无法控制所生成样本的语义。

       例如,对于第一个问题,Salimans等人提出了两个可供选择的训练目标,它们对于SSL中的分类或图像生成均适用,但不能同时适用于两者。特征匹配的目标在分类中效果很好,但是无法生成无法区分的样本(例如,请参见第5.2节),而小批量识别的另一个目标则是能够生成真实的图像,但是不能准确地预测标签。相关文章中并没有对该现象进行深入分析,在这里本文认为它们本质上是由两个角色的公式产生的,其中一个判别器必须扮演两个不相容的角色-识别假样本和预测标签。具体地,假设G是最优的,即p(x)= pg(x),并考虑样本x〜pg(x)。 一方面,作为判别器,最优D应该将x标识为具有非零概率的伪样本(证明请参见[7])。另一方面,由于x〜p(x),所以作为分类器,最优D应该始终可靠地预测x的正确分类。由于D具有两个不兼容的收敛点,因此发生冲突,这表明G和D可能不会同时处于最佳状态。而且,即使在大多数实际情况下,只要p g(x)和p(x)重叠,即使G不完美,问题仍然存在。给定样本来自重叠区域,D的两个角色仍然通过对样本进行不同的处理而竞争,从而导致分类器质量较差。即,现有的两人游戏模型的学习能力受到限制,应该解决该问题以提高当前的SSL结果。

       对于第二个问题,在有限的监督下将有意义的物理因素(如对象类别)与潜在表示分离开来是普遍关注的问题。 然而,尽管某些工作可以在给定完整标签的情况下学习到这样的表示形式,但是现有的GAN都无法学习SSL中解开的表示形式。 同样,我们认为问题是由他们的两人组成引起的。 具体地,[26、25]中的判别器采用单个数据而不是数据标签对作为输入,并且当证明样品是真实的还是假的时,标签信息被完全忽略。 因此,生成器将不会从判别器接收到任何关于标签信息的学习信号,因此,这样的模型无法控制所生成样本的语义,这是不令人满意的。

       为了解决这些问题,本文提出了Triple-GAN,Triple-GAN是一种灵活的游戏理论框架,用于在SSL中分类和分类条件图像生成,其中拥有部分标记的数据集。我们引入了两个条件网络-分类器和生成器,分别生成给定真实数据的伪标签和生成实标签的伪数据。为了共同证明条件网络样本的质量,本文定义了一个唯一的判别器网络,唯一的作用是区分数据标签对是否来自真实标签数据集。所得模型称为Triple-GAN,因为不仅存在三个网络,而且本文考虑了三个联合分布,即真实的数据标签分布和条件网络定义的分布(有关Triple-GAN的说明,请参见图1)。直接由分类器和条件生成器都是最佳的理想平衡驱动,本文精心设计了兼容的实用程序,包括对抗性损失和无偏正则化(请参阅第3节),从而为解决具有挑战性的SSL任务提供了有效的解决方案,理论与实践。

图1:三重GAN(彩色最佳视图)的图示。 D,C和G的效用分别用蓝色,绿色和黄色着色,其中“ R”表示拒绝,“ A”表示接受,“ CE”表示交叉熵损失。 “ A”和“ R”是对抗性损失,“ CE”是无偏正则化,可确保p g,p c和p之间的一致性,p g,p c和p分别是生成器,分类器和真实数据生成过程定义的分布。

        特别是,从理论上讲,好的分类器不会像第一个问题所述的那样竞争,而是会在Triple-GAN中产生好的生成器,反之亦然(请参见第3.2节)。此外,判别器可以从分类器访问未标记数据的标签信息,然后迫使生成器生成正确的图像标签对,这解决了第二个问题。根据经验,本文在广泛采用的MNIST [14],SVHN [19]和CIFAR10 [12]数据集上评估我们的模型。结果(参见第5节)表明,Triple-GAN可以同时学习一个好的分类器和条件生成器,这与我们的动机和理论结果相吻合。

        总的来说,本文的主要贡献有两个方面:(1)本文分析了现有SSL GAN [26,25]中的问题,并提出了一种新颖的博弈论的Triple-GAN框架,以精心设计的兼容目标解决这些问题; (2)本文证明,在具有不完整标签的三个数据集上,Triple-GAN可以大大提高DGM的最新分类结果,同时可以解开类和样式并执行类条件插值。 

三、方法

        本文考虑在半监督的环境中学习DGM,其中有一个部分标记的数据集,其中x表示输入数据,y表示输出标签。目的是预测未标记数据的标记y并生成以y为条件的新样本x。这与纯生成的无监督设置不同,后者的唯一目标是从生成器中采样数据x来欺骗鉴别器。因此,两人游戏足以描述GAN中的过程。在本文的设置中,由于标签信息y不完整(因此不确定),因此本文的密度模型应该描述x和y的不确定性,因此输入标签对的联合分布p(x,y)。

         由于y缺少值,因此无法直接应用两人GAN。与之前的工作[26,25]不同,后者仅限于两人游戏框架,并且可能导致目标不相容,基于对联合分布可以通过两种方式分解的见解来构建我们的游戏理论目标。 p(x,y)= p(x)p(y | x)和p(x,y)= p(y)p(x | y),并且条件分布p(y | x)和p( x | y)分别对分类和类条件生成感兴趣。为了联合估计这些以分类器网络和分类条件生成器网络为特征的条件分布,本文定义了一个唯一的判别器网络,其唯一的作用是区分样本是来自真实数据分布还是来自模型。因此,本文自然将GAN扩展到Triple-GAN,这是一个三层游戏,用于描述SSL中分类和类条件生成的过程。

 四、实验

        现在,本文在广泛采用的MNIST [14],SVHN [19]和CIFAR10 [12]数据集上展示结果。 MNIST由50,000个训练样本,10,000个验证样本和10,000个大小为28×28的手写数字测试样本组成。 SVHN由73,257个训练样本和26,032个测试样本组成,每个都是32×32大小的彩色图像,其中包含具有不同背景的数字序列。 CIFAR10由彩色图像组成,这些图像分布在10个通用类别中:飞机,汽车,鸟类,猫,鹿,狗,青蛙,马,船和卡车。 CIFAR10中有50,000个培训样本和10,000个大小为32×32的测试样本。 如果需要,本文将5,000个SVHN和CIFAR10的训练数据进行了验证。 在CIFAR10上,本文按照[13]对C的输入执行ZCA,但仍使用G和D生成并估计原始图像。

       

      

 

五、结论

        本文介绍了三重生成对抗网络(Triple-GAN),这是一个由三个参与者(生成器,判别器和分类器)组成的统一游戏理论框架,用于使用兼容的实用程序进行半监督学习。 利用此类实用程序,Triple-GAN解决了现有方法的两个主要问题[26,25]。 具体来说,Triple-GAN确保分类器和生成器都可以从博弈论的角度分别实现各自的最优值,并使生成器可以对特定类别的数据进行采样。 本文在MNIST,SVHN和CIFAR10数据集上的经验结果表明,作为统一模型,Triple-GAN可以同时实现深度生成模型之间的最新分类结果,并解开样式和类,并可以通过 潜在空间中的插值。

相关其他文章讲解:https://segmentfault.com/a/1190000022263719/

                                https://blog.csdn.net/u011961856/article/details/77605933

发布了128 篇原创文章 · 获赞 132 · 访问量 17万+

猜你喜欢

转载自blog.csdn.net/yql_617540298/article/details/105316170