テキストから画像への多読GAN-CLSおよびGAN-INT:敵対的生成テキストから画像への合成

この記事は、金塊の作成への道を開始するための「新人作成セレモニー」イベントに参加しました。これは、GANを使用して画像(Text to Image、T2I)を生成することに関する論文です。この記事は、2016年にReed et al。によって公開され、ICML会議に受け入れられました。GANを使ってテキストから画像を生成する先駆的な作品と言えます。

紙のリンク:arxiv.org/pdf/1605.05…

コードリンク:https ://github.com/zsdonghao/text-to-image

この記事は、いくつかの個人的な理解、知識の拡張、および要約を含む、論文の多読に関するレポートです。

1.要約

テキストから実際の画像を自動的に合成することは面白くて便利ですが、現在のAIシステムはそれとはほど遠いものです。ただし、近年、識別可能なテキストの特徴表現を学習するために、一般的で強力なリカレントニューラルネットワークアーキテクチャが開発されています。同時に、深い畳み込み生成的敵対的ネットワーク(GAN)は、人間の顔、アルバムカバー、部屋のインテリアなど、特定のクラスの非常に魅力的な画像を生成し始めています。この作業では、GANを使用して新しいディープアーキテクチャを開発し、テキストと画像のモデリングにおけるこれらの進歩を効果的に橋渡しし、視覚的な概念を文字からピクセルに変換します。モデルが詳細なテキストの説明から鳥や花のもっともらしい画像を生成できることを示します。

2.キーワード

ディープラーニング、生成的敵対的ネットワーク、画像合成、コンピュータービジョン

3.関連作業

この研究の方向性は、マルチモーダル機械学習のサブセットです。モダリティ:情報の各ソースまたは形式は、モダリティと呼ぶことができます。たとえば、人々は触覚、聴覚、視覚、嗅覚、音声、ビデオ、テキストなどの情報メディア、レーダー、赤外線、加速度計などのさまざまなセンサーを持っています。上記のそれぞれは、モダリティと呼ぶことができます。マルチモーダル学習は、機械学習手法を通じてマルチソースのモーダル情報を処理および理解する機能を実現することを目的としています。マルチモーダル学習の主な課題には、モダリティ間で共有表現を学習し、別のモダリティを条件として予測を行うことが含まれます。

Denton et al。(2015)は、ラプラシアンピラミッドの敵対的ジェネレーターとディスクリミネーターを使用して多重解像度画像を合成します。この作業により、魅力的な高解像度画像が生成され、クラスラベルの制御された生成も可能になります。ラプラシアンピラミッド生成的敵対的ネットワーク。画像ピラミッドは、画像内の一種のマルチスケール表現です。画像のピラミッドは、同じ元の画像から派生した、解像度が徐々に低下するピラミッド形状に配置された一連の画像です。ラプラシアンピラミッド:ピラミッドの下層の画像から上層のサンプリングされていない画像を再構成するために使用されます。デジタル画像処理では、予測残差でもあり、画像を最大限に復元できます。ガウスピラミッドは画像をダウンサンプリングするために使用され、プルプラスピラミッドはピラミッドの下部にある画像からアップサンプリング(つまり、サイズの2倍、解像度++)して画像を再構築するために使用されます。

Radford et al。(2016)は、標準の畳み込みデコーダーを使用しましたが、バッチ正規化と組み合わせて効率的で安定したアーキテクチャを開発し、優れた画像合成結果を実現しました。Mansimov et al。(2016)では、画像は変分オートエンコーダー(VAE)を使用してテキストキャプションから生成されますが、生成された画像はまだ現実的ではありません。

この記事と上記のGANの主な違いは、1)モデルがクラスラベルではなくテキストの説明を条件としていることです。2)文字レベルからピクセルレベルまでの最初のエンドツーエンドアーキテクチャ。3)多様体補間正則化が導入され、生成されたサンプルの品質を大幅に向上させることができます。

四、背景知识

4.1、GAN

损失函数为: ここに画像の説明を挿入 GAN有关的数学知识可以看这篇博客:深入浅出理解GAN中的数学原理

4.2 、Deep symmetric structured joint embedding

为了获得文本描述的视觉辨别矢量表示,文章用《Learning Deep Representations of Fine-Grained Visual Descriptions》中的方法,使用卷积循环神经网络文本编码器,学习与图像的对应函数,如下式。包括一个图像分类器和一个文本分类器,在本文中,图像分类器用的是GoogLeNet,文本分类器用的是LSTM和CNN。得到文本特征后,需要把文本特征压缩后与图像特征拼接在一起,放入DC-GAN。 ここに画像の説明を挿入 ここに画像の説明を挿入

三、主要方法

3.1、框架

训练了一个 基于卷积循环神经网络文本编码器深度卷积生成对抗网络(DC-GAN)。生成器网络G和鉴别器网络D均根据文本特征执行前馈推理。 ここに画像の説明を挿入 其中,生成器和鉴别器都使用文本编码φ(t)。 生成器G将文本信息经过预处理(卷积循环神经网络文本编码器)得到特征表达,然后将其和噪声向量组合在一起。在上图中蓝色长方体就代表文本信息的特征表达,z对应的白色长方体是噪声向量。将得到的组合向量输入到反卷积网络中,经过多层处理最终得到一幅图像。 判别器D将图像进行卷积操作之后,将文本信息在深度方向上和原图像卷积得到的特征向量组合在一起,最后得到一个二值元,用来判断图像的真假。

3.2、第一个改进:GAN-CLS

GAN-CLS:匹配感知鉴别器。在以前的对抗网络中,判别器D的输入包括两种:正确的图片和其对应的文本,合成的图片和任意文本。那么判别器就要识别出两种情况:一是判别出合成的图片,二是真实图片与不匹配的文本。本文中将D的输入增加了一种:真实图像和错误的文本描述。通过这样的方法,让D能够更好地学习文本描述和图片内容的对应关系。 ここに画像の説明を挿入伪代码为: ここに画像の説明を挿入

3.3、第二个改进:GAN-INT

GAN-INT:流形插值学习。通过简单地在训练集文本的嵌入之间进行插值来生成大量额外的文本嵌入。关键的是,这些插入的文本嵌入不需要对应于任何实际的书面文本,因此没有额外的标签成本。这是因为深度网络学习到的特征表示具有可插值性。 两个代表不同意义的句子A和B,A和B中间意思的句子C的embedding会和A和B分别的embedding的均值比较接近。 比如“A:一只牛在吃草”和“B:一只鸟在树上”, 深度特征插值后可能出现“C:一只牛在树上”,其与A、B的embedding很接近。 1)融合两个文本的公式: ここに画像の説明を挿入 beta是融合的比例,论文中取0.5,也就是各个句子融合一半

2)风格迁移公式: ここに画像の説明を挿入 S提取生成器一张图像的风格信息,得到s(style),其次将随机噪声换成提取到的s,s与embedding(t)输入生成器中,生成某风格下的图像。

四、实验

4.1、数据集

数据集:使用了CUB(鸟)、Oxford-102(花)。CUB分为有150个训练类集合和50个测试类集合,而Oxford-102有82个训练类集合和20个测试类集合。每个图像配有5个对应文本。

4.2、文本特征的预训练

对于文本特征,首先使用了卷积循环神经网络文本编码器进行预训练,即char-CNN+RNN,将其与1024维GoogLeNet图像(Szegedy在2015)嵌入进行结构化联合嵌入。对文本编码器进行预训练的原因只是为了提高训练其他组件的速度,以便更快地进行实验。

4.3、训练过程

训练图像大小设置为64×64×3。文本编码器产生1024维嵌入,在深度连接到卷积特征映射之前,在生成器和鉴别器中投影到128维。采取交替步骤更新生成器和鉴别器网络,学习率设置为0.0002,使用了ADAM solver(动量0.5),生成器的随机噪声从100维单位正态分布取样。Minibatch的大小为64,训练了600个epoch。

4.4、实验结果

ここに画像の説明を挿入 ここに画像の説明を挿入

4.5、分离内容和风格

所谓内容,我们指的是鸟本身的视觉属性,如身体的形状、大小和颜色。所谓风格,我们指的是图像中所有其他变化因素,如背景颜色和鸟的姿势。文本嵌入主要包括内容信息,通常与样式无关GAN使用随机噪声来制作风格。使用K-means将图像分组为100个簇,其中来自同一簇的图像共享相同的样式。相同风格(例如相似姿势)的图像之间的相似性应高于不同风格的图像之间的相似性。GAN-INT、GANINT-CLS的模型在这项任务中表现最好。 ここに画像の説明を挿入

文章把图像根据图的背景色,鸟或者花的姿态利用k-means聚成了100个类。用训练的CNN网络用G生成的图片预测style,并计算style和其同类与不同类图像的cos相似度。从下图中可看出,文本caption表现出一条直线,说明文本和图像的style是完全没有关系的(ROC曲线越是靠近左上角,灵敏度越高,误判率越低,则诊断方法的性能越好) ここに画像の説明を挿入

4.6、流形插值的结果

通过插值学习的文本流形,通过控制插值可以准确反映颜色信息,例如鸟类从蓝色变为红色,而姿势和背景不变。通过控制两个噪声向量之间进行插值,并保持内容固定,生成两种样式之间平滑过渡的鸟类图像。如下图,左图是保证随机噪声不变,改变两个句子的权重大小(即内容变、风格不变)。右图是保证句子不变,对两个随机噪声做插值(即内容不变风格变)。 ここに画像の説明を挿入

4.7、泛化性

作者为了测试泛化性,在MS-COCO数据集上面进行了训练测试。从远处看,结果令人鼓舞,但经过仔细观察,很明显,生成的场景通常不连贯。 ここに画像の説明を挿入

4.8、实验结论

开发了一个简单有效的模型,用于根据详细的视觉文本描述生成图像。我们证明了该模型可以合成给定文本标题的许多合理的视觉解释。我们的流形插值正则化器大大改进了CUB上的文本到图像合成。我们展示了风格和内容的分离,以及从查询图像到文本描述的鸟姿和背景转换。最后,我们用MS-COCO数据集上的结果证明了我们生成具有多个对象和可变背景的图像的方法的通用性。

五、心得

这篇文章是用GAN做文本生成图像的开山之作,作者使用了卷积循环神经网络文本编码器+深度卷积生成对抗网络(DC-GAN)。在此基础上,作者还做了三点改进:

1)GAN-CLS:匹配感知鉴别器,其加入一组:真实图像和错误的文本描述的输入,通过这样的方法,让D能够更好地学习文本描述和图片内容的对应关系。

2)GAN-INT:流形插值学习,在训练集文本的嵌入之间进行插值,增加文本的变化,从而让G具有更强大的生成能力。

3)コンテンツとスタイルを分離する:ランダムノイズを使用してスタイルを作成し、K-meansを使用して画像を100個のクラスターにグループ化してスタイルを作成します。テキストの説明自体がスタイルを説明しないという問題を解決するために、zがスタイルを特徴付けられるようにします。ランダム化されたzは異なるスタイルを追加できるため、生成されるサンプルの信頼性と多様性が向上します。

補足知識ポイント:受信者動作特性曲線(ROC)、感度曲線とも呼ばれます。ROC曲線の下の面積(AUC)は、ROC曲線とx軸で囲まれた面積x = 1を指します。ROC曲線の下の面積が0.5より大きい限り、診断テストに特定の診断値。同時に、AUCが1に近いほど、診断テストの信頼性が高くなります。ROC曲線が左上隅に近いほど、感度が高くなり、偽陽性率が低くなり、診断方法のパフォーマンスが向上します。ROC曲線の左上隅に最も近いROC曲線上の点が、感度と特異度の合計が最大であることがわかります。

拡張読書

次へ:テキストから画像への紙の集中読書StackGAN:スタックされた生成的敵対的ネットワークを備えたスタックされたGANによるテキストからフォトリアリスティックな画像合成テキストから画像への合成

読書ガイド:2016〜2021テキストから画像(T2I)の読書ルートと読書ガイド

2021テキストから画像への合成:レビュー読み取りレポート:敵対的なテキストから画像への合成:レビュー

おすすめ

転載: juejin.im/post/7084567110118015006