SAGAN:自己生成的注意敵対ネットワーク - 1 - ペーパー学習

抽象

本稿では、ネットワーク(SAGAN)に対する自己生成注意を提案し、イメージ生成タスク、長距離依存モデリングのための注意を駆動するために許可されています。従来の畳み込みガンスは、低解像度で空間的に局在点の唯一の高解像度の詳細を生成します。SAGANでは、手がかりは、すべての詳細の特徴位置を生成するために使用することができます。また、特徴点は、同じ画像の遠い部分を確認することができるか否かが判定されます。また、最近の研究では、発電機の条件は、GANのパフォーマンスに影響を与えることを示しています。このビューでは、我々はGANジェネレータに正規化スペクトルを適用します、我々は、動的なトレーニングを向上させることがわかりました。SAGANは、挑戦ImageNetデータセットを以前の研究よりも良い結果を発表し、最高のインセプションスコアはフレシェ初期距離は18.65まで27.62から低下し、52.52まで36.8から上昇しました。焦点層の視覚的表示、近隣、地域ではなく、固定形状に対応する目標形状とのジェネレータを使用して。

 

1.はじめに

画像合成は、コンピュータビジョンにおける重要な課題です。式対立著しい進歩(グッドフェローら、2014)行ったネットワーク(ガンス)の出現により、多くの未解決の問題(Odena、2019)が残っていません。特に、成功ガンス深畳み込みネットワークに基づいて(;。; Zhangらラドフォードら、2016 Karrasら、2018 ..)。しかし、これらのサンプル生成されたモデルの精査によって、我々はいくつかの、マルチクラストレーニングデータセットに畳み込みガンズ(Odenaら、2017 ;.宮戸ら、2018 ;.宮戸&小山、2018)を観察することができます。画像クラスモデリングモデリングは、はるかに難しい他のカテゴリよりも(例えば、ImageNetを(Russakovskyら2015年))。例えば、高度なモデルImageNet GAN(宮戸&小山、2018)、および構造用複合画像ベースの制限(例えば、海、空気及びテクスチャによってではなく、幾何学的形状によって区別される複数の風景等)のかなりの数は、幾何学的またはいくつかでは捕捉できない場合構造モデルクラスの連続発生(例えば、多くの場合、本当の毛皮の質感を持つが、犬を描きながら別々の足の明確な定義はありません)。一つの可能​​な説明は、異なる画像領域との間の相関をモデル化するために、以前の畳み込みモデルに大きく依存しています。畳み込み演算子がローカルドメインを受け入れる必要があるため、長距離の依存関係は、コンボリューション処理にいくつかの層を通過する必要があります。長距離学習の依存を防ぐことができますさまざまな理由については、欠点があります。

  • 小さなモデルは、長期依存性を表していてもよいです
  • 最適化は、多層の近い調整を見つけることは困難であることができ、これらのパラメータの値が依存取り込むことができ、これらのパラメータの入力に印加される前に、それが表示されていない場合、統計情報は脆弱と故障しやすいことができます
  • ネットワークの表現能力を向上させることができ、コンボリューションカーネルのサイズを大きくし、それはまた、コンボリューションと統計的効率を得るために、ローカルコンピューティング・アーキテクチャの使用を失うことになります

一方、ノートので(Chengら、2016 ;.パリキら、2016 ;. Vaswaniら、2017年)を計算し、統計的効率の長期依存性を構築する能力との間の良好な関係を示しますバランス。注応答モジュールは、位置を計算するため、すべての特徴及び重みの位置、重みのそれ - または注意ベクトル - 非常に小さい計算コストを算出することができる必要があります。

この作品では、我々は対立ネットワーク(SAGANs)から注意を生成することを提案する、それが自己の注目機構は畳み込みガンズに導入されるだろう。

その利点は次のとおりです。

  • 畳み込みモジュールからの注意は、モデリング、マルチレベルの依存性の画像領域にわたって助け長距離を補足するものです。
  • 自己発生細かい詳細を備えたノートは、各位置に描画することができる注意深く画像の離れた部分の細部画像と調整されます。
  • さらに、識別は、より正確にグローバル画像の構造上の複雑な幾何学的な制約を行うことができます。

自己の注意に加えて、我々は、ネットワークの調整GANのパフォーマンスのための最新の研究成果を兼ね備えています。(Odenaら、2018)の研究では、良好なパフォーマンスステータスジェネレータはしばしば優れていることを示しています。我々は以前に良好な状態でGAN発生を強化するだけアービタスペクトル正規化技術の適用(宮戸ら、2018)を使用することをお勧めします 。
私たちは、ImageNetデータセット、自己注意メカニズムの有効性と安定調達を確認するために技術上の多くの実験を行っています。フレシェ最良インセプション画分によって初期距離を減少52.52は、有意に良好SAGANより以前の研究に記載の画像合成から18.65に27.62を36.8から上昇しました。焦点層の視覚的表示、近隣、地域ではなく、固定形状に対応する目標形状とのジェネレータを使用して。私たちのコードはhttps://github.com/脳研究/自己注意で見つけることができ -GaN。

 

2.関連研究

様々なガンスに対してネットワークを生成することは、大きな成功を収めて画像生成のタスクを取得する画像(イソラら、2017 ;. Zhuら、2017を含む画像に変換;. Taigmanら、2017 ;.劉&Tuzel、2016 ;雪ら、2018; Parkら、2019)、超解像(Ledigら、2017; ..... Snderbyら、2017)、及びテキスト - 画像合成(リードら、2016B; Zhangら、2017 ;.ホンら、2018).. この成功にもかかわらず、しかし、ガンズ訓練が不安定と超パラメータの選択に非常に敏感です。目的と動的学習新しいネットワークアーキテクチャを設計することによって動的GANサンプル多様性のトレーニングを安定化し、改善しようと、いくつかの作業(ラドフォードら、2016 ;. Zhangら、2017 ;. Karrasら、2018 ;. 2019)、改変(Arjovskyら、2017 ;. Salimansら、2018 ;.メスら、2017 ;.チェら、2017 ;. Zhaoら、2017 ;. Jolicoeur、マーティは、2019年)を加えた正則化法(Gulrajaniら。、2017;宮戸ら、2018)とヒューリスティック技術の導入(Salimansら、2016; .. Odenaら、2017 ;.アザディら、2018).. 最近、宮戸ら(宮戸ら、2018)はリプシッツ定数弁別機能を制限するために、重み行列のスペクトルノルム限界弁別器の数を上げました。項目(宮戸と小山、2018)の組み合わせに基づいて識別器は、正規化されたスペクトルモデルが大きく発生ImageNetに基づいて画像の状態を改善しました。

モデルは最近、注目機構(Bahdanauら、世界的な依存関係の2014キャプチャモデル;. Xuら、2015 ;. Yangら、2016 ;.グレゴールら、2015 ;.陳の不可欠な一部となっていることに注意してくださいら、2018)。特に注目(Chengら、2016 ;.パリキら、2016)ので、さらに注目すべきは、すべての位置で同じ配列により対象とする配列内の位置に応じて算出されるとしても知られています。Vaswaniら(Vaswaniら、2017)が実証変換機モデルは、最も先進的な結果を使用して達成することができる唯一の自己注意モデルを介してです。Parmarら(Parmarら、2018)は、回帰モデルから生成された画像から音符に加え、画像変換のモデルを提案しました。Wangら(Wangら、2018)注非局所依存のような操作は、時間的ビデオシーケンスをモデル化するためこと。これらの進歩にもかかわらず、ノート以来、ガンズ、バックグラウンドで検討されていません。(AttnGAN(Xuら。、2018)注からのモデルの内部状態を用いずに、単語の入力シーケンスに埋め込まれた注目機構を使用して)。SAGANは効率的にグローバルな、長距離依存関係を見つけるのイメージ表現の中に学びました。

 

3.セルフ注意ジェネレーティブ敵対ネットワーク

ほとんどのモデルGAN(ラドフォードら、2016 Karrasら、2018。;; Salimansら、2016 ..)が生成畳み込み層に基づいて画像を構築します。局所近傍、限り層のみ畳み込み依存モデリング画像内の情報を処理する畳み込み計算上非効率的です。このセクションでは、我々は、発電機が効果的に弁別器と空間の広く分離領域との間の関係ができるように、非ローカルGAN注目フレームからモデルを記述する(Wangら、2018)を使用しモデリング。自己アテンションモジュールの(図2を参照)ので、我々は提案手法は、自己世代戦闘ネットワーク(SAGAN)と呼ばれていることに注意してください。


フロント隠れ層のx∈R C×Nの画像は、Gは、F(X)= Wである場合、注目算出された第1の2つの特徴空間F内に備えF X、G(X)= WであるG X。

 

β- jは、iが j番目の領域の合成のi番目の位置における関心度のモデルを表します。、Cはチャネルの数であり、Nは、前の位置の数は、隠された層の機能を備えています。注出力層であることが= O(O 1、O 2、...、O J、...、O N)∈R C×N ここで:

上記式中、WはG ∈R C×C、WがF ∈R C×Cは、 Wは、H ∈R C×C及びWはV ∈R C×Cは 1×1を実現するため、学習することができる重み行列の重量であります行列。いくつかの反復後のチャネルの数がc ImageNetからC / K、K = 1に低減される 2、4、 8、我々は重大な性能劣化に気づきませんでした。メモリ効率を改善するために、我々は、K = 8が全て実験で提供される選択(すなわち、C = C / 8)。 

 

要約すると、CXN = Cxの(幅x高さ)ので、このように平坦である操作を行列乗算変換を行うためです。、F(X)であり、G(x)は、[C / 8、N]であり、その後行列S [N、N]のサイズを得るために、(X)ただし、f 2つの転置結果を乗算演算を出力しますこれは各画素間の関係は、相関行列とみなすことができる表します。H(x)は操作が出力され、わずかに異なる[C、N]

次いで】ソフトマックスベータ後のマトリックスを使用することは、正規化マトリックス、ベータ]を得秒jは、iが関心位置のi番目のレベルのj番目の画素の合成、すなわち注目マップのモデルを表します。

次に、出力のH(X)に印加されて得られた特徴図アテンションマップは、j番目のH(X発生ピクセル影響するI)影響ベータ]の程度に対応するjは、Iが乗算され、その後、シークそして、この影響の度合いに応じた画素を生成することが可能となるjが、この畳み込みの結果は、1つのメモ機能を得るために行われるが、図Oの結果に加算されます

 

さらに、図の特性出力我々は層を乗算焦点を当てるパラメータ、および入力の比率が再び追加しました。したがって、最終的な出力です。

 このようにして得られた結果は、図の元の特徴は、xプラス増加注目機構oの結果であります

 

γは、それがゼロに初期化され、利用できるスカラー学習です。最初は、γは、ネットワークがローカルの磁場依存性のリードを学ぶことができることができます導入 - これは容易であり、その後徐々に非ローカル証拠に、より重みを割り当てることを学ぶよう。私たちは、この直観は簡単です実行します。私たちは単純なタスクを学び、その後徐々にタスクの複雑さを増やすことをお勧めします。SAGANでは、提案された注目モジュールが生成され、識別器に適用される、ヒンジ付き交互に対して損失を最小化することによってトレーニング(イム・イェ、2017;チャンら、2017 ;.宮戸ら、2018。 )

 

ガンズのトレーニングを安定させるために4テクニック

我々はまた、二つの技術は、データセットの安定したトレーニングガンズの挑戦に行くに研究します。まず、スペクトルジェネレータと判別正規化(宮戸ら、2018)を使用します。第二に、我々は、タイムスケールの更新規則(TTUR)(Heuselら。、2017)が有効で、我々は遅い学習問題を解決するためにそれを使用するために特別に正則弁別に立って確認しました。

4.1。発電機と弁別の両方のためのスペクトルの正規化

宮戸ら(宮戸ら、2018)は、もともとガンスの印加列を安定化するために正規化されたスペクトル弁別ネットワークによって提案します。リプシッツ定数は弁別各層のスペクトルノルムを制限することによってそうするように制限しました。他の正規化技術と比べて、追加のスペクトル(スペクトル所有権層1のノルムを実際にうまく機能するように設定されている)、超パラメータ調整を正規化していません。さらに、計算コストは​​比較的小さいです。

私たちは、発電機はまた、最近の証拠に基づいて、スペクトルの正規化の恩恵を受けることができると信じて、その調整・ジェネレータは、ガンズのパフォーマンスに影響を与える重要な要因であることを示唆している(Odenaら。、2018) 。スペクトル正規化は、異常な勾配を回避する、パラメータの振幅を大きくすることを防止することができます。私たちの経験はことを発見したスペクトルが弁別発電機を正規化し、あまり区別の更新プログラムを大幅にトレーニングの計算コストを削減各更新ジェネレータを使用することが可能となります。この方法はまた、より安定した動作の訓練を示しました。

 

4.2。発電機と弁別更新のための不均衡学習率

以前の研究では、弁別正則(宮戸ら、2018 ;. Gulrajaniら、2017) ガンスは、多くの場合、学習プロセスを遅くします。実際には、使用することは、通常、更新が決定された後(例えば、5)のステップは、ステップは、各発電機のために更新される複数のかかるトレーニングプロセスの間に正規化識別です。Heuselら(Heuselら、2017)別学習率(TTUR)の使用を提唱し、識別器を生成します私たちは、それぞれの発電が可能ステップアービタ少ない手順を使用してそのことを、遅いの研究の問題である正の差別を補償するTTURをお勧めします。この方法を使用して、我々は同じ壁時計の時間でより良い結果を得ることができます。

 

5.実験

提案手法を評価するために、我々はLSVRC2012(ImageNet)の実験データセット(Russakovskyら、2015)の多数を行いました。まず、5.1節では、我々は安定したのガンズの訓練のために提案されている技術の両方の有効性を評価するために多数の実験を設計しました。次に、研究者は、5.2節で提案されたメカニズムので、それに注意してください。最後に、我々は、最も高度な方法(Odenaら、2017 ;.宮戸&小山、2018)、比較タスクにおいて、すなわち、画像生成部5.3とセーガンう。それぞれの研修の約2週間、4 GPUを使用して、(我々はすべて知っているように、そのような(Odena、2016)などの非同期SGD、いくつかの困難があります)、同期SGDを使用してモデル。

 

评价指标。我们选择Inception分数(IS)(Salimans et al ., 2016)和Fréchet初始距离(FID) (Heusel et al ., 2017)进行定量评价。尽管存在可替代的选择(Zhou et al., 2019; Khrulkov & Oseledets, 2018; Olsson et al., 2018),但是它们没有被广泛使用。Inception分数(Salimans et al., 2016)计算了条件类分布和边缘类分布之间的KL散度。更高的Inception分数意味着更好的图像质量。我们包含了Inception分数,因为它被广泛使用,因此可以将我们的结果与之前的工作进行比较。然而,重要的是要明白,Inception分数有严重的局限性—— 其主要目的是确保模型生成的样本,可以明确地被识别为是属于一个特定的类的,然而模型生成来自许多类的样本,不是非要评估细节的真实性或内部类的多样性的。FID是一个更有原则和更全面的度量标准,在评估生成样本的真实性和变化方面,它已被证明与人类评估更一致(Heusel et al., 2017)。FID计算生成的图像与Inception-v3网络特征空间中的真实图像之间的Wasserstein-2距离。此外,FID计算了整个数据分布(即在ImageNet中的1000个类的图像) ,我们还计算每个类中生成的图像和数据集图像之间的FID(称为intra FID (Miyato & Koyama, 2018))。较低的FID和内部FID值意味着合成数据分布和实际数据分布之间的距离更近。在我们所有的实验中,每个模型随机生成50k个样本来计算Inception分数,FID和intra FID。

 

网络结构和实现细节。我们训练的所有SAGAN模型都被设计成生成128×128的图像。默认情况下,光谱归一化(Miyato et al., 2018)用于生成器和判别器中的层。与(Miyato & Koyama, 2018)类似,SAGAN在生成器中使用条件batch normalization,在判别器中使用投影。对于所有的模型,我们使用Adam优化器 (Kingma & Ba, 2015) 在训练中设置β1 = 0和β2 = 0.9。默认情况下,判别器的学习率为0.0004,生成器的学习率为0.0001。

 

5.1. Evaluating the proposed stabilization techniques

在本节中,进行了实验来评估所提出的稳定技术的有效性,即,将光谱归一化(SN)应用于生成器,利用不平衡学习率(TTUR)。在图3中,我们的模型“SN on G/D”和“SN on G/D+TTUR”与基线模型进行了比较,基线模型是基于最先进的图像生成方法实现的(Miyato et al., 2018)。

在这个基线模型中,仅在判别器中使用了SN。当我们对判别器(D)和生成器(G)进行1:1的平衡更新训练时,训练变得非常不稳定,如图3中最左边的子图所示。它在训练中很早就表现出模式崩溃。例如,图4的左上子图演示了基线模型在第10k次迭代时随机生成的一些图像。

虽然在最初的论文(Miyato et al., 2018)中,这种不稳定的训练行为通过对D和G使用5:1的不平衡更新得到了极大的缓解,但是为了提高模型的收敛速度,需要使用1:1的平衡更新来稳定地训练。因此,使用我们提出的技术,意味着该模型可以产生更好的结果给定相同的壁钟时间。因此,不需要为生成器和判别器搜索合适的更新比率。如图3的中间子图所示,在生成器和判别器上同时添加SN,使得我们的模型“SN on G/D”得到了极大的稳定,即使是经过1:1的均衡更新训练。然而,在训练过程中,样本的质量并不是单调地提高。例如,由FID和IS测量的图像质量在第260次迭代时开始下降。该模型在不同迭代下随机生成的示例图像如图4所示。当我们将不均衡的学习速率应用于训练判别器和生成器时,“SN on G/D+TTUR”模型生成的图像质量在整个训练过程中单调提高。如图3和图4所示,在一百万次的训练迭代中,我们没有观察到样本质量、FID或Inception分数有任何显著的下降。因此,定量结果和定性结果都证明了所提出的GANs训练稳定技术的有效性。他们还证明,这两种技术的效果至少在一定程度上是相加的。在剩下的实验中,所有的模型对生成器和判别器都使用光谱归一化,并使用不平衡的学习速率以1:1的更新来训练生成器和判别器。

 

5.2. Self-attention mechanism.

为了探讨所提出的自注意机制的效果,我们建立了几个SAGAN模型,将自注意机制添加到生成器和判别器的不同阶段。如表1所示,使用自注意机制建模的SAGAN在中级到高级级别的特征图(如f eat32和feat64)比自注意机制的模型在低级别特征映射(例如,feat8和feat16)中取得更好的性能:

例如,“SAGAN, feat8”模型的FID从22.98改进为“SAGAN, feat32”的18.28。原因是,自注意获得了更多的证据,并享有更多的自由去选择条件与更大的特征图(即对于大的特征图,它与卷积是互补的),但是对于小的特征图(例如8×8),它与局部卷积的作用类似。实验结果表明,该注意机制为生成器和判别器提供了更大的能力,可以直接对特征图中的长距离依赖关系进行建模。此外,将我们的SAGAN与不需要注意的基线模型(表1第二列)进行比较,进一步表明了所提出的自注意机制的有效性。

与具有相同数量参数的残差块相比,自注意块也取得了较好的效果。例如,当我们用8×8特征图中的残差块替换自注意块时,训练不稳定,导致性能显著下降(如FID从22.98增加到42.13)。即使在训练顺利进行的情况下,将自注意块替换为残差块仍然会导致FID和Inception分数的下降。(例如,在特征图32×32中,FID为18.28 vs 27.33)。这一比较表明,使用SAGAN所带来的性能改进不仅仅是由于模型深度和容量的增加。
为了更好地理解在生成过程中所学到的知识,我们在SAGAN中可视化了不同图像中生成器的注意权重。图5和图1显示了一些需要注意的示例图像。参见图5的说明,以了解所学习的注意图的一些属性。

 

 

 

5.3. Comparison with the state-of-the-art

我们的SAGAN还与最先进的GAN模型进行了比较 (Odena et al., 2017; Miyato & Koyama, 2018) ,其用于生成ImageNet上的类条件图像。如表2所示,我们提出的SAGAN获得了最好的Inception分数,intra FID和FID。

SAGANは大幅に52.52に36.8から改善しインセプション最高スコアのリリースを上げました。下部FID(18.65)及びイントラFID(83.7)SAGANは、元の画像のより良好な近似分布に、セーガンの依存関係をモデル化する画像領域との間の自己注目モジュール長い距離を使用していることも示しているが得られます。
図6に示すより代表ImageNetクラスと生成された画像の一部の結果。

私たちは、より良い性能(すなわち、内下げ、セントバーナードの金魚を達成するなど、私たちの最も先進的なSAGANよりGANモデル(宮戸&小山、2018)、複雑な形状や画像のクラスの合成では、構造的なパターンを持っていることを観察しましたFID)。以下の構造の制約のために(例えば、谷、サンゴ石の壁および真菌のような、むしろ幾何学以上のテクスチャによって区別される)、我々SAGANはあまり優位(宮戸と小山を示したベースラインモデルと比較、2018)。ここでも、理由はグローバルレベル依存の畳み込みジオメトリまたはを取り込むための自己SAGANの注意と長距離の構成の一貫性のあるパターンが表示されますが、相補的であるが、単純なテクスチャモデリング、ローカルの効果に依存してコンボリューションは似ています。

したがって、複雑な形状やパターン画像を有する構造の合成における使用に適しセーガン

 

6.おわりに

本稿では、ネットワーク(SAGANs)に対する自己生成注意を提案し、メカニズム以来GANフレームワークに統合ことに留意されたいです。モジュールが効果的に長距離依存関係をモデル化することができるので、注意してください。また、我々はまた、発電機に適用されるスペクトル正規化技術は、安定したGANトレーニングすることができ、およびトレーニングTTURが正の弁別のベースとなって加速できることを実証しました。ImageNet上SAGANは、最新のパフォーマンスクラス条件生成された画像を実装しています。

 

おすすめ

転載: www.cnblogs.com/wanghui-garcia/p/11766406.html