【GAN】2.オリジナルGAN論文の詳細解説

前に書いた

前回の記事: [GAN] 1. keras を使用して DCGAN を実装し、手書きのデジタル画像を生成するでは、keras を使用して単純な DCGAN を実装し、手書きのデジタル画像を生成しました。プログラムの結果により、GAN の威力を実感できるようになり、さまざまな GAN モデルを段階的に紹介し始めました。それでは、最も基本的な GAN から始めましょう。


1.GANの紹介

GAN (Generative Adversarial Network) の正式名称は、対立生成ネットワークまたは生成対立ネットワークと呼ばれます。GAN の概念は 2014 年に Ian Goodfellow によって提案され、すぐに非常にホットな研究トピックになりました。現在、GAN には数千の亜種があり、2019 年にコンピューター業界でノーベル賞「チューリング賞」を受賞し、深層学習のパイオニアの 1 人である Yann LeCun 氏も次のように述べています。何十年にもわたる機械学習の基礎であり、この分野で最も興味深いアイデアです。」

元の GAN の紙のリンクは次のとおりです。Generative Adversarial Nets

まず、元のGANを一文にまとめましょう。オリジナルの GAN は、2 つの有機的なアンサンブル - ジェネレータGGで構成されています。Gと弁別子DDD、ジェネレーターの目的は、ランダムな入力ガウス ノイズを画像 (「偽画像」) にマッピングすることであり、ディスクリミネーターは、入力画像がジェネレーターからのものであるかどうかの確率、つまり、判断する確率を判断することです。入力画像が偽の画像であるかどうか。

GANのトレーニングもCNNとは大きく異なり、CNNは特定の損失関数を定義し、勾配降下とその改良アルゴリズムを使用してパラメータを最適化し、局所最適解を使用して可能な限り大域最適解に近づきます。しかし、GAN のトレーニングは動的なプロセスであり、ジェネレーターGGGと弁別子DDD 2 つの間の相互ゲーム プロセス。簡単に言えば、GAN の目的は、何もないところから何かを作成し、本物と偽物を混同することです。つまり、ジェネレーターをGGにするGが生み出すいわゆる「偽像」が識別器DDDの場合、最適な状態はジェネレータGGGによって生成されたいわゆる「偽グラフ」は、ディスクリミネータDDDの判別結果は 0.5 であり、本物の写真か偽物の写真かはわかりません。

次に、GAN の関連用語について説明します。最初に説明するのはジェネレータGGですG._ _ ジェネレーターGGG は、入力ガウス ノイズのデータ​​分布をキャプチャするために使用され、「偽のグラフ」を生成します。次は識別器です。ディスクリミネーターDDDは、入力サンプルがジェネレーターではなくトレーニング セットからのものである確率を評価することです。トレーニング ジェネレーターGGGは弁別子DDD間違える確率。元のGANのフレームワーク全体がジェネレータGGGと弁別子DDD両者の間の相互ゲームのダイナミックなプロセス。


2.GANトレーニング

次にGANのトレーニングについて紹介します。まず、元の GAN の目的関数 (損失関数) を与えます。損失関数は次のようにリストされます。
min ⁡ G max ⁡ D V ( D , G ) = E x ∼ pdata ( x ) [ log ⁡ D ( x ) ] + E z ∼ pdata ( z ) [ log ⁡ ( 1 − D ( G ( z ) ) ) ] (1) \underset{G}{\mathop{\min }}\,\underset{D}{\ mathop{\ max }}\,V(D,G)={ {\mathbb{E}}_{x\sim { {p}_{data}}(x)}}[\log D(x)] +{ { \mathbb{E}}_{z\sim { {p}_{data}}(z)}}[\log (1-D(G(z)))]\tag1GD最大V ( D ,G )=x pダタ_ _ _( × )[ログ_D ( x ) ]+z pダタ_ _ _( z )[ログ( 1 _D ( G ( z ) ) ] _( 1 )

その中でもGGGは発電機、DDD はディスクリミネーター、 xxの略です。x は実データを表し、pdata p_{data}pダタ_ _ _実データzzの確率密度分布を表すz は、ランダムなガウス ノイズであるランダムな入力データを表します。

上記の式からわかるように、弁別子DDからD視点弁別器DDD は、実際のサンプルを可能な限り区別したいと考えていますxxxと偽サンプルG ( z ) G(z)G ( z )なので、D ( x ) D(x)D ( x )はできるだけ大きくなければなりません.D ( G ( z ) ) D(G(z))D ( G ( z ) )は可能な限り小さい値、つまりV ( D , G ) V(D,G)V ( D ,G )全体はできるだけ大きく。発電機GGからGの観点から、ジェネレーターGGGは偽のデータG ( z ) G(z)を生成したいG ( z )は弁別器DDD、つまり希望D ( G ( z ) ) D(G(z))D ( G ( z ) )は可能な限り大きく、つまりV ( D , G ) V(D,G)V ( D ,G )全体はできるだけ小さく。GAN の 2 つのモジュールは相互にトレーニングを行っており、最終的にグローバルな最適値に到達します。

以下の元の論文には、GAN のトレーニング プロセスの概略図も示されています。上の図で、平行線はノイズzzを表します。z、これはxxx、青い点線は弁別子DDDの出力、黒い点は実際のデータ分布を表しますpdata p_{data}pダタ_ _ _、緑の実線は発電機GGを表しますGに対するスプリアスデータのpg p_gpg. 下の図からわかるように、GAN のトレーニング プロセス中に、ジェネレータGGGの確率密度分布は徐々に実際のデータセットの確率密度分布に近づき、ディスクリミネーターの予測値も減少しています. 下図 (d) の状況が現れたとき、 D ( G ( z ) )= 0.5 D(G(ズ))=0.5D ( G ( z ) )=0.5 、つまり、入力画像が本物の画像かジェネレーターによって偽造された偽の画像かを区別することは不可能です。
ここに画像の説明を挿入
次に、下の図に示すように、GAN トレーニングのアルゴリズムを示します。下図のトレーニング アルゴリズムからわかるように、最初に勾配上昇と組み合わせた上記の目的関数を使用して K 時間弁別器をトレーニングし、次に勾配降下を組み合わせて 1 時間弁別器をトレーニングします。
ここに画像の説明を挿入
論文では、著者はまた、GANの関連する結論の数学的証明を与えました. CSDNには、関連する詳細な導出プロセスを与えた偉大な神がすでにいます. 関連する証明はここでは与えません. 興味がある場合は、移動してください.へ:GAN論文読解—— オリジナルGAN(基本概念と理論的導出). ただし、関連する結論の要約は次のとおりです。

  1. 生成確率密度分布pg p_gpg実データ分布pdata p_{data}pダタ_ _ _等しい場合、GAN の目的関数は大域的最適解を達成します。
  2. 最適識別器DDDの式は:DG ∗ ( x ) = pdata ( x ) pdata ( x ) + p G ( x ) D_{G}^{*}(x)=\frac{ { { p } _{data}} (x)}{ { {p}_{データ}}(x)+{ {p}_{G}}(x)}DG( × )=pダタ_ _ _( x ) + pG( × )pダタ_ _ _( × )の場合、GAN は最高のpg = pdata p_g = p_{data}を達成しますpg=pダタ_ _ _,,那么DG ∗ ( x ) = 0.5 D_{G}^{*}(x)=0.5DG( × )=0 . 5
  3. 1と2の2点を合わせると、実際のGANの訓練では結局pg = pdata p_g = p_{data}にできませんがpg=pダタ_ _ _、しかし、生成された「偽の画像」が実際の画像と混同される可能性があるため、可能な限りこの結果に近づくようにする必要があります。

3. 実験結果

元の GAN の実験結果を以下に示します。最初に、MNIST データセットと TFD に対する対数最尤推定を行い、実験結果を以下に示します。
ここに画像の説明を挿入
次のステップは、下の図に示すように、実験結果を視覚化し、mnist データ セット、TFD データ セット、および CIFAR-10 データ セットでそれぞれトレーニングし、中間トレーニング結果を生成することです。そのうち、図 a は mnist データセットのトレーニング結果、図 b は TFD データセットのトレーニング結果、図 c は CIFAR-10 データセットで全結合ネットワークを使用した GAN のトレーニング結果、および図 d は畳み込みとデコンボリューションの使用 CIFAR-10 データセットでの製品 GAN のトレーニング結果。
ここに画像の説明を挿入


あとがき

ここまでで、GANシリーズの第2部 - 元のGAN論文の詳細な説明が終わりました. 次回のブログでは、DCGANについて詳しく紹介します.

おすすめ

転載: blog.csdn.net/qq_30091945/article/details/101079255
おすすめ