[コンピューター ビジョン | ジェネレーティブ コンフロンテーション] ジェネレーティブ コンフロンテーション ネットワーク (GAN)

この一連のブログ投稿はディープ ラーニング/コンピューター ビジョン論文のメモです。転載する場合は出典を明記してください。

タイトル:敵対的生成ネット

リンク: Generative Adversarial Nets (nips.cc)

まとめ

私たちは、敵対的プロセスを介して生成モデルを推定するための新しいフレームワークを提案します。このフレームワークでは、2 つのモデルを同時にトレーニングします。

  • データ分布を捉える生成モデルG

  • サンプルがトレーニング データまたは G に由来する確率を推定する識別モデル D。

G のトレーニング プロセスは、D が間違いを犯す確率を最大化することです。

このフレームワークは、ミニマックス 2 プレイヤー ゲームに対応します。

任意の関数 G と D の空間には、G がトレーニング データの分布を復元し、D がどこでも 1/2 に等しいという一意の解が存在します。G と D が多層パーセプトロンによって定義される場合、システム全体はバックプロパゲーションによってトレーニングできます。トレーニングやサンプル生成中にマルコフ連鎖やアンロールされた近似推論ネットワークは必要ありません。

実験では、サンプルの定性的および定量的評価を生成することにより、フレームワークの可能性を実証します。

1 はじめに

深層学習の役割は、自然画像、音声を含む音声波形、自然言語コーパスの記号など、AI アプリケーションで遭遇するデータの種類にわたる確率分布を表す豊富な階層モデル [2] を発見することです。

これまでの深層学習の最も注目すべき成功には、識別モデル、通常は高次元の豊富な感覚入力をクラス ラベルにマッピングするモデルが含まれています [14、20]。これらの説得力のある成功は主に、特に優れた勾配挙動を持つ区分的線形ユニット [17、8、9] を使用したバックプロパゲーションおよびドロップアウト アルゴリズムに基づいています。

深い生成モデルは、最尤推定や関連戦略で発生する多くの近似が困難な確率計算と、生成設定で区分的線形単位の利点を活用することが難しいため、影響が少なくなります我々は、これらの困難を回避する新しい生成モデル推定手順を提案します。1

提案された敵対的ネットワーク フレームワークでは、生成モデルは敵対的です。

  • サンプルがモデル分布からのものであるかデータ分布からのものであるかを判断することを学習する識別モデル。生成モデルは、偽の通貨を作成し、検出されずに使用しようとする偽造者グループに似ていると見なすことができます。

  • 差別モデルは偽造通貨を探知しようとする警察に似ています

このゲームでの競争により、両チームは偽物と本物の区別がつかなくなるまで手法を改善します。

このフレームワークは、さまざまな種類のモデルおよび最適化アルゴリズム用の特定のトレーニング アルゴリズムを生成できます。

この論文では、ランダム ノイズを渡して多層パーセプトロン (MLP) を通じてサンプルを生成する生成モデルを検討しますが、識別モデルも多層パーセプトロンの特殊なケースです。この特殊なケースを敵対的ネットと呼びます。

この場合、成功率の高い逆伝播およびドロップアウト アルゴリズム [17] のみを使用して両方のモデルをトレーニングし、順伝播のみを使用して生成モデルからサンプリングできます。近似推論やマルコフ連鎖は必要ありません。

2 関連作品

これまで、深層生成モデルに関するほとんどの研究は、対数尤度関数を最大化することでトレーニングできる正規パラメータを備えた確率分布関数を提供することに焦点を当ててきました。

  • そのようなモデルの中で、おそらく最も成功したのはディープボルツマンマシンです [25]。
  • このようなモデルには扱いにくい尤度関数が含まれることが多いため、尤度勾配に対する複数の近似が必要になります。

これらの困難は、「生成機械」モデルの開発を促しました。

  • これらのモデルは尤度関数を明示的に表現しませんが、目的の分布からサンプルを生成できます。

  • 生成ランダム ネットワーク [4] は、ボルツマン マシンのような複数の近似を行わずに正確な逆伝播によってトレーニングできるジェネレーターの例です。

この論文は、生成ランダム ネットワークで使用されるマルコフ連鎖を排除することにより、ジェネレーターのアイデアを拡張します

私たちの研究では、次の観察を利用して導関数の逆伝播の生成プロセスを利用しています。
lim ⁡ σ → 0 ∇ x E ϵ ∼ N ( 0 , σ 2 I ) f ( x + ϵ ) = ∇ xf ( x ) \lim_ {\sigma \rightarrow0}\nabla_{\pmb{x}}\mathbb{E}_{\epsilon\sim\mathcal{N}(0,\sigma^{2}\pmb{I})}f(\ pmb{x }+\epsilon)=\nabla_{\pmb{x}}f(\pmb{x})σ 0リム×Eϵ N ( 0 , p2)。f ( x+) _=×f ( x )

翻訳者注: 上記の式の意味はffのものです。fの期待導関数はfffは独自の導関数を導き出します。これが、著者が GAN を解くために誤差の逆転送を使用する理由です。

当時、私たちは、Kingma と Welling [18] および Rezende et al. [23] が、有限分散のガウス分布による逆伝播と、共分散パラメータと平均パラメータへの逆伝播のための、より一般的な確率的逆伝播ルールを開発していたことを知りませんでし

  • これらのバックプロパゲーション ルールを使用すると、ジェネレーターの条件付き分散を学習できます。このホワイトペーパーでは、これをハイパーパラメーターとして扱います。

Kingma と Welling [18] および Rezende ら [23] は、確率的バックプロパゲーションを使用して変分オートエンコーダ (VAE) をトレーニングします。

  • GAN とは異なり、VAE は微分可能ジェネレーター ネットワークと 2 番目のニューラル ネットワークを組み合わせます。

  • GAN とは異なり、VAE の 2 番目のネットワークは近似推論を実行する認識モデルです。

  • GAN は目に見える単位で区別する必要があるため、離散データをモデル化できませんが、VAE は隠れた単位で区別する必要があるため、離散的な潜在変数を持つことができません。

他の VAE に似た方法も存在します [12、22] が、私たちの方法とはあまり関連性がありません。

以前の研究では、生成モデルをトレーニングするために識別基準も採用されていました [29、13]。これらの方法は、変分近似を確率の下限に近似することによっては処理できない確率の比率を必要とするため、深い生成モデルでは扱いが困難です。

ノイズ対比推定 (NCE) [13] には、固定ノイズ分布からのデータをモデルで区別できるようにする重みを学習することによって生成モデルをトレーニングすることが含まれます。

  • 以前にトレーニングされたモデルをノイズ分布として使用すると、一連のモデルを徐々に高品質にトレーニングできるようになります。これは、対戦型オンライン ゲームで使用される正式な競争メカニズムと同様の、非公式な競争メカニズムとみなすことができます

  • NCE の主な制限は、その「弁別子」がノイズ分布とモデル分布の確率密度の比によって定義されるため、これら 2 つの密度を評価して逆伝播できる必要があることです。

以前の研究では、2 つのニューラル ネットワークが互いに競合するという一般的な概念が使用されていました。最も関連する作業は予測可能性の最小化 (以下、PM)です[26]。予測可能性の最小化では、ニューラル ネットワーク内の各隠れユニットが、他のすべての隠れユニットの値に基づいてその隠れユニットの値を予測する 2 番目のネットワークの出力とは異なるようにトレーニングされます。

翻訳者注: 予測可能性の最小化は、他の隠れユニットの値を考慮して、隠れユニットを別のネットワークの出力と異なるものにすることを目的としたニューラル ネットワークのトレーニング方法です。具体的には、2 番目のネットワークは、ネットワークの特定の部分にある隠れユニットの値を予測します。予測値と異なるように隠れユニットをトレーニングすることにより、予測可能性の最小化は、ネットワークの隠れた表現が特定のタスクから統計的に独立していることを保証しようとします。これは、ネットワークの表現力と汎化パフォーマンスの向上に役立ちます。

このペーパーは、次の 3 つの重要な点で予測可能性の最小化とは異なります。

  1. この論文では、**ネットワーク間の競争が唯一のトレーニング基準であり、ネットワークをトレーニングするにはこれで十分です。予測可能性の最小化は、ニューラル ネットワークの隠れユニットが他のタスクから統計的に独立することを促進する単なる正則化であり、主要なトレーニング基準ではありません。

  2. 競争の性質が異なります。予測可能性の最小化では、2 つのネットワークの出力が比較され、一方は出力を類似させようとし、もう一方は出力を異ならせようとします。関係する出力は単一のスカラーです。GAN では、1 つのネットワークが別のネットワークへの入力として使用される豊富な高次元ベクトルを生成し、他のネットワークが処理方法を知らない入力を導出しようとします。

  3. 学習プロセスの基準は異なります。予測可能性の最小化は、最小化される目的関数の最適化問題として定式化され、目的関数の最小値を近似することを学習します。**GAN は、最適化問題ではなくミニマックス ゲームに基づいており、一方のエージェントが最大化を試みる一方で、もう一方のエージェントが最小化を試みる価値関数を持っています。**ゲームは、一方のプレイヤーの戦略では最小値であり、もう一方のプレイヤーの戦略では最大値である鞍点で終了します。

時々、人々が GAN を関連する概念「敵対的な例」と誤って混同することがあります [28]。

  • 敵対的な例は、データに似ているが誤って分類された例を見つけることを目的として、分類ネットワークの入力に対して勾配ベースの最適化手法を直接使用することによって見つかった例です。

  • 敵対的な例は生成モデルをトレーニングするためのメカニズムではないため、これは私たちの研究とは異なります。代わりに、敵対的な例は、人間の観察者にはほとんど区別がつかないように見える場合でも、ニューラル ネットワークが高い信頼性で自信を持って 2 つの画像を異なるように分類できるように、ニューラル ネットワークがどのように動作するかを示すために、主に分析ツールで使用されます。

  • このような敵対的な例の存在は、現代の識別ネットワークがそのクラスの人間が知覚できる特性をモデル化することなく自信を持ってクラスを識別できることを示しているため、GAN トレーニングが非効率である可能性を示唆しています。

3 敵対的ネットワーク

敵対的モデリング フレームワークは、モデルがすべて多層パーセプトロン (MLP) である場合に最も直接的に適用されます。

  • ジェネレーターデータx \pmb{x}を学習するにはx上のページ p_gpg、ノイズ変数pz ( z ) p_z(z)を入力します。pz( z )事前確率を定義し、マップされたデータ空間をG ( z ; θ g ) G(z;\theta_g)G ( ; _g)、ここでGGGはパラメータθ g \theta_ggで表される多層パーセプトロンの微分可能関数。

  • また、2 番目の多層パーセプトロンD ( x ; θ d ) D(\pmb{x};\theta_d) も定義します。D ( x ;d)、スカラーを出力します。D ( x ) D(\pmb{x})D ( x )はx \pmb{x}を表しますx は生成分布pg p_gpg確率。

私たちはDDを訓練しますD は、トレーニング例およびGGからの正しいラベルの割り当てを最大化します。Gのサンプルの確率。

GGも同時にトレーニングしますlogを最小化するG ⁡ ( 1 − D ( G ( z ) ) ) \log(1-D(G(z)))ログ( 1 _D ( G ( z )))

翻訳者注: 上記はもっとわかりやすく説明できます。

GAN の目的は、最も強力なディスクリミネーター (D)強力なジェネレーター (G)を取得することです。

特定のゲームレンダリング画面を模倣するために特定の方法を使用する必要がある場合、たとえば、特定のディストリビューションに準拠したゲーム(キャラクターが死亡したときなど)をレンダリングしたい場合、xxxピクセル (xxx次元) 画像x \pmb{x}xには 2 つのメソッドを含めることができます。

  1. ゲームプログラムを逆アセンブルして、「キャラクターのモデリング」や「オブジェクトの動き」など、画面の各フレームの生成に対するコードの各行の具体的な影響を理解して、画面配信の生成を完全にモデル化します。
  2. いくつかの変数 (つまり、複数の次元の変数) を定義し、これらの複数次元の変数が特定の関数関係を通じて最終的に生成されるデータx \pmb{x} に共同で影響を与えると仮定します。xの分布

前者は、「関連研究」で述べた「適合尤度関数」法、つまり「ソースへのトレース」法に似ており、この方法は非常に説明的であり、最終結果の生成に対する各パラメータの影響をよく説明できます。しかし、演算が難しく、適切な尤度関数を見つけるのも困難です。

後者は「多層パーセプトロン (MLP) 」法に似ており、理論的にはあらゆる関数の表現に適合できますが、解釈可能性は低くなります。ゲーム コードの背後にある画面へのマッピング関係がどのようなものであるかはわかりませんが、これらの数次元パラメーターは、このコンテンツの背後にある隠されたロジックを表現するのに十分であると推測します。

ただ、これらの次元の各パラメーターが分からず、最終的に結果x \pmb{x} が分からないだけです。xはどのような影響を与えるのか、各パラメータの具体的な意味は何なのか。

片付ける。論文内の各変数は次のように説明できます。


データx \pmb{x}x pg p_gの分布法則pg、これが最終結果です

  • ジェネレータG ( z ; θ g ) G(z;\theta_g)G ( ; _g)
    • 入力: ランダム ノイズpz ( z ) p_z(z)から取得pz( z )初期化データzzz
    • パラメータ: θ g \theta_gg
    • 出力: x \pmb{x}x (例:xx)x次元の画像x \pmb{x}×
    • 優秀な発電機GGG、可能な限り生成できる
      • 実際のデータに近いx \pmb{x}バツ
      • 真の分布に近いpg p_gpg
  • 識別子D ( x ; θ d ) D(\pmb{x};\theta_d)D ( x ;d)
    • 入力: x \pmb{x}バツ
    • パラメータ: θ d \theta_dd
    • 出力: x \pmb{x}を表すスカラーx は、生成された分布pg p_gではなく実際のデータから取得されます。pgサンプリングの確率。
      • x \pmb{x}x が実際のデータに由来する可能性が高いほど、出力D ( x ) D(\pmb{x})D ( x )が1 1近づくほど1
      • x \pmb{x}x がジェネレーターから得られる可能性が高いほど、出力D ( x ) D(\pmb{x})D ( x )は0 0近づくほど0
    • 優れた識別子DDD、可能な限り決定できる
      • x \pmb{x}xのソースはジェネレータですか?
      • x \pmb{x}xのソースは、真の分布のサンプリングです

GANのトレーニングはGGを同時にトレーニングすることですGDDD であり、両方とも優れた基準を満たすことが期待されます。

より良いGGを育成するためにGについて、著者は log ⁡ ( 1 − D ( G ( z ) ) ) \log(1-D(G(z))) という尺度を提案します。ログ( 1 _D ( G ( z ))) では、この式で表される内容はできるだけ小さくする必要があります。この式を注意深く分析してみましょう。

  • グーグーz は初期化のためのランダムな入力を表します
  • G ( z ) G(z)G ( z )はジェネレータによって生成された結果を表します。これは実際の分布のサンプリングに近いと予想されます。
    • つまり、ジェネレータGGはG は、より「真の」偽データを作成します。
  • D ( G ( z ) ) D(G(z))D ( G ( z )) は、識別子DDD判別ジェネレータGGGによって生成された結果。この結果は1 1に近いと予想されます。1
    • つまり、識別子DDがD は結果G ( z ) G(z) をG ( z )は真の分布からのサンプルです
  • D ( G ( z ) ) D(G(z))の場合のみD ( G ( z ))が1 1近づくほど1回、log ⁡ ( 1 − D ( G ( z ) ) ) \log(1-D(G(z)))ログ( 1 _D ( G ( z ))) は負の無限大 ( − ∞ -\infty)に近づきます。
    • これはテキストに「log ⁡ ( 1 − D ( G ( z ) ) ) \log(1-D(G(z))) を最小化する」と書かれていることです。ログ( 1 _D ( G ( z )))」の理由

つまり、DDDGGG は次の 2 人プレイのミニマックス ゲームをプレイします。値関数はV ( G , D ) V(G,D)V ( G D )

min ⁡ G max ⁡ DV ( D , G ) = E x 〜 p data ( x ) [ log ⁡ D ( x ) ] + E z 〜 pz ( x ) [ log ⁡ ( 1 − D ( G ( z ) ) ) ] (1) \mathop{\min}\limits_{G}\mathop{\max}\limits_{D}V(D,G)=\mathbb{E}_{x\sim{p_{\text{data }}(x)}}[\log D(x)]+\mathbb{E}_{z\sim{p_{z}(x)}}[\log(1 - D(G(z))) ]\タグ{1}GDマックスV ( D G )=Ex pデータ( x )[ログ_D ( × )]+Ez pz( x )[ログ( 1 _D ( G ( z )))]( 1 )

翻訳者注:式 ( G , D ) V(G,D) に V を書かないでください。V ( G D )と書き込み、V ( D , G ) V(D,G)V ( D G )、それは作者による事務ミスのはずです。

  • E x 〜 p data ( x ) [ log ⁡ D ( x ) ] \mathbb{E}_{x\sim{p_{\text{data}}(x)}}[\log D(x)]Ex pデータ( x )[ログ_xxin D ( x )]xは真の値の分布からサンプリングされます
    • 識別子DD内Dが完全であれば、すべてのxxを識別できるはずですx は実際の分布からのサンプルです
    • D ( x ) D(x)D ( x )は1 1に向かう傾向があるはずです1の、log ⁡ D ( x ) \log D(x)ログ_D ( x )は0 0の傾向があるはずです0 _
    • そうすれば、期待値は0 0になるはずです0 _
  • E z 〜 pz ( x ) [ log ⁡ ( 1 − D ( G ( z ) ) ) ] \mathbb{E}_{z\sim{p_{z}(x)}}[\log(1 - D( G(z)))]Ez pz( x )[ログ( 1 _zzin D ( G ( z )))]ランダム ノイズでサンプリングされたz pz ( z ) p_z(z)pz( z )
    • ジェネレーターGGGと識別子DDDが完全な場合DDD はすべてのG ( z ) G(z)を識別できる必要があります。G ( z )はすべてジェネレータからの結果です
    • D ( G ( z ) ) D(G(z))D ( G ( z ))は0 0になる傾向があるはずです0の、log ⁡ ( 1 − D ( G ( z ) ) ) \log(1-D(G(z)))ログ( 1 _D ( G ( z )))も0 0になる傾向があるはずです0 _
    • そうすれば、期待値も0 0になるはずです。0 _
  • 最大 ⁡ D \mathop{\max}\limits_{D}DマックスDDであるという期待を示します。Dミスをしないように努める、つまりDD をDの値。
  • 分 ⁡ G \mathop{\min}\limits_{G}G期待を表現するGGGはDDを作ることができますD間違いを犯そうとする、つまりGG をGの値。

次のセクションでは、敵対的ネットワークの理論的分析を提供します。基本的に、トレーニング基準により次のことが可能であることを示します。GDDDの十分な容量の場合、つまりノンパラメトリック制約下の場合、リカバリ データ生成の分布。

形式的ではありませんが、よりよく理解できる方法論の説明については、図 1 を参照してください。

図 1: GAN は判別分布 ( DD)を同時に更新しますD 、青、点線) px p_x をデータ生成分布 (黒、点線) からp×生成ディストリビューションpg p_gを使用pgGGG ) (緑色、実線) サンプル。下の横線はzzzの一様にサンプリングされたドメイン上の横線はxxxのドメインの一部上向きの矢印は、x = G ( z ) x = G(z) のマッピングを示しています。バツ=G ( z )が変換されたサンプルにpg p_gpgGG _G inpg p_gpg高密度領域は縮小し、低密度領域は拡大します。(a) 収束に近い敵対ペアを考えます: pg p_gpgpdata p_{data}pダタ_ _ _DDに似ているD は部分的に正確な分類器です。(b) アルゴリズムの内部ループでは、DDDはデータからサンプルを区別するようにトレーニングされ、D ∗ ( x ) = pdata ( x ) pdata ( x ) + pg ( x ) D^*(x) = \frac{p_{data}(x)}{ に収束します。 p_{データ}(x)+p_g(x)}D (×)=pダタ_ _ _( x ) + pg( × )pダタ_ _ _( x )© アップデートGGGDDDガイドG ( z ) G(z)G ( z ) は、データとして分類される可能性が高い領域に流れます。(d) 複数のトレーニングセッションの後、GGGDDD には十分な容量があり、 pg = pdata p_g = p_{data}になる点に達します。pg=pダタ_ _ _現時点では、識別器はこれら 2 つの分布を区別できません。つまり、D ( x ) = 1 2 D(x) = \frac{1}{2}D ( × )=21

実際には、反復数値手法を使用してゲームを実装する必要があります。トレーニングの内部ループでDD を完全に最適化するDは計算量が法外であり、限られたデータセットでの過剰適合につながる可能性があります。代わりに、 DD を最適化しています。Dの k ステップGGGのステップを交互に実行します。GGである限りG はDDになるほどゆっくりと変化します。D は最適解に近いままです。この手順はアルゴリズム 1 で正式に示されています。

実際には、式 1 ではGGに十分な勾配が得られない可能性があります。G良い勉強になりました。学習の初期段階、GGG のパフォーマンスが悪い場合、DDD は、サンプルがトレーニング データと大幅に異なるため、高い信頼度でサンプルを拒否できます。この場合、log ⁡ ( 1 − D ( G ( z ) ) ) \log(1 - D(G(z)))ログ( 1 _D ( G ( z ))) は飽和します。GGを訓練できるlogを最大化するG ⁡ D ( G ( z ) ) \log D(G(z))ログ_D ( G ( z )) 、トレーニングGGの代わりにlogを最小化するG ⁡ ( 1 − D ( G ( z ) ) ) \log(1 - D(G(z)))ログ( 1 _D ( G ( z )))この目的関数はGGGDDDのダイナミクスは同じ固定点ですが、学習の初期段階でより強い勾配を提供します。

4 理論的結果

ジェネレーターGGG は確率分布pg p_gpg,当z 〜 pzz \sim p_zzpz、この分布はサンプルとして機能しますG ( z ) G(z)G ( z )の分布。したがって、十分な容量とトレーニング時間が与えられると、アルゴリズム 1 はpdata p_{data}pダタ_ _ _の優れた推定値です。このセクションの結果はノンパラメトリック設定で行われます。たとえば、確率密度関数の空間での収束を研究することで無限の容量を持つモデルを表します。

アルゴリズム 1 は、GAN のミニバッチ確率的勾配降下トレーニングに使用されます。識別子kkに適用するステップ数kはハイパーパラメータです。実験ではk = 1 k = 1k=1、これは最も安価なオプションです。


  • トレーニングの反復回数に対して

    • kステップ実行します

      • pg ( z ) p_g(z)前のノイズからpg( z )サンプル m ノイズ サンプル{ z ( 1 ) , … , z ( m ) } \{z^{(1)}, \ldots, z^{(m)}\}{ z( 1 )z( m ) }
      • データから分布pdata( x ) p_{data}(x)を生成するpダタ_ _ _( x )サンプル m サンプル{ x ( 1 ) , … , x ( m ) } \{x^{(1)}, \ldots, x^{(m)}\}{ ×( 1 )バツ( m ) }
      • 確率的勾配をブーストして識別器を更新します。

      ∇ θ d 1 m ∑ i = 1 m [ log ⁡ D ( x ( i ) ) + log ⁡ ( 1 − D ( G ( z ( i ) ) ) ) ] \nabla \theta_d \frac{1}{m} \sum_{i=1}^{m} \left[ \log D \left( x^{(i)} \right) + \log \left( 1 - D \left( G \left( z^{( i)} \right) \right) \right) \right]∇θ _dメートル1i = 1メートル[ログ_D( ×( i ) )+ログ_( 1D( G( z( i ) ))]_

    • 終わります

    • pg ( z ) p_g(z)前のノイズからpg( z )サンプル m ノイズ サンプル{ z ( 1 ) , … , z ( m ) } \{z^{(1)}, \ldots, z^{(m)}\}{ z( 1 )z( m ) }

    • 確率的勾配を減少させてジェネレータを更新します。

    ∇ θ g 1 m ∑ i = 1 m log ⁡ ( 1 − D ( G ( z ( i ) ) ) ) \nabla \theta_g \frac{1}{m} \sum_{i=1}^{m} \ log \left( 1 - D \left( G \left( z^{(i)} \right) \right) \right)∇θ _gメートル1i = 1メートルログ_( 1D( G( z( i ) )))

  • 終わります

勾配ベースの更新では、標準の勾配ベースの学習ルールを使用できます。私たちは実験で勢いを利用しました。

4.1 pg = pdata p_g = p_{data}pg=pダタ_ _ _大域的な最適性

まず、任意のジェネレーターGGを検討します。Gに最適な識別器DDD。 _

命題 1固定GGの場合G、最適識別子DDD =
DG ∗ ( x ) = pdata ( x ) pdata ( x ) + pg ( x ) (2) D^*_G(x) = \frac{p_{data}(x)}{p_{data}(x ) + p_g(x)} \tag{2}DG( × )=pダタ_ _ _( × )+pg( × )pダタ_ _ _( x )( 2 )

証明: 任意のジェネレーターGGが与えられた場合G、識別子DDDのトレーニング基準は、V ( G , D ) V(G, D) の量を最大化することです。V ( G D )

V ( G , D ) = ∫ xpdata ( x ) log ⁡ ( D ( x ) ) dx + ∫ zpz ( z ) log ⁡ ( 1 − D ( g ( z ) ) ) dz = ∫ xpdata ( x ) log ⁡ ( D ( x ) ) + pg ( x ) log ⁡ ( 1 − D ( x ) ) dx (3) \begin{align} V(G, D) & = \int_x p_{data}(x) \log(D (x))dx + \int_z p_z(z) \log(1 - D(g(z)))dz \\ & = \int_x p_{data}(x) \log(D(x)) + p_g( x) \log(1 - D(x))dx \end{align} \tag{3}V ( G D )=×pダタ_ _ _( × )log ( D ( x ) ) d x+zpz( z )ログ( 1 _D ( g ( z ))) d z=×pダタ_ _ _( × )ログ( D ( x ) )+pg( × )ログ( 1 _D ( x )) d x( 3 )

任意の( a , b ) ∈ R 2 ∖ { 0 , 0 } (a, b) \in \mathbb{R}^2 \setminus \{0, 0\} について( _b )R2{ 0 ,0 },関数数y → a log ⁡ ( y ) + b log ⁡ ( 1 − y ) y \rightarrow a \log(y) + b \log(1 - y)yあるログ( y ) _+bログ( 1 _y ) [0, 1] [0, 1][ 0 ,1 ]を最大値、つまりaa + b \frac{a}{a+b}a + b識別子はS upp ( pdata ) ∪ S upp ( pg ) Supp(p_{data}) \cup Supp(p_g) にある必要はありません。補足( p _ _ダタ_ _ _)補足( p _ _g)証明を得るために、定義の外にあります。

DDに注意してくださいDのトレーニング目標は、条件付き確率P ( Y = y ∣ x ) P(Y = y|x) をP ( Y)=y x )、ここでYYYはxxを意味しますx はpdata p_{data}か?pダタ_ _ _(当y = 1 y = 1y=1 ) またはpg p_gpg(当y = 0 y = 0y=0時間)。ここで、式 1 のミニマックス ゲームは次のように再定式化できます。

C ( G ) = 最大 ⁡ DV ( G , D ) = E x 〜 pdata [ log ⁡ DG ∗ ( x ) ] + E z 〜 pz [ log ⁡ ( 1 − DG ∗ ( G ( z ) ) ) ] = E x 〜 pdata [ log ⁡ DG ∗ ( x ) ] + E x 〜 pg [ log ⁡ ( 1 − DG ∗ ( x ) ) ] = E x 〜 pdata [ log ⁡ pdata ( x ) pdata ( x ) + pg ( x ) ] + E x 〜 pg [ log ⁡ pg ( x ) pdata ( x ) + pg ( x ) ] (4) \begin{align} C(G) & = \max_{D} V (G, D) \ \ & = \mathbb{E}_{x\sim p_{data}} [\log D^*_{G}(x)] + \mathbb{E}_{z\sim p_z} [\log(1) - D^*_{G}(G(z)))] \\ & = \mathbb{E}_{x\sim p_{data}} [\log D^*_{G}(x)] + \mathbb{E}_{x\sim p_g} [\log(1 - D^*_{G}(x))] \\ & = \mathbb{E}_{x\sim p_{data}} \ left[ \log \frac{p_{data}(x)}{p_{data}(x) + p_g(x)} \right] + \mathbb{E}_{x\sim p_g} \left[ \log \frac{p_g(x)}{p_{data}(x) + p_g(x)} \right] \end{align} \tag{4}C ( G )=DマックスV ( G D )=Ex pダタ_ _ _[ログ_DG( × )]+Ez pz[ログ( 1 _DG( G ( z )))]=Ex pダタ_ _ _[ログ_DG( × )]+Ex pg[ログ( 1 _DG( × ))]=Ex pダタ_ _ _[ログ_pダタ_ _ _( × )+pg( × )pダタ_ _ _( x )]+Ex pg[ログ_pダタ_ _ _( × )+pg( × )pg( x )]( 4 )

定理 1 pg = pdata p_g = p_{data}の場合にのみpg=pダタ_ _ _、仮想トレーニング基準C ( G ) C(G)C ( G )はグローバル最小値に達します。そのときC ( G ) C(G)C ( G )は値− log ⁡ 4 - \log 4ログ_4

証明: pg = pdata p_g = p_{data}の場合pg=pダタ_ _ _DG ∗ ( x ) = 1 2 D^*_G(x) = \frac{1}{2}DG( × )=21(式 2 を参照)。したがって、DG ∗ ( x ) = 1 2 D^*_G(x) = \frac{1}{2}より、DG( × )=21方程式 4 を調べると、C ( G ) = log ⁡ 1 2 + log ⁡ 1 2 = − log ⁡ 4 C(G) = \log \frac{1}{2} + \log \frac{1} であることがわかります。 { 2} = - \log 4C ( G )=ログ_21+ログ_21=ログ_これを見るにはC ( G ) C(G)pg = pdata p_g = p_{data}の場合のみ、 C ( G )の可能な最良の値pg=pダタ_ _ _ご連絡いたしますので、ご了承ください

E x 〜 pdata [ − log ⁡ 2 ] + E x 〜 pg [ − log ⁡ 2 ] = − log ⁡ 4 \mathbb{E}_{x\sim p_{data}} [- \log 2] + \mathbb {E}_{x\sim p_g} [- \log 2] = - \log 4Ex pダタ_ _ _[ ログ_2 ]+Ex pg[ ログ_2 ]=ログ_4

そしてC ( G ) = V ( DG ∗ , G ) C(G) = V (D^*_G, G)から始めます。C ( G )=V ( DGこの式をG )から減算すると、次のようになります。

C ( G ) = − log ⁡ ( 4 ) + KL ( pdata | | pdata + pg 2 ) + KL ( pg | | pdata + pg 2 ) (5) C(G) = - \log(4) + \text {KL} \left( p_{data} \middle| \middle| \frac{p_{data} + p_g}{2} \right) + \text{KL} \left( p_g \middle| \middle| \frac {p_{data} + p_g}{2} \right) \tag{5}C ( G )=ログ( 4 ) _+クアラルンプール( pダタ_ _ _ 2pダタ_ _ _+pg)+クアラルンプール( pg 2pダタ_ _ _+pg)( 5 )

ここで、KL はカルバックとライブラーの発散です。上記の式で、モデル分布とデータ生成プロセスの間のジェンセン – シャノンの相違を特定します。

C ( G ) = − log ⁡ ( 4 ) + 2 ⋅ JSD ( pdata ∥ pg ) (6) C(G) = - \log(4) + 2 \cdot \text{JSD}(p_{data}\Parallel p_g) \tag{6}C ( G )=ログ( 4 ) _+2JSD ( pダタ_ _ _pg)( 6 )

2 つの分布間のジェンセン・シャノンの発散は常に非負であり、それらが等しい場合にのみゼロであるため、C ∗ = − log ⁡ ( 4 ) C^* = - \log(4) であることが示されました。C=log g ( 4 )はC ( G ) C(G)ですC ( G )のグローバル最小値、唯一の解はpg = pdata p_g = p_{data}pg=pダタ_ _ _つまり、生成モデルはデータ生成プロセスを完全に複製します。

4.2 アルゴリズムの収束 1

提案 2 GGの場合GDDDには十分な容量があり、アルゴリズム 1 の各ステップで、識別子DD特定のGGのDGの場合、最適値に達し、pg p_gpg基準を改善するために更新されました
E x 〜 pdata [ log ⁡ DG ∗ ( x ) ] + E x 〜 pg [ log ⁡ ( 1 − DG ∗ ( G ( x ) ) ) ] \mathbb{E}_{x\sim p_ {data}} [\log D^*_{G}(x)] + \mathbb{E}_{x\sim p_g} [\log(1 - D^*_{G}(G(x)) ))]Ex pダタ_ _ _[ログ_DG( × )]+Ex pg[ログ( 1 _DG( G ( x )))]

それからpg p_gpgpdata p_{data}に収束pダタ_ _ _

証明: V ( G , D ) = U ( pg , D ) V(G, D) = U(p_g, D) を考えます。V ( G D )=U ( pgD ) aspg p_gpg上記の基準と同様に、 の関数です。U ( pg , D ) U(p_g, D)に注意してください。U ( pgD )ページp_gpg真ん中が凸になっています。凸関数の最大値の部分微分には、最大値がとられる点における関数の微分が含まれます。つまり、f ( x ) = sup ⁡ α ∈ A f α ( x ) f(x) = \sup_{\alpha\in A} f_\alpha(x) の場合f ( x )=すするα∈A _ _fある( x )f α ( x ) f_\alpha(x)fある( x )α \alphaxxαxが凸である場合、∂ f β ( x ) ∈ ∂ f \partial f_\beta(x) \in \partial ffb( × )f ifβ = arg ⁡ sup ⁡ α ∈ A f α ( x ) \beta = \arg \sup_{\alpha\in A} f_\alpha(x)b=arg _すするα∈A _ _fある( × )これは、指定された形式GGGに最適なDDDの場合pg p_gpgの勾配降下の更新。sup ⁡ DU ( pg , D ) \sup_D U(p_g, D)すするDU ( pgD )ページp_gpgは凸であり、定理 1 で証明されているように、固有の大域的最適値を持ちます。したがって、pg p_gによって決まります。pg十分な小規模な更新の場合は、pg p_gpgpx p_xに収束しますp×、証明につながります。

実際、敵対的ネットワークは関数G ( z ; θ g ) G(z; \theta_g)を渡します。G ( ; _g)はpg p_gを意味しますpg分布を計算し、θ g \theta_gを最適化します。gpg p_gの代わりにpg自体。多層パーセプトロンを使用したGGの定義G はパラメータ空間に複数の臨界点を導入します。ただし、実際の多層パーセプトロンの優れたパフォーマンスは、理論的な保証がないにもかかわらず、多層パーセプトロンが合理的なモデルであることを示しています。

5つの実験

私たちは、MNIST [21]、Toronto Face Database (TFD) [27]、CIFAR-10 [19] などのさまざまなデータセットで敵対的ネットワークをトレーニングしました。ジェネレーター ネットワークは、整流された線形アクティベーション [17,8] とシグモイド アクティベーションを組み合わせて使用​​しますが、ディスクリミネーター ネットワークは maxout [9] アクティベーションを使用します。Dropout [16] は、弁別ネットワークをトレーニングするときに適用されます。私たちの理論的枠組みでは、ジェネレーターの中間層でドロップアウトやその他のノイズを使用できますが、ジェネレーター ネットワークの最下位層への入力としてノイズのみを使用します。

ガウス パルゼン ウィンドウを次のように当てはめてGG を使用します。G はサンプルを生成し、この分布に基づく対数尤度を報告して、pg pgp gの下の確率ガウスの σ パラメータは、検証セットの相互検証によって取得されます。この手順はもともと Breuleux らの研究 [7] で導入され、正確な尤度が実現できないさまざまな生成モデルに使用されてきました [24、3、4]。結果を表 1 に示します。この尤度推定方法は分散が大きく、高次元空間ではうまく機能しませんが、私たちが知る限り、利用可能な最良の方法です。サンプリングはできるものの、尤度を直接推定することはできない生成モデルの進歩により、そのようなモデルを評価する方法についてさらなる研究が行われるようになりました。

表 1: パルゼン ウィンドウに基づく対数尤度推定。MNIST で報告される数値は、テスト セット サンプルの平均対数尤度であり、平均の標準誤差がサンプルに対して計算されます。TFD では、データセットのフォールドに基づいて標準誤差を計算し、各フォールドの検証セットを使用して異なる σ を選択しました。TFD では、各フォールドで σ の交差検証が実行され、各フォールドの平均対数尤度が計算されました。MNIST の場合、データセットの (バイナリではなく) 実数値バージョンで他のモデルと比較します。

図 2 と 3 に、トレーニング後にジェネレーター ネットワークから抽出されたサンプルを示します。これらのサンプルが既存の方法で生成されたサンプルよりも優れているとは主張しませんが、これらのサンプルは少なくとも文献内のより優れた生成モデルに匹敵し、敵対的フレームワークの可能性を強調していると考えています。

図 2: モデル サンプルの視覚化。一番右の列には、モデルがトレーニング セットを記憶していないことを示すために、隣接するサンプルの最新のトレーニング例が表示されます。サンプルはかなりランダムな抽選であり、厳選されたものではありません。深層生成モデルの他のほとんどの視覚化とは異なり、これらの画像は、隠れたユニット サンプルによって与えられる条件付き平均ではなく、モデル分布からの実際のサンプルを示します。さらに、サンプリング プロセスはマルコフ連鎖混合に依存しないため、これらのサンプルには相関がありません。a) MNIST b) TFD c) CIFAR-10 (完全接続モデル) d) CIFAR-10 (畳み込み弁別器および「逆畳み込み」ジェネレーター)

図 3: 完全なモデルの Z 空間座標間の線形補間によって得られた数値。

6 メリットとデメリット

この新しいフレームワークには、以前のモデリング フレームワークに比べて長所と短所があります。主な欠点は、 pg ( x ) pg(x)への参照がないことです。トレーニング中のp g ( x )およびDDDはGGと一緒にいる必要がありますGは十分に同期されています (特に、DD をDオーバートレーニングGGのケースG 、 GGが発生する「Helvetica シナリオ」を回避するためGは多すぎるでしょうzzz値は同じxxpdata p_data をモデル化するのに十分な多様性がないようなx値pda t a )、ちょうどボルツマンマシンが学習ステップ間に負の連鎖を維持しなければならないのと同じです。利点は、マルコフ連鎖がまったく必要なく、勾配を取得するためにバックプロパゲーションのみが使用され、学習中に推論が必要なく、さまざまな関数をモデルに組み込むことができることです。表 2 は、GAN と他の生成モデリング手法との比較をまとめたものです。

表 2: 生成モデリングの課題: 深層生成モデリングのさまざまなアプローチで遭遇する主な運用上の問題の概要。

上記の利点は主に計算上の利点です。敵対的モデルは、生成ネットワークがデータ例で直接更新されず、弁別器を流れる勾配を介してのみ更新されるという事実から、統計的な利点を得る可能性もあります。これは、入力のコンポーネントがジェネレーターの引数に直接コピーされないことを意味します。敵対的ネットワークのもう 1 つの利点は、マルコフ連鎖に基づく方法ではチェーンがモード間で混合できるように分布を多少ぼやかす必要があるのに対し、敵対的ネットワークは非常にシャープで縮退した分布さえも表現できることです。

7 結論と今後の課題

このフレームワークでは、多くの簡単な拡張が可能です。

  1. ccを追加することでc GGとしてGDDDの入力は、条件付き生成モデルp ( x ∣ c ) p(x | c)p ( x c )
  2. 補助ネットワークをトレーニングして特定のxxを予測することによってxzzz、学習された近似推論を実行できます。これは、ウェイクスリープ アルゴリズム [15] によってトレーニングされた推論ネットに似ていますが、スパニング ネットのトレーニングが終了した後、固定スパニング ネットに対して推論ネットをトレーニングできるという利点があります。
  3. ほぼすべての条件について、p ( x S ∣ x S not ) p(x_S | x_{S_{not}}) は、共有パラメーターを使用して条件付きモデルのセットをトレーニングすることでトレーニングできます。p ( xSxSない_ _)モデリングの場合、SSSはxxですxのインデックスのサブセット基本的に、決定論的 MP-DBM [10] の確率的拡張は、敵対的ネットを使用して実現できます。
  4. 半教師あり学習: 限られたラベル付きデータしか利用できない場合、弁別器または推論ネットワークの特徴によって分類器のパフォーマンスを向上させることができます。
  5. 効率の向上:より良い方法の設計によるGGの調整GDDD 、またはトレーニング中にzzzの分布を改善すると、

この論文は、敵対的モデリング フレームワークの実現可能性を実証しており、これらの研究の方向性が役立つ可能性があることを示唆しています。

ありがとう

有益な議論をしていただいた Patrice Marcotte、Olivier Delalleau、Kyunghyun Cho、Guillaume Alain、Jason Yosinski に感謝いたします。Yann Dauphin が Parzen ウィンドウの評価コードを共有してくれました。Pylearn2 [11] と Theano [6,1] の開発者、特にこのプロジェクトをサポートして Theano 機能を急いでリリースした Frédéric Bastien に感謝します。Arnaud Bergeron は、LATEX 組版で切望されていたサポートを提供しました。また、資金提供をしていただいた CIFAR および Canada Researchchairs、コンピューティング リソースを提供していただいた Compute Canada および Calcul Québec に感謝いたします。Ian Goodfellow は、2013 年の Google Fellowship in Deep Learning によって支援されました。最後に、私たちの創造性を刺激してくださった Les Trois Brasseurs に感謝いたします。

参考文献

  1. Bastien, F.、Lamblin, P.、Pascanu, R.、Bergstra, J.、Goodfellow, IJ、Bergeron, A.、Bouchard, N.、および Bengio, Y. (2012). Theano: 新機能と速度改良点。深層学習と教師なし特徴学習に関する NIPS 2012 ワークショップ。
  2. Bengio, Y. (2009). 人工知能のためのディープ アーキテクチャの学習。現在は出版社。
  3. Bengio, Y.、Mesnil, G.、Dauphin, Y.、および Rifai, S. (2013). 深度表現によるミキシングの改善。ICML'13 について。
  4. Bengio, Y.、Thibodeau-Laufer, E.、および Yosinski, J. (2014a). 逆伝播によって訓練された深い生成ランダム ネットワーク。ICML'14 について。
  5. Bengio, Y.、Thibodeau-Laufer, E.、Alain, G.、および Yosinski, J. (2014b). 逆伝播によって訓練されたディープ生成ランダム ネットワーク。第 30 回機械学習国際会議 (ICML'14) の議事録。
  6. Bergstra, J.、Breuleux, O.、Bastien, F.、Lamblin, P.、Pascanu, R.、Desjardins, G.、Turian, J.、Warde-Farley, D.、および Bengio, Y. (2010) . Theano: CPU および GPU の数式コンパイラー。Python の科学的コンピューティング会議 (SciPy) の議事録。口頭報告。
  7. Breuleux, O.、Bengio, Y.、および Vincent, P. (2011). RBM 由来のプロセスからの代表サンプルの迅速な生成。ニューラル コンピューティング、23(8)、2053 ~ 2073。
  8. Glorot, X.、Bordes, A.、および Bengio, Y. (2011). ディープ スパース整流器ニューラル ネットワーク。AISTATS'2011年。
  9. Goodfellow, IJ、Warde-Farley, D.、Mirza, M.、Courville, A.、および Bengio, Y. (2013a)、最大出力ネットワーク。ICML'2013 にて。
  10. Goodfellow, IJ、Mirza, M.、Courville, A.、および Bengio, Y. (2013b). マルチ予測ディープ ボルツマン マシン。生理研2013にて。
  11. Goodfellow, IJ、Warde-Farley, D.、Lamblin, P.、Dumoulin, V.、Mirza, M.、Pascanu, R.、Bergstra, J.、Bastien, F.、および Bengio, Y. (2013c)。 Pylearn2: 機械学習研究ライブラリ。arXiv プレプリント、番号: arXiv:1308.4214。
  12. Gregor, K.、Danihelka, I.、Mnih, A.、Blundell, C.、および Wierstra, D. (2014)、ディープ自己回帰ネットワーク。ICML'2014にて。
  13. Gutmann, M. および Hyvarinen, A. (2010). ノイズ対比推定: 非正規化統計モデル推定への新しいアプローチ。第 13 回人工知能と統計に関する国際会議 (AISTATS'10) にて。
  14. Hinton, G.、Deng, L.、Dahl, GE、Mohamed, A.、Jaitly, N.、Senior, A.、Vanhoucke, V.、Nguyen, P.、Sainath, T.、および Kingsbury, B. ( 2012a). 音声認識におけるディープ ニューラル ネットワーク。IEEE 信号処理マガジン、29(6)、82 ~ 97。
  15. Hinton, GE、Dayan, P.、Frey, BJ、および Neal, RM (1995). 教師なしニューラル ネットワーク用のウェイクスリープ アルゴリズム。科学、268、1558–1161。
  16. Hinton, GE、Srivastava, N.、Krizhevsky, A.、Sutskever, I.、および Salakhutdinov, R. (2012b). 特徴検出器の同時適応を防止することによるニューラル ネットワークの改善。技術レポート、番号: arXiv:1207.0580。
  17. Jarrett, K.、Kavukcuoglu, K.、Ranzato, M.、および LeCun, Y. (2009). オブジェクト認識に最適なマルチレベル アーキテクチャは何ですか? コンピュータ ビジョンに関する国際会議 (ICCV'09) の議事録、2146 ~ 2153 ページ。IEEE。
  18. Kingma, DP および Welling, M. (2014). 変分ベイジアンの自動エンコーディング。学習表現に関する国際会議 (ICLR) の議事録。
  19. Krizhevsky, A. および Hinton, G. (2009). 小さな画像から多層特徴を学習します。トロント大学の技術レポート。
  20. Krizhevsky, A.、Sutskever, I.、および Hinton, G. (2012). 深層畳み込みニューラル ネットワークを使用した ImageNet 分類。生理学研究所2012年にて。
  21. LeCun, Y.、Bottou, L.、Bengio, Y.、および Haffner, P. (1998) 勾配ベースの文書認識。IEEE 議事録、86(11)、2278–2324。
  22. Mnih, A. および Gregor, K. (2014). 神経変分推論と信念ネットワークによる学習。技術レポート、番号: arXiv:1402.0030。
  23. Rezende, DJ、Mohamed, S.、および Wierstra, D. (2014). 深い生成モデルにおける確率的逆伝播と近似推論。技術レポート、番号: arXiv:1401.4082。
  24. Rifai, S.、Bengio, Y.、Dauphin, Y.、および Vincent, P. (2012). サンプル縮小オートエンコーダーの生成プロセス。ICML'12 について。
  25. Salakhutdinov, R. および Hinton, GE (2009). ボルツマン マシンの深さ。AISTATS'2009、448 ~ 455 ページ。
  26. Schmidhuber, J. (1992). 予測可能性の最小化による因子コードの学習。ニューラルコンピューティング、4(6)、863–879。
  27. Susskind, J.、Anderson, A.、および Hinton, GE (2010)、Toronto Faces Dataset。トロント大学技術レポート番号: UTML TR 2010-001。
  28. Szegedy, C.、Zaremba, W.、Sutskever, I.、Bruna, J.、Erhan, D.、Goodfellow, IJ、および Fergus, R. (2014). ニューラル ネットワークの特異なプロパティ。ICLR、番号: abs/1312.6199。
  29. Tu, Z. (2007). 識別手法による生成モデルの学習。コンピュータビジョンとパターン認識、2007 年。CVPR'07。IEEE 国際会議、1 ~ 8 ページ。IEEE。

参考文献

  1. Bastien, F.、Lamblin, P.、Pascanu, R.、Bergstra, J.、Goodfellow, IJ、Bergeron, A.、Bouchard, N.、および Bengio, Y. (2012)。Theano: 新機能と速度の向上。深層学習と教師なし特徴学習 NIPS 2012 ワークショップ。
  2. ベンジオ、Y. (2009)。AI のディープ アーキテクチャを学習します。現在は出版社。
  3. Bengio, Y.、Mesnil, G.、Dauphin, Y.、および Rifai, S. (2013)。深い表現によるミキシングの向上。ICML'13 にて。
  4. Bengio, Y.、Thibodeau-Laufer, E.、および Yosinski, J. (2014a)。バックプロップによってトレーニング可能な深い生成確率ネットワーク。ICML'14にて。
  5. Bengio, Y.、Thibodeau-Laufer, E.、Alain, G.、および Yosinski, J. (2014b)。バックプロップによってトレーニング可能な深い生成確率ネットワーク。第 30 回機械学習国際会議 (ICML'14) の議事録。
  6. Bergstra , J. 、Breuleux , O. 、Bastien , F. 、Lamblin , P. 、Pascanu , R. 、Desjardins , G. 、Turian , J. 、Warde-Farley , D. 、および Bengio , Y. (2010) . . . . . Theano: CPU および GPU の数式コンパイラー。Python for Scientific Computing Conference (SciPy) の議事録。口頭発表。
  7. Breuleux, O.、Bengio, Y.、および Vincent, P. (2011)。RBM 由来のプロセスから代表的なサンプルを迅速に生成します。ニューラル コンピューティング、23(8)、2053 ~ 2073。
  8. Glorot, X.、Bordes, A.、および Bengio, Y. (2011)。深いスパース整流器ニューラル ネットワーク。AISTATS'2011年。
  9. Goodfellow, IJ、Warde-Farley, D.、Mirza, M.、Courville, A.、および Bengio, Y. (2013a)。マックスアウトネットワーク。ICML'2013 にて。
  10. IJ グッドフェロー、M. ミルザ、A. クールヴィル、Y. ベンジオ (2013b)。マルチ予測のディープボルツマンマシン。生理研2013にて。
  11. Goodfellow, IJ、Warde-Farley, D.、Lamblin, P.、Dumoulin, V.、Mirza, M.、Pascanu, R.、Bergstra, J.、Bastien, F.、および Bengio, Y. (2013c)。Pylearn2: 機械学習研究ライブラリ。arXiv プレプリント arXiv:1308.4214。
  12. Gregor, K.、Danihelka, I.、Mnih, A.、Blundell, C.、および Wierstra, D. (2014)。深い自己回帰ネットワーク。ICML'2014にて。
  13. グットマン、M. およびハイヴァリネン、A. (2010)。ノイズ対比推定: 正規化されていない統計モデルの新しい推定原理。第 13 回人工知能と統計に関する国際会議 (AISTATS'10) の議事録。
  14. Hinton, G.、Deng, L.、Dahl, GE、Mohamed, A.、Jaitly, N.、Senior, A.、Vanhoucke, V.、Nguyen, P.、Sainath, T.、および Kingsbury, B. ( 2012a)。音声認識における音響モデリングのためのディープ ニューラル ネットワーク。IEEE 信号処理マガジン、29(6)、82 ~ 97。
  15. ヒントン、GE、ダヤン、P.、フレイ、BJ、およびニール、RM (1995)。教師なしニューラル ネットワーク用のウェイクスリープ アルゴリズム。科学、268、1558–1161。
  16. ヒントン、GE、スリバスタヴァ、N.、クリジェフスキー、A.、スツケヴァー、I.、およびサラフトディノフ、R. (2012b)。特徴検出器の同時適応を防ぐことでニューラル ネットワークを改善します。技術レポート、arXiv:1207.0580。
  17. Jarrett, K.、Kavukcuoglu, K.、Ranzato, M.、および LeCun, Y. (2009)。物体認識に最適な多段階アーキテクチャは何ですか? プロセスで。コンピューター ビジョンに関する国際会議 (ICCV'09)、2146 ~ 2153 ページ。IEEE。
  18. キングマ、DP およびウェリング、M. (2014)。自動エンコード変分ベイ。学習表現に関する国際会議 (ICLR) の議事録。
  19. クリジェフスキー、A. およびヒントン、G. (2009)。小さな画像から複数のレイヤーの特徴を学習します。トロント大学の技術レポート。
  20. A. ク​​リジェフスキー、I. スツケヴァー、G. ヒントン (2012)。ディープ畳み込みニューラル ネットワークによる ImageNet 分類。生理学研究所2012年にて。
  21. LeCun, Y.、Bottou, L.、Bengio, Y.、および Haffner, P. (1998)。勾配ベースの学習を文書認識に適用します。IEEE 議事録、86(11)、2278–2324。
  22. Mnih、A. および Gregor、K. (2014)。信念ネットワークにおけるニューラル変分推論と学習。技術レポート、arXiv プレプリント arXiv:1402.0030。
  23. DJ レゼンデ、S. モハメッド、D. ウィアストラ (2014)。深い生成モデルにおける確率的バックプロパゲーションと近似推論。技術レポート、arXiv:1401.4082。
  24. Rifai, S.、Bengio, Y.、Dauphin, Y.、および Vincent, P. (2012)。収縮型オートエンコーダーをサンプリングするための生成プロセス。ICML'12にて。
  25. Salakhutdinov, R. およびヒントン, GE (2009)。ディープボルツマンマシン。AISTATS'2009、448455 ページ。
  26. シュミットフーバー、J. (1992)。予測可能性の最小化による階乗コードの学習。ニューラルコンピューティング、4(6)、863–879。
  27. J. サスキンド、A. アンダーソン、GE ヒントン (2010)。トロントの顔データセット。技術レポート UTML TR 2010-001、トロント大学。
  28. Szegedy, C.、Zaremba, W.、Sutskever, I.、Bruna, J.、Erhan, D.、Goodfellow, IJ、および Fergus, R. (2014)。ニューラル ネットワークの興味深い特性。ICLR、abs/1312.6199。
    えー、J. (1992)。予測可能性の最小化による階乗コードの学習。ニューラルコンピューティング、4(6)、863–879。
  29. J. サスキンド、A. アンダーソン、GE ヒントン (2010)。トロントの顔データセット。技術レポート UTML TR 2010-001、トロント大学。
  30. Szegedy, C.、Zaremba, W.、Sutskever, I.、Bruna, J.、Erhan, D.、Goodfellow, IJ、および Fergus, R. (2014)。ニューラル ネットワークの興味深い特性。ICLR、abs/1312.6199。
  31. Tu、Z. (2007)。判別アプローチによる生成モデルの学習。コンピュータ ビジョンとパターン認識、2007 年。CVPR'07。IEEE カンファレンス、1 ~ 8 ページ。IEEE。

  1. すべてのコードとハイパーパラメータは http://www.github.com/goodfeli/adversarial で入手できます。↩︎

おすすめ

転載: blog.csdn.net/I_am_Tony_Stark/article/details/132199157