[Computer Vision | 対立の生成] 画像から画像への変換のための条件付き対立ネットワーク (pix2pix)

この一連のブログ投稿はディープ ラーニング/コンピューター ビジョン論文のメモです。転載する場合は出典を明記してください。

标题:条件付き敵対的ネットワークによる画像から画像への変換

条件付き敵対的ネットワークによる画像から画像への変換| IEEE 会議出版物 | IEEE エクスプロア

まとめ

画像から画像への変換問題に対する一般的な解決策として、条件付き敵対的ネットワークを調査します。これらのネットワークは、入力画像から出力画像へのマッピングを学習するだけでなく、このマッピングをトレーニングするための損失関数も学習します。これにより、従来は非常に異なる損失公式を必要としていた問題に対して、同じ一般的なアプローチを適用することが可能になります。ラベル マップからの写真の合成、エッジ マップからのオブジェクトの再構築、画像の色付けなどのタスクにおけるこのアプローチの有効性を実証します。さらに、この論文に関連する pix2pix ソフトウェアのリリース以来、数百人の Twitter ユーザーが私たちのシステムを使用した芸術的な実験についてツイートしました。コミュニティとして、私たちはマッピング関数を手動で設計しなくなりました。この研究は、損失関数を手動で設計しなくても妥当な結果を達成できることを示しています。

1 はじめに

画像処理、コンピュータ グラフィックス、およびコンピュータ ビジョンでは、多くの問題は、入力画像を対応する出力画像に「変換」することとみなすことができます。コンセプトを英語やフランス語で表現できるのと同じように、シーンは RGB イメージ、グラデーション フィールド、エッジ マップ、セマンティック ラベル マップなどとしてレンダリングできます。自動言語翻訳と同様に、画像から画像への自動翻訳を、シーンの 1 つの可能な表現を別の与えられた十分なトレーニング データに変換する問題として定義します (図 1 を参照)。伝統的に、コンテキストは常に同じであるにもかかわらず、各タスクは独立した専用メカニズム (例: [14, 23, 18, 8, 10, 50, 30, 36, 16, 55, 58]) を使用して解決されます。ピクセルからピクセルを予測します。このペーパーの目標は、これらすべての質問に対する共通のフレームワークを開発することです。

図 1: 画像処理、グラフィックス、ビジョンにおける多くの問題には、入力画像を対応する出力画像に変換することが含まれます。これらの問題は通常、アプリケーション固有のアルゴリズムを使用して処理されますが、背景は常に同じであり、ピクセルをピクセルにマッピングします。条件付き敵対的ネットワークは、これらのさまざまな問題に対してうまく機能すると思われる一般的なソリューションです。ここでは、いくつかの問題に対するこの方法の結果を示します。いずれの場合も、同じアーキテクチャと目的を使用し、異なるデータでトレーニングしただけです。

コミュニティはこの方向に重要な一歩を踏み出し、畳み込みニューラル ネットワーク (CNN) はさまざまな画像予測問題に対する汎用ツールになりました。CNN は損失関数を最小化すること (結果の品質を評価することが目標) を学習します。学習プロセスは自動ですが、効果的な損失を設計するには多くの手作業が必要です。言い換えれば、私たちは CNN に何を最小限にしてほしいかを伝える必要があります。しかし、黄金の王ミダスのように、私たちは自分の願いには注意しなければなりません。予測ピクセルと実際のピクセルの間のユークリッド距離を最小化するように CNN に要求する単純なアプローチを取ると、不鮮明な結果が生成される傾向があります [40、58]。これは、考えられるすべての出力を平均することによってユークリッド距離が最小化され、結果として曖昧さが生じるためです。私たちが本当に望むこと、たとえば鮮明でリアルな画像を出力することを CNN に強制できる損失関数を考え出すことは、多くの場合専門知識を必要とする未解決の問題です。

「出力を現実と区別できないようにする」などの高レベルの目的を指定するだけで、その目的を満たすのに適した損失関数を自動的に学習できれば理想的です。幸いなことに、これはまさに最近提案された敵対的生成ネットワーク (GAN) が行うことです [22、12、41、49、59]。GAN は、出力画像が本物か偽物かを分類しようとする損失を学習し、この損失を最小限に抑えるために生成モデルをトレーニングします。ぼやけた画像は明らかに偽物に見えるため、許容されません。GAN はデータに適応する損失を学習するため、従来は非常に異なるタイプの損失関数を必要とする多くのタスクに適用できます。

このペーパーでは、条件付き設定で GAN を検討します。GAN がデータの生成モデルを学習するのと同じように、条件付き敵対的生成ネットワーク (cGAN) も条件付き生成モデルを学習します [22]。これにより、cGAN は、入力画像に条件付けされた対応する出力画像を生成する、画像間の変換タスクに適したものになります。

GAN は過去 2 年間で広範囲に研究されており、この論文で検討されている技術の多くは以前に提案されていますが、初期の論文は、画像条件付き GAN が画像間の変換として使用できるかどうかという特定のアプリケーションに焦点を当てていました。これに対する一般的な解決策はまだ不明です。私たちの主な貢献は、条件付き GAN がさまざまな問題に対して妥当な結果を生成できることを実証することです。私たちの 2 番目の寄稿では、良好な結果を達成するのに十分な単純なフレームワークを提案し、いくつかの重要なアーキテクチャ上の選択の影響を分析します。コードは https://github.com/phillipi/pix2pix で入手できます。

2.関連作品

画像モデリングのための構造化損失 画像から画像への変換問題は、多くの場合、ピクセルレベルの分類または回帰問題として定式化されます (例: [36, 55, 25, 32, 58])。これらの定式化では、出力空間を「構造化されていない」ものとして扱います。これは、入力イメージが与えられた場合、各出力ピクセルが条件付きで独立しているとみなされることを意味します。対照的に、条件付き敵対的生成ネットワークは構造化された損失を学習します。構造化損失ペナルティ出力の共同構成。大量の文献では、条件付きランダムフィールド [9]、SSIM メトリクス [53]、特徴マッチング [13]、ノンパラメトリック損失 [34]、畳み込み擬似事前分布 [54]、A 損失ベースなどの方法を使用して、このタイプの損失を検討しています。共分散統計のマッチングに関するもの [27]。条件付き敵対的生成ネットワークは損失が学習されるという点で異なり、理論的には出力とターゲットの間で異なる可能性のある構造にペナルティを課します。

条件付き敵対的生成ネットワーク 条件付き設定に GAN を適用したのは私たちが初めてではありません。これまでの研究では、離散ラベル [38、21、12]、テキスト [43]、そして実際には画像に基づいて GAN を条件付けていました。画像調整モデルは、法線マップからの画像予測 [52]、将来のフレーム予測 [37]、製品写真の生成 [56]、および疎な注釈からの画像生成 [28、45] の問題に取り組んできました (同じ問題に対する自己回帰手法)。画像から画像へのマッピングに GAN を使用する他の論文もありますが、GAN を無条件に適用するだけであり、他の項 (L2 回帰など) に依存して、出力に入力を強制的に条件付けします。これらの論文は、修復 [40]、将来状態予測 [60]、ユーザー制約に基づく画像処理 [61]、スタイル転送 [35]、および超解像度 [33] に関して印象的な結果を達成しています。各メソッドは特定のアプリケーション向けに調整されています。私たちのフレームワークは、アプリケーション固有のものがないという点で異なります。これにより、他のほとんどの方法よりもセットアップがはるかに簡単になります。

私たちのアプローチは、ジェネレーターとディスクリミネーターのいくつかのアーキテクチャ上の選択においても以前の研究とは異なります。以前の研究とは異なり、ジェネレータには「U-Net」ベースのアーキテクチャ[47]を使用し、ディスクリミネータには罰するための構造のみを備えた畳み込み「PatchGAN」分類器を使用します。同様の PatchGAN アーキテクチャは、ローカル スタイルの統計を取得するために [35] で以前に提案されています。ここでは、より広範囲の問題に対するこのアプローチの有効性を示し、さまざまなイメージ パッチの寸法の影響を調査します。

3. 方法

GAN は、ランダム ノイズ ベクトルzzから学習する生成モデルです。zから画像yyy 、 G : z → y G : z → yのマッピングG:zy [22]。対照的に、条件付き敵対的生成ネットワークは観察された画像xxxとランダム ノイズ ベクトルzzyyy , G : { x , z } → y G : \{x, z\} → y のマッピングG:{ x z }y

ジェネレーターGGGのトレーニング目標は、敵対的にトレーニングされた弁別器DDによって検出できない出力を生成することです。「実際の」画像と区別するためのD、識別子DDDのトレーニング目標は、ジェネレーターの「偽」画像を可能な限り検出することです。このトレーニング プロセスを図 2 に示します。

図 2: エッジ マップ → 写真からの条件付き敵対的生成ネットワーク マッピングのトレーニング。ディスクリミネーターDDD は、偽の (ジェネレーターによって合成された) タプルと本物の {エッジ マップ、写真} タプルを分類することを学習します。ジェネレーターGGG は差別者を騙す方法を学びます。無条件 GAN とは異なり、ジェネレーターとディスクリミネーターの両方が入力のエッジ マップを観察します。

3.1. 目的関数

条件付き敵対的生成ネットワークの目的関数は次のように表現できます。

L c GAN ( G , D ) = E x , y [ log ⁡ D ( x , y ) ] + E x , z [ log ⁡ ( 1 − D ( x , G ( x , z ) ) ] (1) L_{cGAN}(G, D) = E_{x,y}[\log D(x, y)] + E_{x,z}[\log(1 - D(x, G(x, z))) )] \tag{1}Lcガン_ _( G D )=Ex y[ログ_D ( x ,y )]+Ex z[ログ( 1 _D ( x ,G ( x ,z )))]( 1 )

ここでジェネレータGGG は、この目的関数である敵対的識別子DDDはそれを最大化しようとします。つまり、G ∗ = arg ⁡ min ⁡ G max ⁡ DL c GAN ( G , D ) G^* = \arg\min_G \max_D L_{cGAN}(G, D)G=arg _G最大DLcガン_ _( G D )

条件付きディスクリミネーターの重要性をテストするために、ディスクリミネーターがxxを観察しない無条件のバリアントと比較します。x
LGAN ( G , D ) = E y [ log ⁡ D ( y ) ] + E x , z [ log ⁡ ( 1 − D ( G ( x , z ) ) ) ] (2) L_{GAN}(G , D) = E_{y}[\log D(y)] + E_{x,z}[\log(1 - D(G(x, z)))] \tag{2}Lガン_ _( G D )=Eはい[ログ_D ( y )]+Ex z[ログ( 1 _D ( G ( x ,z )))]( 2 )

以前のアプローチでは、GAN の目的と L2 距離などのより伝統的な損失を組み合わせることが有益であることがわかりました [40]。弁別器のタスクは同じですが、生成器は弁別器を騙すだけでなく、L2 の意味でグランドトゥルース出力を近似する必要があります。また、L1 の方がぼやけが少なくなるため、L2 の代わりに L1 距離を使用して、このオプションも検討しました。

LL 1 ( G ) = E x , y , z [ ∥ y − G ( x , z ) ∥ 1 ] (3) L_{L1}(G) = E_{x,y,z}[\|y - G (x, z)\|_1] \tag{3}LL1 _( G )=Ex y z[ yG ( x ,z ) 1]( 3 )

私たちの最終的な目標は、

G ∗ = arg ⁡ min ⁡ G max ⁡ D ( L c GAN ( G , D ) + λ LL 1 ( G ) ) (4) G^* = \arg\min_G \max_D (L_{cGAN}(G, D) ). ) + \lambda L_{L1}(G)) \tag{4}G=arg _GDマックス( Lcガン_ _( G D )+λL _L1 _( G ))( 4 )

zzなしzの場合、ネットワークはxxxまでyyyはマッピングを学習しますが、決定論的な出力を生成するため、デルタ関数以外の分布と一致させることはできません。過去の条件付き GAN はこれを認識しており、ジェネレーターへの入力にガウス ノイズzzz ( xxを除くx (たとえば、[52])。初期の実験では、この戦略は効果的ではないことがわかりました - ジェネレーターは単にノイズを無視することを学習するだけです - これは Mathieu らの研究 [37] と一致しています。代わりに、最終モデルでは、ジェネレーターのいくつかのレイヤーにドロップアウトの形でノイズのみを供給し、トレーニング時とテスト時の両方に適用します。ドロップアウト ノイズにもかかわらず、ネットワークの出力にはわずかなランダム性しか観察されません。高度に確率的な出力を生成できる条件付き GAN を設計し、モデル化されている条件付き分布のエントロピー全体を捕捉することは、現在の研究における重要な未解決の問題です。

3.2. ネットワークアーキテクチャ

[41] のジェネレーターとディスクリミネーターのアーキテクチャを採用しました。ジェネレーターとディスクリミネーターは両方とも、Convolution-BatchNorm-ReLU [26] 形式のモジュールを使用します。アーキテクチャの詳細については、補足資料を参照してください。主な機能については以下で説明します。

3.2.1 スキップ接続を備えたジェネレーター

画像から画像への変換問題の特徴は、高解像度の入力グリッドを高解像度の出力グリッドにマッピングすることです。さらに、私たちが検討している問題では、入力と出力は表面の外観が異なりますが、同じ基礎構造をレンダリングしたものです。したがって、入力の構造は出力の構造とほぼ一致します。私たちはこれらの考慮事項に基づいてジェネレーターのアーキテクチャを設計しました。

この領域の問題に対するこれまでの多くの解決策 [40、52、27、60、56] では、エンコーダ/デコーダ ネットワーク [24] が使用されています。このようなネットワークでは、入力は、ボトルネック層まで、段階的にダウンサンプリングされる一連の層を通過し、ボトルネック層でプロセスが逆転します。このようなネットワークでは、すべての情報がボトルネックを含むすべての層を通過する必要があります。多くの画像変換問題では、大量の低レベル情報が入力と出力の間で共有されるため、この情報をネットワークに直接渡すことができることが望ましいです。たとえば、画像のカラー化の場合、入力と出力は顕著なエッジの位置を共有します。

ジェネレーターがボトルネックを回避して同様の情報を配信できるようにするために、「U-Net」[47] の一般的な形状に従ってスキップ接続を追加します。具体的には、各層で私たちはiii和层 n − i n - i ni間にジャンプ接続を追加しますnnnはレイヤーの総数です。各スキップ接続は単にレイヤーiii和层 n − i n - i niのすべてのチャネルが

3.2.2 マルコフ識別器 (PatchGAN)

L2 損失 (および L1 (図 3 参照)) は、画像生成問題でぼやけた結果を生み出すことが知られています [31]。これらの損失は高周波の明瞭さを促進しませんが、多くの場合、依然として低周波情報を正確に捕捉します。この場合、低周波数での正確性を強制するためのまったく新しいフレームワークは必要ありません。L1で十分です。

図 3: 損失が異なると、結果の品質も異なります。各列には、さまざまな損失を伴うトレーニングの結果が表示されます。その他の例については、https://phillipi.github.io/pix2pix/ を参照してください。

これは、低周波の正確性を強制するために L1 項に依存して、GAN 弁別器を高周波構造のみをモデル化するように制限する動機となります (式 4)。高周波をシミュレートするには、局所的な画像パッチの構造に注意を限定するだけで十分です。したがって、パッチスケールで構造のみにペナルティを与える、PatchGAN と呼ぶ識別器アーキテクチャを設計します。識別器は各N × NN × Nを識別しようとしますN×N個のブロックを分類して本物か偽物かを判定します。畳み込みによって画像全体に対してこの識別器を実行し、すべての応答を平均してDDD の最終出力。

セクション 4.4 では、NNがN は画像のフル サイズよりもはるかに小さくても、高品質の結果が得られます。これは、小さい PatchGAN はパラメータが少なく、より高速に実行され、任意の大きな画像に適用できるため有利です。

このような弁別器は、1 つの画像パッチ直径より大きいピクセル間の独立性を仮定して、画像をマルコフ乱数場として効果的にモデル化します。この関係は以前に [35] で検討されており、テクスチャ [15、19] およびスタイル [14、23、20、34] モデルでの一般的な仮定です。したがって、私たちの PatchGAN は、テクスチャ/スタイルの損失の一形態として理解できます。

3.3. 最適化と推論

ネットワークを最適化するために、[22] の標準的なアプローチに従いました。つまり、D での勾配降下を 1 ステップ、続いて G で 1 ステップ実行しました。ミニバッチ確率的勾配降下法 (SGD) を使用し、Adam ソルバー [29] を適用します。

推論時には、トレーニング段階とまったく同じ方法でジェネレーター ネットワークを実行します。これは、テスト時にドロップアウトを適用し、トレーニング バッチからの集約された統計ではなく、テスト バッチからの統計を使用してバッチ正規化 [26] を適用するという点で通常のプロトコルとは異なります。バッチ サイズが 1 に設定されている場合、バッチ正規化へのこのアプローチは「インスタンス正規化」と呼ばれ、画像生成タスクに効果的であることが示されています [51]。私たちの実験では、実験に応じて 1 ~ 10 のバッチ サイズを使用しました。

4. 実験

条件付き GAN の一般化可能性を調査するために、グラフィックス タスク (写真生成など) やビジョン タスク (セマンティック セグメンテーションなど) を含むさまざまなタスクとデータセットでメソッドをテストしました。

  • Cityscapes データセット [11] でトレーニングされたセマンティック ラベル ↔ 写真。
  • Architecture Label → 写真、CMP ファサードでトレーニング済み [42]。
  • 地図 ↔ 航空写真。Google マップから取得したデータを使用してトレーニングされています。
  • 白黒写真→カラー写真、トレーニングには[48]を使用します。
  • エッジ→写真、[61] および [57] のデータを使用してトレーニング、バイナリ エッジは HED エッジ検出器 [55] を使用して生成され、後処理されます。
  • スケッチ→写真: エッジ→写真モデルは、[17] の手描きスケッチでテストされます。
  • 昼→夜、[30]のデータでトレーニング。

これらのデータセットに関するトレーニングの詳細については、オンラインの補足資料を参照してください。いずれの場合も、入力と出力は 1 ~ 3 チャンネルの画像です。定性的な結果を図 7、図 8、図 9、図 10、および図 11 に示します。その他の結果と失敗例はオンライン資料 (https://phillipi.github.io/pix2pix/) で参照できます。

4.1. 評価指標

合成画像の品質を評価することは、未解決かつ困難な問題です [49]。ピクセルレベルの平均二乗誤差などの従来の指標は、結果の統合統計を評価しないため、構造化損失が捉えるように設計されている構造を測定できません。

結果の視覚的な品質をより完全に評価するために、2 つの戦略を採用しています。まず、Amazon Mechanical Turk (AMT) で「本物と偽物」の知覚調査を実施しました。カラー化や写真の生成などのグラフィックスの問題では、人間の観察者にとっては、妥当性が最終目標となることがよくあります。したがって、このアプローチを使用して、地図の生成、航空写真の生成、および画像のカラー化をテストしました。

次に、合成都市景観が既製の認識システムがその中のオブジェクトを認識できるほど現実的であるかどうかを測定します。この指標は、[49] の「インセプション スコア」、[52] のオブジェクト検出評価、[58] および [39] の「意味解釈可能性」の尺度に似ています。

AMT 知覚研究AMT 実験では、[58] のプロトコルに従いました。トルコ人には、「本物の」画像と私たちのアルゴリズムによって生成された「偽の」画像を比較する一連の試験が与えられました。各試験では、それぞれの画像が 1 秒間表示され、その後画像が消え、トルコ人にはどれが偽物であるかを答える無限の時間が与えられました。各セッションの最初の 10 枚の画像は演習であり、トルコ人にはフィードバックが与えられます。主要な実験の 40 回の試行中、フィードバックは提供されませんでした。セッションごとに一度にテストされるアルゴリズムは 1 つだけです。トルコ人は複数のセッションを完了することはできません。約 50 人のトルコ人が各アルゴリズムを評価します。すべての画像は 256×256 の解像度で表示されます。[58] とは異なり、警戒試験は含めていません。カラー化の実験では、本物の画像と偽の画像の両方が同じグレースケール入力から生成されます。地図 ↔ 航空写真の場合、タスクをより困難にし、低レベルの結果を避けるために、本物の画像と偽の画像は同じ入力から生成されません。

FCN スコア生成モデルを定量的に評価することは難しいことで知られていますが、最近の研究 [49、52、58、39] では、事前トレーニングされた意味分類子を擬似指標として使用して、生成された刺激の識別可能性を測定することが試みられています。直感的には、生成された画像が現実的であれば、実際の画像でトレーニングされた分類器は合成画像も正しく分類できるでしょう。この目的を達成するために、セマンティック セグメンテーションに FCN-8s [36] アーキテクチャを採用し、都市景観データセットでトレーニングしました。次に、これらの写真の分類精度とこれらの写真から生成されたラベルを比較することで、合成写真をスコア付けしました。

4.2. 目的関数分析

方程式 (4) の目的において重要な要素はどれですか? アブレーション研究を行って、L1 項と GAN 項の影響を分離し、条件付き弁別器 (cGAN、式 (1)) と無条件弁別器 (GAN、式 (2)) を使用して比較します。

図 3 は、ラベル→写真の 2 つの質問に対するこれらの変更の定性的な影響を示しています。L1 のみを使用すると、妥当ではあるもののあいまいな結果が得られます。cGAN のみを使用すると (式 (4) で λ = 0 に設定)、より鮮明な結果が生成されますが、一部のアプリケーションでは視覚的なアーティファクトが発生します。両方の項を組み合わせると (λ = 100)、これらのアーティファクトが軽減されます。

Cityscape Label→Photo タスクの FCN スコアを使用してこれらの観察を定量化します (表 1 を参照)。GAN ベースの目標はより高いスコアを達成し、合成画像にはより認識可能な構造が含まれていることを示します。また、ディスクリミネーター (GAN というラベル) から条件を削除した場合の効果もテストしました。この場合、損失は入力と出力の間の不一致に悪影響を及ぼすのではなく、出力が本物に見えるかどうかのみを考慮します。この亜種のパフォーマンスは非常に低く、調べたところ、入力された写真に関係なく、ジェネレーターはほぼ同じ出力を生成することがわかりました。明らかに、この場合、損失測定の入力と出力の間の一致の品質が非常に重要であり、実際、cGAN は GAN よりも優れたパフォーマンスを発揮します。ただし、L1 損失によりグランド トゥルース出力と一致しない可能性がある合成出力の間の距離にペナルティが課されるため、L1 項を追加すると出力が入力を尊重するようになることに注意することが重要です。同様に、L1+GAN も入力ラベル マッピングに基づいてリアルなレンダリングを効果的に作成できます。すべての項を組み合わせると、L1+cGAN も非常に優れたパフォーマンスを発揮します。

表 1: Cityscapes データセットのセマンティック ラベリング↔写真タスクで評価した FCN スコア

条件付き敵対的生成ネットワークの顕著な効果は、入力ラベル マップに存在しない場合でも、非常に鮮明な画像と空間構造の錯覚を生成することです。cGAN によるスペクトル次元の「シャープ化」にも、たとえ画像がよりカラフルであっても、同様の効果があると想像する人もいるかもしれません。エッジが正確にどこにあるのかわからないときに L1 がぼかしを促すのと同じように、ピクセルがどの色の値を取るべきかわからないときに平均的なグレーの選択を促します。特に、L1 は、可能な色の条件付き確率密度関数の中央値を最小化するように選択されます。

一方、敵対的損失は原理的にグレー出力が非現実的であることを認識し、実際の色分布との一致を促す可能性があります[22]。図 6 では、cGAN が都市景観データセットに対してこの効果を達成するかどうかを調査します。これらのプロットは、Lab 色空間における出力カラー値の周辺分布を示しています。破線は、グラウンド トゥルースの分布を示します。明らかに、L1 はグランド トゥルース分布よりも狭い分布をもたらし、L1 が平均的な灰色を促進するという仮説が検証されます。一方、cGAN を使用すると、出力分布がグラウンド トゥルース分布に近づきます。

4.3. ジェネレーターのアーキテクチャ分析

U-Net アーキテクチャにより、低レベルの情報をネットワーク内で迅速に転送できます。これはより良い結果につながりますか? 図 4 は、都市景観生成における U-Net とエンコーダー/デコーダーのパフォーマンスを比較しています。エンコーダ/デコーダは、U-Net のスキップ接続を切断することによってのみ作成されます。私たちの実験では、エンコーダー/デコーダーはリアルな画像を生成する方法を学習できませんでした。U-Net の利点は条件付き GAN に限定されないようです。U-Net とエンコーダー/デコーダーの両方が L1 損失でトレーニングされた場合、U-Net は再び優れた結果を達成します (図 4 を参照)。

図 4: エンコーダ/デコーダにスキップ接続を追加して「U-Net」を作成すると、より高品質の結果が得られます。

4.4. PixelGAN から PatchGAN、そして ImageGAN へ

弁別器受容野パッチサイズ N を「PixelGAN」の 1 × 1 から「ImageGAN」の完全な 286 × 286 まで変化させた場合の影響をテストしました1図 5 はこの分析の定性的結果を示し、表 2 は FCN スコアを使用した効果を定量化しています。特に明記されていない限り、この論文の残りの部分ではすべての実験で 70 × 70 PatchGAN が使用されていますが、このセクションではすべての実験で L1+cGAN 損失が使用されていることに注意してください。

図 5: パッチ サイズのバリエーション。損失関数が異なれば、出力の不確実性が異なる方法で表されます。L1 では、不確実な領域がぼやけて彩度が低くなります。1x1 の PixelGAN は色の多様性を高めますが、空間統計には影響しません。16x16 PatchGAN は局所的に鮮明な結果を生成しますが、観察可能な範囲外にタイリング アーティファクトも生成します。70×70 PatchGAN は、たとえ不正確であっても、空間次元とスペクトル (色の豊かさ) 次元の両方でシャープな出力を強制します。完全な 286×286 ImageGAN は、視覚的には 70×70 PatchGAN の結果と似ていますが、FCN スコア指標によるとわずかに低くなります (表 2)。他の例については、https://phillipi.github.io/pix2pix/ を参照してください。

表 2: Cityscapes ラベル→写真タスクのさまざまな識別子の受容野サイズに対する FCN スコア。入力画像は 256×256 ピクセルであり、ゼロをパディングすることでより大きな受容野サイズが実現されることに注意してください。

PixelGAN は空間の鮮明さには影響しませんが、結果の色の豊かさは増加します (図 6 に定量化されています)。たとえば、図 5 のバスは、L1 損失でトレーニングされた場合は灰色ですが、PixelGAN 損失でトレーニングされた場合は赤色に変わります。カラー ヒストグラムのマッチングは画像処理における一般的な問題であり [46]、PixelGAN は有望な軽量ソリューションである可能性があります。

図 6: Cityscapes データセットでテストされた cGAN のカラー分布マッチング プロパティ。(元の GAN 論文 [22] の図 1 を参照)。ヒストグラムの交差スコアは主に高確率領域の差によって影響を受けますが、プロットでは対数確率が表示され、低確率領域の差が強調されるため、プロットでは認識できません。

16×16 PatchGAN を使用すると、シャープな出力を駆動して良好な FCN スコアを達成するには十分ですが、タイリング アーティファクトも発生します。70 × 70 PatchGAN は、これらのアーティファクトの問題を軽減し、同様のスコアを達成します。この点を超えると、完全な 286 × 286 ImageGAN に達しても、結果の視覚的な品質は大幅に改善されず、実際に FCN スコアが大幅に低下します (表 2)。これは、ImageGAN のパラメータが 70 × 70 PatchGAN よりも多く、深度が大きいため、トレーニングがより困難である可能性があります。

完全畳み込み変換の利点は、固定サイズのパッチ弁別器を任意のサイズの画像に適用できることです。トレーニング画像よりも大きい画像に対してジェネレーターを畳み込むこともできます。地図↔航空写真タスクでテストしました。256×256 の画像でジェネレーターをトレーニングした後、512×512 の画像でテストします。図 7 の結果は、このアプローチの有効性を示しています。

図 7: 512x512 解像度での Google マップの結果の例 (モデルは 256x256 解像度の画像でトレーニングされ、テスト時により大きな画像で畳み込みされました)。明瞭にするためにコントラストを調整しました。

4.5. 知覚の検証

地図↔航空写真およびグレースケール→カラータスクで結果の知覚的忠実度を検証します。地図↔写真に対するAMT実験の結果を表3に示します。私たちの方法で生成された航空写真は、試験の 18.9% で参加者を騙しました。これは L1 ベースラインよりも大幅に高く、曖昧な結果をもたらし、参加者を騙すことはほとんどありませんでした。対照的に、写真→地図の方向では、私たちの方法はトライアルの 6.1% で参加者を騙し、L1 ベースラインのパフォーマンス (ブートストラップ テストに基づく) と大きな違いはありませんでした。これは、地図が厳密な形状をしているのに対し、航空写真はより無秩序であるため、地図のわずかな構造エラーがより視覚的に明らかになるためと考えられます。

表 3: 地図↔航空写真タスクにおける AMT の「本物 vs 偽物」テスト。

ImageNet [48] でカラー化をトレーニングし、[58, 32] で紹介されたテスト セットでテストします。L1+cGAN 損失を使用した私たちの方法では、試験の 22.5% で参加者が騙されました (表 4)。また、[58] の結果と、L2 損失を使用するその方法の変形もテストしました (詳細については、[58] を参照)。条件付き GAN は、[58] の L2 バリアントと同様のスコアを示します (ブートストラップ テストによる差は有意ではありません) が、参加者の実験で 27.8% の試行を不正行為した [58] の完全な方法のレベルには達していません。彼らの方法は、カラー化で優れたパフォーマンスを発揮するように特別に設計されていることに注意してください。

表 4: 色付けタスクに関する AMT の「本物と偽物」のテスト。

図 8: [58] の L2 回帰および [60] の完全な方法と比較した条件付き GAN の色付けされた結果 (リバランスによる分類)。cGAN は魅力的なカラー化結果 (最初の 2 行) を生成できますが、グレースケールまたは彩度の低い結果 (最後の行) が生成されるという共通の失敗モードがあります。

4.6. セマンティックセグメンテーション

条件付き GAN は、画像処理やグラフィックスのタスクで一般的な、非常に詳細な問題や写真のような問題を出力するのに効果的であるようです。セマンティック セグメンテーションなど、出力が入力よりも単純な視覚の問題についてはどうでしょうか?

これのテストを開始するために、街並みの写真→ラベルで cGAN (L1 損失あり/なし) をトレーニングしました。図 11 に定性的な結果を示し、定量的な分類精度を表 5 に示します。興味深いことに、L1 損失なしでトレーニングされた cGAN は、この問題を妥当な精度で解決できます。私たちの知る限り、これは、連続変化のある「画像」ではなく、ほぼ離散的な「ラベル」の生成に成功した GAN の最初のデモンストレーションです2cGAN はある程度の成功を収めていますが、この問題に対する最善のアプローチとは程遠いです。表 5 に示すように、L1 回帰のみを使用すると、cGAN を使用するよりも良いスコアが得られます。私たちは、視覚の問題の場合、ターゲット (つまり、グラウンド トゥルースに近い出力の予測) は、グラフィックス タスクのターゲットほど曖昧ではなく、L1 のような再構成損失で基本的に十分であると主張します。

表 5: 都市景観データセットの写真→ラベル タスクのパフォーマンス。

4.7. コミュニティ主導の研究

この論文と私たちの pix2pix コードベースが最初に公開されて以来、アーティストだけでなくコンピューター ビジョンやグラフィックスの専門家を含む Twitter コミュニティは、私たちのフレームワークをさまざまな新しい画像間の変換タスクに適用することに成功し、その範囲をはるかに超えています。オリジナルの紙。図 10 は、ハッシュタグ #pix2pix の下にあるほんの数例を示しています。たとえば、スケッチ→ポートレート、「Do as I Do」ポーズの転送、深さ→ストリート ビュー、背景の削除、パレットの生成、スケッチ→Pokémon、人気の #edges2cats などです。

図 9: いくつかのタスクに対する私たちの方法の結果 ([42] および [17] からのデータ)。スケッチ→写真の結果は、自動エッジ検出でトレーニングされ、人間が描いたスケッチでテストされたモデルによって生成されることに注意してください。その他の例については、オンライン資料を参照してください。

図 10: pix2pix コードベースに基づいて開発されたオンライン コミュニティのサンプル アプリ: #edges2cats [3] by Christopher Hesse、Sketch → Portrait [7] by Mario Kingemann、「Do As I Do」ポーズ変換 [2] by Brannon Dorsey、Depth → Streetview [5] by Jasper van Loenen、Background Removal [6] by Kaihu Chen、Palette Generation [4] by Jack Qiao、および Sketch → Pokémon [1] by Bertrand Gondouin。

図 11: セマンティック セグメンテーションへの条件付き GAN の適用。cGAN は、一見本物に似た鮮明な画像を生成しますが、実際には小さな幻のオブジェクトが多数含まれています。

5。結論

この論文の結果は、条件付き敵対的ネットワークが、多くの画像間の変換タスク、特に高度に構造化されたグラフィック出力を伴うタスクに対して有望なアプローチであることを示しています。これらのネットワークは、損失を特定のタスクやデータに適応させることを学習し、さまざまな異なる状況に適用できるようにします。

ありがとう

有益なディスカッションをしていただいた Richard Zhang、Deepak Pathak、Shubham Tulsiani に、HED エッジ検出器に関する協力をいただいた Saining Xie に、そして多くのアプリケーションの探索と改善の提案に貢献してくれたオンライン コミュニティに感謝します。この研究は、空軍研究所、Intel Corp、Berkeley Deep Drive、および Nvidia からのハードウェア寄付を通じて、NSF SMA-1514512、NGA NURI、IARPA によって一部支援されました。

参照

  1. ベルトラン・ゴンドゥアン。https://twitter.com/bgondouin/status/818571935529377792。2017 年 4 月 21 日にアクセス。
  2. ブラノン・ドーシー。https://twitter.com/brannondorsey/status/806283494041223168。2017 年 4 月 21 日にアクセス。
  3. クリストファー・ヘッセ。https://affinelayer.com/pixsrv/。アクセス日: 2017 年 4 月 21 日。
  4. ジャック・チャオ。http://colormind.io/blog/。アクセス日: 2017 年 4 月 21 日。
  5. ジャスパー・ヴァン・ローネン。https://jaspervanloenen.com/neural-city/。2017 年 4 月 21 日にアクセス。
  6. チェン・カイフさん。http://www.terraai.org/imageops/index.html。2017 年 4 月 21 日にアクセス。
  7. マリオ・クリンゲマン。https://twitter.com/quasimondo/status/826065030944870400。2017 年 4 月 21 日にアクセス。
  8. A. ブアデス、B. コル、J.-M. モレル。画像のノイズ除去のための非ローカル アルゴリズム。CVPR、第 2 巻、60 ~ 65 ページに掲載。IEEE、2005 年。
  9. L.-C. チェン、G. パパンドレウ、I. コッキノス、K. マーフィー、AL ユイル。深い畳み込みネットと完全に接続された CRF によるセマンティック画像セグメンテーション。ICLRにて、2015年。
  10. T. チェン、M.-M. チェン、P. タン、A. シャミア、S.-M. ふー。Sketch2photo: インターネット画像モンタージュ。ACM トランザクション オン グラフィックス (TOG)、28(5):124、2009。
  11. M.コルツ、M.オムラン、S.ラモス、T.レーフェルド、M.エンツヴァイラー、R.ベネンソン、U.フランケ、S.ロス、B.シーレ。セマンティックな都市シーンを理解するための都市景観データセット。CVPRにて、2016年。
  12. EL Denton、S. Chintala、R. Fergus、他 敵対的ネットワークのラプラシアン ピラミッドを使用した深い生成イメージ モデル。NIPS、1486–1494 ページ、2015 年。
  13. A.ドソビツキーとT.ブロックス。ディープネットワークに基づいて知覚的類似性メトリクスを使用して画像を生成します。arXiv プレプリント arXiv:1602.02644、2016。
  14. AAエフロスとWTフリーマン。テクスチャ合成と転送のための画像キルティング。SIGGRAPH、341 ~ 346 ページ。ACM、2001 年。
  15. AAエフロスとTKレオン。ノンパラメトリックサンプリングによるテクスチャ合成。ICCV、第 2 巻、1033 ~ 1038 ページに掲載。IEEE、1999 年。
  16. D.エイゲンとR.ファーガス。一般的なマルチスケール畳み込みアーキテクチャを使用して、深さ、表面法線、およびセマンティック ラベルを予測します。コンピューター ビジョンに関する IEEE 国際会議議事録、2650 ~ 2658 ページ、2015 年。
  17. M. アイツ、J. ヘイズ、M. アレクサ。人間はどのようにして物体をスケッチするのでしょうか? SIGGRAPH、31(4):44–1、2012。
  18. R. ファーガス、B. シン、A. ハーツマン、ST ロウイス、および WT フリーマン。1枚の写真から手ぶれを除去します。ACM Transactions on Graphics (TOG)、第 25 巻、787 ~ 794 ページ。ACM、2006 年。
  19. LA ゲイティス、AS エッカー、M. ベスゲ。畳み込みニューラル ネットワークを使用したテクスチャ合成と自然刺激の制御された生成。arXiv プレプリント arXiv:1505.07376、2015。
  20. LA ゲイティス、AS エッカー、M. ベスゲ。畳み込みニューラル ネットワークを使用した画像スタイルの転送。CVPR、2016 年。
  21. J.ゴーティエ。畳み込み面生成のための条件付き生成敵対的ネット。スタンフォード CS231N のクラス プロジェクト: 視覚認識のための畳み込みニューラル ネットワーク、冬学期、2014(5):2、2014 年。
  22. I. グッドフェロー、J. プージェ=アバディー、M. ミルザ、B. シュー、D. ウォード=ファーリー、S. オゼール、A. クールヴィル、Y. ベンジオ。生成的な敵対的ネット。生理学研究所にて、2014 年。
  23. A. ハーツマン、CE ジェイコブス、N. オリバー、B. カーレス、DH サレシン。イメージの類似。SIGGRAPH、327 ~ 340 ページ。ACM、2001 年。
  24. GEヒントンとRRサラクトディノフ。ニューラル ネットワークを使用してデータの次元を削減します。サイエンス、313(5786):504–507、2006。
  25. 飯塚慎司、E.シモセラ、石川博司。Let there be Color!: 同時分類による自動画像カラー化のためのグローバル画像事前確率とローカル画像事前確率のエンドツーエンド共同学習。ACM トランザクション オン グラフィックス (TOG)、35(4)、2016 年。
  26. S.イオッフェとC.セゲディ。バッチ正規化: 内部共変量シフトを削減することでディープ ネットワーク トレーニングを加速します。2015年。
  27. J. ジョンソン、A. アラヒ、L. フェイフェイ。リアルタイム スタイル転送と超解像度の知覚損失。2016年。
  28. L. カラカン、Z. アカタ、A. アーデム、および E. アーデム。属性とセマンティック レイアウトから屋外シーンの画像を生成する方法を学習します。arXiv プレプリント arXiv:1612.00215、2016。
  29. D. キングマと J. Ba. アダム: 確率的最適化の手法。ICLR、2015年。
  30. P.-Y. Laffont、Z. Ren、X. Tao、C. Qian、および J. Hays。屋外シーンの高度な理解と編集のための一時属性。ACM トランザクション オン グラフィックス (TOG)、33(4):149、2014。
  31. ABL ラーセン、SK ソンダービー、O. ウィンザー。学習された類似性メトリックを使用したピクセルを超えた自動エンコード。arXiv プレプリント arXiv:1512.09300、2015。
  32. G.ラーソン、M.マイレ、G.シャクナロヴィッチ。自動カラー化のための学習表現。ECCV、2016年。
  33. C. レディグ、L. タイス、F. フザール、J. カバレロ、A. カニンガム、A. アコスタ、A. エイトケン、A. テジャニ、J. トッツ、Z. ワン、他。敵対的生成ネットワークを使用した写真のようにリアルな単一画像の超解像度。arXiv プレプリント arXiv:1609.04802、2016。
  34. C.リーとM.ワンド。マルコフランダムフィールドと畳み込みニューラルネットワークを組み合わせて画像を合成します。CVPR、2016 年。
  35. C.リーとM.ワンド。マルコフ生成敵対的ネットワークによる事前計算されたリアルタイム テクスチャ合成。ECCV、2016年。
  36. J. ロング、E. シェルハマー、T. ダレル。セマンティック セグメンテーションのための完全な畳み込みネットワーク。CVPR、3431 ~ 3440 ページ、2015 年。
  37. M. マチュー、C. クープリ、Y. ルカン。平均二乗誤差を超える詳細なマルチスケール ビデオ予測。ICLR、2016 年。
  38. M・ミルザとS・オシンデロ。条件付き生成敵対的ネット。arXiv プレプリント arXiv:1411.1784、2014。
  39. A. オーエンズ、P. イゾラ、J. マクダーモット、A. トラルバ、E.H. アデルソン、および WT フリーマン。視覚的に音を表示します。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2405 ~ 2413 ページ、2016 年。
  40. D. パサック、P. クラヘンビュール、J. ドナヒュー、T. ダレル、AA エフロス。コンテキスト エンコーダー:修復による機能学習。CVPR、2016 年。
  41. A. ラドフォード、L. メッツ、S. チンタラ。深い畳み込み敵対的生成ネットワークを使用した教師なし表現学習。arXiv プレプリント arXiv:1511.06434、2015。
  42. RSラディム・タイレチェック。規則的な構造を持つオブジェクトを認識するための空間パターン テンプレート。プロセスで。GCPR、ザールブリュッケン、ドイツ、2013 年。
  43. S. リード、Z. アカタ、X. ヤン、L. ローゲスワラン、B. シーレ、および H. リー。敵対的なテキストから画像への生成合成。arXiv プレプリント arXiv:1605.05396、2016。
  44. S. リード、A. ファン デン オード、N. カルクブレンナー、V. バプスト、M. ボトヴィニック、N. デ フレイタス。制御可能な構造を備えた解釈可能な画像を生成します。技術レポート、技術レポート、2016。
  45. SE リード、Z. アカタ、S. モハン、S. テンカ、B. シーレ、および H. リー。どこに何を描くかを学びます。『神経情報処理システムの進歩』、217 ~ 225 ページ、2016 年。
  46. E. ラインハルト、M. アシクミン、B. グーチ、P. シャーリー。画像間の色移り。IEEE コンピュータ グラフィックスとアプリケーション、21:34–41、2001。
  47. O. ロンネバーガー、P. フィッシャー、T. ブロックス。U-net: 生物医学画像セグメンテーション用の畳み込みネットワーク。『MICCAI』、234 ~ 241 ページ。スプリンガー、2015 年。
  48. O. Russakovsky、J. Deng、H. Su、J. Krause、S. Satheesh、S. Ma、Z. Huang、A. Karpathy、A. Khosla、M. Bernstein 他。画像の大規模視覚認識チャレンジ。IJCV、115(3):211–252、2015。
  49. T. サリマンズ、I. グッドフェロー、W. ザレンバ、V. チャン、A. ラドフォード、X. チェン。GAN をトレーニングするための技術が改善されました。arXiv プレプリント arXiv:1606.03498、2016。
  50. Y. シー、S. パリス、F. デュランド、および WT フリーマン。屋外の 1 枚の写真から得られる、データに基づいたさまざまな時間帯の幻覚。ACM トランザクション オン グラフィックス (TOG)、32(6):200、2013。
  51. D. ウリヤノフ、A. ヴェダルディ、V. レンピツキー。インスタンスの正規化: 高速なスタイル化に欠けている要素。arXiv プレプリント arXiv:1607.08022、2016。
  52. X.ワンとA.グプタ。スタイルと構造の敵対的ネットワークを使用した生成画像モデリング。ECCV、2016年。
  53. Z.ワン、ACボビック、HRシェイク、EPシモンチェリ。画質評価: エラーの可視性から構造の類似性まで。画像処理に関する IEEE トランザクション、13(4):600–612、2004。
  54. S. Xie、X. Huang、Z. Tu。畳み込み擬似事前分布を使用した構造化ラベル付けのためのトップダウン学習。2015年。
  55. S. Xie と Z. Tu. 総合的にネストされたエッジ検出。ICCVにて、2015年。
  56. D.ユ、N.キム、S.パク、ASペク、ISグウェン。ピクセルレベルのドメイン転送。ECCV、2016年。
  57. A.ユウとK.グローマン。ローカル学習とのきめ細かい視覚的な比較。CVPRにて、2014年。
  58. R. チャン、P. イゾラ、AA エフロス。カラフルな画像の色付け。ECCV、2016年。
  59. J. Zhao、M. Mathieu、Y. LeCun。エネルギーベースの敵対的生成ネットワーク。arXiv プレプリント arXiv:1609.03126、2016。
  60. Y・ジョウとTL・バーグ。タイムラプスビデオから時間的変化を学習します。ECCVにて、2016年。
  61. J.-Y. Zhu、P. クレアヘンブリュール、E. シェクトマン、AA エフロス。自然画像多様体に対する生成的な視覚操作。ECCV、2016 年
    。rsarial ネットワーク。arXiv プレプリント arXiv:1609.03126、2016。
  62. Y・ジョウとTL・バーグ。タイムラプスビデオから時間的変化を学習します。ECCVにて、2016年。
  63. J.-Y. Zhu、P. クレアヘンブリュール、E. シェクトマン、AA エフロス。自然画像多様体に対する生成的な視覚操作。ECCVにて、2016年。

  1. このパッチ サイズの変化は、GAN ディスクリミネーターの深さを調整することで実現します。このプロセスの詳細と弁別器のアーキテクチャについては、オンラインの補足資料を参照してください。↩︎

  2. トレーニングに使用するラベル マップは、双一次補間によって元のマップからサイズ変更され、JPEG 画像として保存されるため、正確な離散値ではないことに注意してください。これには圧縮アーティファクトが含まれる可能性があります。↩︎

おすすめ

転載: blog.csdn.net/I_am_Tony_Stark/article/details/132284420