マルチスケールニューラルパッチの合成を使用して修復高解像度画像

概要

給紙方法: CVPR 2017

以前の方法の欠点:従来の方法とは、セマンティックコンテキスト情報に基づいて、より大きなよく、画像を撮像することができる、より高度な機能の充填孔ではなくによるメモリの制限のため、ネットワーク要素を訓練することは困難である、処理は区別することができます小さな絵を評価。

紙の方法が提示:に基づいて提案された最適化するために、合成画像コンテンツ及びテクスチャ制約結合マルチスケール神経パッチをするだけでなく、コンテキスト構造を保持する方法を、及び深さ分類ネットワーク最も類似する特徴的な中間層の相関を使用して調整マッチングパッチ高周波の詳細を。

利点時:大きな解像度の画像を処理することができます

ネットワークアーキテクチャ:

データセット: \(IMAGEnet \)事前研修16 VGGのため、\(パリ・ストリート・データセット\)

コード:高速化・高解像度・ニューラル・インペインティング

入門

  • 画像完成:?
  • 既存の\(穴埋めを\)問題に対する解決策は、2つのカテゴリに分類されます。最初のカテゴリは、テクスチャ合成、に依存している\(穴埋め\)テクスチャの欠如を囲んで位置を埋めるために、一般的なアイデアは、同様のテクスチャを使用することです合成された罰金に粗いのパッチ内容が削除されました。第2のカテゴリーは、欠落している部分を埋めるために大規模なデータベースの情報を使用して、データ駆動型の方法です。
カテゴリ 紙に沿って
最初のカテゴリ 参考文献[14]、[13]、[27]、[26]、[6]、[12]、[40]、[41]、[23]、[24]、[2]
前記参考文献[12]、[41]、スケール及び方向の複数の導入は、よりよい一致パッチを見つけることができます。
リファレンス[2]は最近傍探索アルゴリズムを迅速概算としてパッチをPatchMatchます提案しました。利点:良好な高周波伝播テクスチャのディテールが、彼らはグローバルな構造や意味の画像をキャプチャすることはできません。
第二のカテゴリー 仮定:地域が同様のコンテンツを有していてもよく似た背景に囲まれています。長所:場合はデータの量に十分な時間、高い成功率。短所:シーンの適用を制限し、データベースに接続する必要があります。
  • 最近、ニューラルネットワークは、テクスチャパターンと画像合成変換の深さに導入されます。
  • この論文のためのインスピレーションの源:
    • ℓ2及び削除が提案されているダイレクト予測画像を合成敵対損失領域を用いPhatak [32] encoderdecoder CNN(コンテキストエンコーダ)。短所:とき入力大きな画像(高解像度画像)、ハードトレーニング敵対損失取引のテクスチャの詳細は、良いではありません。
    • Li及びワンド[28]部分応答に類似する類似画像内容、及び画像層の部分的な応答パターンを有する中間層(神経応答)に対する神経応答によって、画像パターン変換を達成するためには、低い画像畳み込みが最適化されます。ここでは部分的応答は、(典型的には3 * 3)小さな神経のパッチによって表されます。この方法は、画像のパターンは、コンテンツ画像に高周波詳細から送信されたことを証明しました。しかし、今の神経応答のグラム行列のより多くのスタイル変換基準[15]を使用します。
  • 提案された方法:
    • 提案された組み合わせencoderdecoder CNN(コンテキスト・エンコーダ)と画像復元タスクを実装する実際の能力の合成高周波画像の神経パッチの構造を予測する能力。
    • そしてスタイルの変換タスクは、私たちは、行方不明の部品と類似の既知の分野で世界的なコンテンツ(グローバルコンテンツ制約)への制約としてCNN(コンテキストエンコーダ)encoderdecoder地元の神経パッチを訓練します。限られたメモリによって最適化することができ、これら2つの制約は、逆伝搬アルゴリズムをBFGS(テクスチャモデリング制約は。前記中間層の周辺部分の削除に応答して、事前訓練分類ネットワーク、パッチ及び画像コンテンツを使用)。
    • さらに、マルチスケール神経パッチを合成する方法を提供するために、我々は、我々は、工程数が2であり、各ステップは、元に還元された3のピラミッド構造を作成し、画像サイズが256×256の中間部分の欠失と、512×512であると仮定する画像の半分(512 256 128256 12 864)。私たちは、その後、粗ツーきめ細かい充填作業を行います。初期化された予測出力コンテンツネットワークの底部に(1)同時最適化は、欠落部分を更新するために各次元上で行われ、共同スケール(2)上の次の制約条件の内容を初期化するためにサンプリング・セットを最適化します。そして、最高の解像度での同時最適化が完了するまで、この操作を繰り返します。
  • 本論文の貢献:
    • コンボリューションニューラルネットワークは、グローバルとローカルコンテンツの制約テクスチャ制約モデルを確立した、我々は共同最適化フレームワークを提案します。
    • さらに発表マルチスケールneualパッチパッチングアルゴリズム高解像度画像の同時最適化のための包括的な枠組みに基づきます。
    • 研究は、ことが示されている中間層は、現実的なテクスチャ画像コンテンツを合成するために使用することができ、前記ニューラルネットワークから抽出され、加えて、スタイルを渡すために使用されます。

関連作品(2つのインスピレーション)

ディープネットワーク経由でを使用して構造予測

  • 従来の画像生成(GAN)異なるオブジェクト画像が欠落しているコンテンツの部分を予測するために、画像領域公知の条件下で固定されています。画像復元ネットワーク構造のためのエンコーダ・デコーダは、最近ℓ2損失及び敵対損失(コンテキストエンコーダ)損失関数の組み合わせを使用して提案しました。本稿では、コンテキストを使用するエンコーダは、マルチスケールの神経パッチ合成アルゴリズムを初期化するために、その出力を使用して、グローバルコンテンツネットワークと予想しました。

スタイル移転

  • 参考文献[15、16、28、3、39、22]、神経スタイルの成功転送を示します。これらの方法は、「コンテンツ」合成画像の画像及び他の画像の「スタイル」を生成することによって主にあります。これはまた、ことを示して生成された画像の神経特性(神経機能)細かいテクスチャ及び高周波数ディテールも非常に強力です

方法

全体のフレームワーク

3x5BBq.jpg

3x5GAf.jpg

  • 最適な補修画像最適化の損失関数\(X ^〜\) 損失関数を含む3つの項目で構成され、全コンテンツ項目(総合的なコンテンツの用語)、ローカルテクスチャ項目(ローカルテクスチャ用語)とTV損失項目(TV-損失項)。
    • 全体のコンテンツ項目は、グローバルな構造、グローバルな構造とセマンティクスキャプチャ画像そのにより結合されます。最初のトレーニングコンテンツネットワーク、および全体のコンテンツ項目を初期化するためにそれを使用。
    • 局所テクスチャ用語は、入力画像モデリングの局所的なテクスチャの統計です。事前に訓練を受けたImageNetネットワーク上VGG-19を使用して計算。
  • コンテンツ制約モデル:我々は、最初のコンテンツ全体ネットワークトレーニング\(F \) ホリスティックコンテンツネットワークFで)を、入力ネットワークは、矩形領域の画像除去中心であり、平均色を記入し、グランドトゥルース画像(X_Tは\)\原画像であります長方形の中心の内容。コンテンツネットワーク全体が訓練されると、我々はネットワークの出力を使用することができます(F(X_0)\)\同時最適化制約の初期コンテンツとして。
  • ローカルテクスチャ項目:欠落している部分の周辺細部の同様のコンテンツや削除を確保するためです。ローカルテクスチャ・アイテムを最適化するために(ニューラルパッチが正常に撮影された画像のスタイルに適用されている。)神経パッチの類似性によって定義される、画像\(Xは\)事前訓練VGGネットワーク(ローカルテクスチャ・ネットワーク)とネットワークに入力されます前記類似性の欠如に応答して所定のレベル、小さい(典型的には3×3)外部神経ブロック神経ブロックの欠失領域。実際には、我々は、神経アイデンティティが計算されrelu4_1 relu3_1層を組み合わせて使用します。私たちは、反復的に更新するために、関節のコンテンツとテクスチャの損失を最小化することにより、限られたメモリBFGSを使用し\(X- \を)
  • マルチスケール問題:マルチスケール修復大型の高解像度画像の損失の一定範囲のための高解像度の画像を達成するために、我々は最初の画像を縮小して、参照を取得するには、コンテンツネットワークを予測するために使用します。その後、所定の基準コンテンツのため、我々は、低解像度(で、コンテンツやテクスチャ制約)に最適化されました。そして、アップサンプリングおよび細かい規模の最適化として使用される最適化の結果は、初期化。

関節機能の喪失(共同損失関数)

  • 入力画像\(X_0 \) 出力画像\(X \)
  • Rは、出力画像を表し\(X \) 欠落部分を(ΦR ^ \)\削除対応する部分請求VGG-19ネットワークマップφ(X)の領域を表します。
  • H(・)は、抽出サブ画像又は矩形領域マップにサブ機能、すなわち、H(X、R)×R領域の色内容を表す、の操作を表す\(H(Φ(x)は、R ^Φ)\ )を表し\(φ(X)\)\(R ^φ\)コンテンツ領域。
  • 制約ネットワークコンテンツ(コンテンツネットワーク)と呼ばれる(F \)\テクスチャ制約ネットワーク(texttureネットワーク)と呼ばれる(T \)\
  • 画像縮小率\(I \) = 1,2、...、N(Nは縮小の数である)、最適な再構成(穴埋め)結果\(X ^〜\)は、次のようにして解決することができます達成するための最小化問題:
    • 3j49s0.jpg
    • ここで、\(H(X_1、R&LT)= F(X_0)\) \(φ_t(X)\)ローカルテクスチャ・ネットワークを表す\(T \)特性マップ中間層(特徴マップ)(または特性マップ組合せ)、αは、これら二つの用語の間に右の重量の重要性を反映しています。各サイズの損失のバランスをとる5E-6αとβ。
    • 説明損失関数の三:\(E_C \)、\ (E_T \)\(ガンマ] \)
      • \(E_cは\)としてモデル化される制約の全体的なコンテンツの前に予測された(コンテンツネットワーク粗いスケールから、または最適化の結果)との間で異なるように最適化結果を罰するために、\(L_2 \)の違い。

        • 3jjlwj.jpg
      • \(E_T \)のようにモデル化されたローカルテクスチャ制約テクスチャ外観の欠落部の内側と外側の差を処罰します。
        • まず、ネットワーク\(T \)層(または機能層の組み合わせ)で機能を選択し、抽出特徴マップ\(φ_t\)欠失領域のため、\(R&LT \)\(S×S×C \)ローカルクエリブロックサイズP、我々は、外側のブロックの欠落部分に最も類似を見つけ、その最近傍問合せブロックからの平均距離によって損失を算出します。
        • 3vSzrT.jpg
        • \(| R ^φ| \ ) 領域である\(R ^φ\)サンプルのブロックの数、\(P_I \)の位置である\(I \)は、ブロック(局所神経パッチ)の部分的な中枢であります\(NN(I)\)のように計算されます。3xBvxU.jpg
          • \(Nは、(i)\)である\(I \)及び(R&LT \)\隣接位置の重複コレクション。
      • テレビ損失の目標は、画像よりスムーズにすることです。

        • 3xDfoR.jpg

コンテンツネットワーク

  • ネットワーク(コンテンツ予測ネットワーク)初期予測ネットワークの内容を学習するための簡単な方法は、訓練され回帰\(F \)入力画像を用いて\(X \)応答(未知の面積を有する)\(F(X)\)近似領域内の\(R&LT \)でグラウンドトゥルース\(x_g \)
  • 私たちは、実験\(L_1 \)の損失と敵対損失を。
  • 各トレーニングの画像については、\(L_2 \)損失は以下のように定義されています。3xcu59.jpg
  • 敵対的損失は次のように定義されています。3xc1v6.jpg
  • 私たちは、同じ方法エンコーダコンテキストを使用して\(L_2 \)モード損失と敵対的損失の組み合わせを:3xgdwF.jpg
    • 0.999λを取ります

テクスチャネットワーク

  • 我々の実験ImageNetネットワークの分類質感(テクスチャネットワーク)などVGG-19前訓練を受けたネットワーク、および使用して\(relu3-1 \)\(relu4-1 \)層のテクスチャ計算地元の制約(ローカルテクスチャ項)。二つの層を用いて計算すると、単層の計算結果よりも良好であろう。
  • ネットワークVGG-19使用の理由:このように、セマンティック分類を訓練した後、VGG-19ネットワークは、層間強い不変(テクスチャ歪み)を有することを特徴とします。これは、より正確な復興の欠けている部分を推測するのに役立ちます。

実験

可視化と評価を定量化しました。我々は、第1のデータセットを導入し、その後、高解像度画像修復にこの方法の有効性を証明する他の方法と比べ。この最後の部分では、我々は、実際のアプリケーションを提示し、このアプリケーションでは、我々は写真から妨害を削除することができます

  • データセット:パリのストリートビューとImageNet(ラベルを使用しないでください)。
    • パリstr​​eeviewは:14900のイメージと100トレーニングテスト画像が含まれています。
    • ImageNet:126万枚の画像とランダムに集中型の検証画像から選択された200を含め、トレーニング。
  • 実験設定:低解像度(128×128)の場合には、いくつかの標準的な方法との我々のアプローチの最初のを比較します。
    • まず、我々は結果を採用します\(L_2 \)と比較されているエンコーダコンテキストの損失を。
    • 次善の結果は、我々は我々の文脈エンコーダに近づく対立的損失を比較した使用をした、それが最新の技術の分野における画像修復のための深い学習を使用することです。
    • 最後に、我々は、AdobePhotoshopでPatchMatchアルゴリズムコンテンツアウェアフィルの結果を比較します。私たちは、提案された枠組みの同時最適化の有効性を実証比較します。
      • 参照方法と比較して、米国の最適化における同時最適化アルゴリズムとテクスチャネットワークの全体的な有効性、及びジョイントネットワーク最適化コンテンツネットワーク分離およびテクスチャの役割のさらなる分析の役割を説明します。
      • 最後に、我々は、高解像度の画像復元の結果を提示し、コンテンツアウェアフィルとコンテキストエンコーダ(ℓ2及び敵対損失)と比較しました。エンコーダのためのコンテキストは、高解像度の結果が直接得られた低解像度の出力をサンプリングすることによって得られることに留意されたいです。我々の方法は、視力の質に有意な改善を示しました。
  • 定量的比較
    • 低解像度(128×128)パリデータセットの路上での画像は、私たちの方法は、我々は、基準側を比較します。表1の結果が示すには、我々のアプローチは、最も高い数値パフォーマンスを受け取ったことを。我々は我々のアプローチの性質のために、この属性 - コンテキストエンコーダの結果と比較し、また、より良い画像の細部を合成することができるとして、画像の正しい構成は、Content-Awareの塗りつぶしが失敗したときと推察することができます(図4)。また、目標を修復する作業がかなり正確に同じ内容で元の画像を生成するよりも、現実的なコンテンツを生成することで、所与の、定量的な評価は、最も効果的な改善策ではないかもしれません。3z91AS.jpg
  • コンテンツおよびテクスチャネットワークの効果
    • 私たちは、研究が同時最適化に制約コンテンツ項目(コンテンツ制約項)、唯一のテクスチャ項目を削除することで行いました。図8は、最適化を導くためにコンテンツアイテムを使用することなく、構造的な修復の結果は完全に誤っています。また、コンテンツ項目とテクスチャ項目間の相対的な重みを調整します。我々は、より多くのコンテンツ重い制約重みを使用して、結果が複数の初期予測コンテンツネットワークに沿ったものであることを見出したが、高周波数ディテールを欠いていてもよいです。同様に、アイテムは複数のテクスチャ結果が明らか得られるが、画像全体が正しい構造(図6)であることを保証することはできません使用することができます。
  • 敵対損失の影響
    • 私たちは、研修コンテンツネットワークにおける対立損失(コンテンツネットワーク)を使用しての効果を分析しました。一つは、対決の損失を使用せずに、コンテンツネットワークはまだ共同で、後にキャリブレーションのテクスチャを最適化し、画像の構造を予測することができる、と思うだろう。しかし、我々は最終的な結果のために非常に重要な特定のコンテンツネットワークの初期化の品質を発見しました。初期予測が曖昧である(使用は、「L2損失」)、コンテンツネットワークを訓練「L2損失」と「損失に対して」を使用して、同じ時間と比較した場合、最終結果は(図7)より不鮮明になってきています。
  • 高解像度の画像修復
    • 我々は、図に示している。図5及び図10の結果を修復する高解像度画像(512×512)、およびコンテンツアウェアフィルエンコーダとコンテキスト(\(1_2 \)比較損失+敵対損失)。コンテキスト・エンコーダは、128×128の画像に適用され、入力が大きい場合、我々はそのまま出力の512×512 128×128サンプルに双線形補間を使用するので。結果のほとんどで、我々は反復法をマルチスケール他の方法の利点を組み合わせた、コヒーレントグローバル構造と高周波数ディテールを有する結果を生成します。図に示すように、コンテンツに応じて塗りつぶしと比較して、我々のアプローチの重要な利点は、我々が直接、従来のパッチ修復を使用していないので、我々は、新しいテクスチャを生成することができるということです。しかし、欠点は、この認識が満たされた内容よりもはるかに遅い、それは、私たちの現在の実装に基づいて、当社のアルゴリズムはタイタンX GPUと512×512 256×256の画像の穴を埋め、1分程度かかります。
  • 実世界ディストラクタの取り外しシナリオ
    • 最後に、私たちのアルゴリズムは簡単に任意の形状の欠けている部分に対処するために拡張することができます。まず、再び平均画素値で充填欠落部分のいずれかを覆うように矩形で囲まれた欠落部分を使用します。適切な切断および長方形を充填は、入力コンテンツネットワーク等の画像、中央に位置された後。同時最適化では、コンテンツの制約(コンテンツ
      制約)が初期化され行方不明の任意の部分の内容によって、ネットワークの出力です。部分削除の制約ベースのテクスチャ領域外。図11は、感知及びコンテンツ充填アルゴリズム(音符、エンコーダコンテキスト(コンテキストエンコーダ)我々はこれと比較されないので、欠落している部分で明示的に扱うことができない)と比較してのいくつかの例を示す図です。

結論

意味論の観点から、合成神経ブロック(神経のパッチ合成)の使用における最新の進歩は、私たちが提示した修復します。ネットワークコンテンツ(コンテンツネットワーク)は、強力な先験的及びグローバルな意味構造を有している、非常に強力な高周波詳細を製造する際に見出され、テクスチャネットワーク(テクスチャネットワーク)。これは、潜在的に、このようなノイズ除去、超解像、再標的化とビュー/時間的補間のような他の用途のために有用であり得ます。シーンの複雑さは、私たちの方法は、(図9)の不連続性やアーティファクトを紹介しますとき。また、スピードはまだ私達のアルゴリズムのボトルネックとなっています。私たちの目標は、将来の仕事にこれらの問題を解決することです。

おすすめ

転載: www.cnblogs.com/wenshinlee/p/12444785.html