構造知覚される画像の復元:ICCV2019分析論文

構造知覚される画像の復元:ICCV2019分析論文

StructureFlow:画像は構造を意識した外観の流れを経て修復

 

 

論文は、リンクされています

http://openaccess.thecvf.com/content_ICCV_2019/papers/Ren_StructureFlow_Image_Inpainting_via_Structure-Aware_Appearance_Flow_ICCV_2019_paper.pdf

https://github.com/RenYurui/ StructureFlow:ソースコードが入手できます。

 

概要

近年では、深いニューラルネットワーク画像復元技術の使用は、有意な改善を示しています。しかし、それらのほとんどは、きめ細かい質感の合理的な構造を再構築または復元することができない場合があります。この問題を解決するために、我々は2段階モデル​​を提案し、修理や再建タスク構造は二つの部分、テクスチャ生成に分かれています。第一段階では、不足している入力の構造を完成するために画像再構成トレイン構造をエッジ保存平滑化を使用して。第二段階では、構造の再構成に基づいて、テクスチャストリーム生成器の設計外観は、画像の詳細を生成します。開示されたデータの複数のセットの実験では、ネットワークは、優れた性能を有することを示します。

1。前書き

画像欠落領域が代替構造およびテクスチャを生成するために、入力画像に修復損傷を参照して、視覚的忠実度の結果が得られました。これは、アプリケーションの広い範囲を持っています。例えば、ユーザは、不要なオブジェクトを削除したり、画像の内容を編集する修復技術を使用することができます。大きな課題の画像修復作業は、正しい構造と実際のテクスチャを生成することです。いくつかの初期の従来のパッチ穴の欠落した画像領域を埋めるためにパッチベースワークへの試み[1、8]。最近傍探索法とリアルな質感のために、関連するパッチをコピーして、背景の修理作業を合成することができます。これらの方法はセマンティックレベルをキャプチャしていないので、画像はしかし、本当の構造を生成するために、非反復パターン(例えば、人間の顔を)持っていることは困難です。深いニューラルネットワーク技術の出現により、いくつかの新しい仕事は、入力画像とグランドトゥルース画像の破壊との間のマッピング関数を学習することを条件を生成するモデリング作業のために、問題を修正します。これらの学習方法は、意味のあるセマンティクスすることができ、欠けている穴としてコヒーレント構造を生成することが可能です。彼らは多くの場合、過度の円滑なまたはテクスチャ境界アーティファクトの影響を受けているようしかしながら、これらの方法は効果的、構造とテクスチャ情報を分離することはできません。             

この問題を解決するために、本論文では、提示2つのネットワークの一部[33、26、21]。これらの方法は、第一段階で欠落構造を復元し、そして第二段階での情報を用いて、最終的な再構成の結果を生成します。記載の方法、[33]実際の画像復元として接地マーク構造の使用を提案しました。しかし、現実的なイメージは、高周波地面テクスチャが含まれています。これらの詳細は、独立した構造的リモデリングを誤解することができます。SPGネットワーク[26]分割セマンティックラベル領域の欠失は、構成情報として予測されます。しかし、地域が持っている同様の意味タグは難しい、最終的な回復を与える異なるテクスチャ(例えば、同じ建物の窓や壁)を有していてもよいです。EdgeConnect構造規定、さらにいくつかの高度に構造化されたシーンのために、良好な結果が得られるようなエッジ画像を使用して[21]。しかし、分布及び画像の対象画像のエッジの分布が非常に異なっています。換言すれば、エッジ抽出が困難鮮やかなテクスチャを生成すること、そのような画像の色のような多くの有用な情報を破棄する。

本論文では、2つのネットワーク構造を新しい画像復元処理を提示しています。この記事では、ネットワーク構造と再構成のテクスチャ生成コンポーネントで構成されます。意味のある構造を回復するために、滑らかな残像は、シーンのエッジ画像の全体構造を表すために本明細書中で使用されます。方法エッジ保存平滑化[30、31]は、鋭いエッジと低構造を保持しながら、高周波テクスチャを除去することを意図しています。ネットワークの場合には、構造のガイド再構築として、これらの画像を使用すると、無料のテクスチャ情報を妨げることはできない、と世界経済の回復の構造に焦点を当てます。高周波細部の合成テクスチャ発生器を使用して欠落している構造の再構築後。同様の構造の画像近傍ため高度に相関しているので、欠落領域のテクスチャ非損傷領域を生成するために使用されてもよいです。しかし、ニューラルネットワークコンボリューションは、長期相関モデルを確立することは困難である[33]。             

異なる領域間の明確な関係を確立するために、外観は、本明細書ストリーム推奨されている領域から[35]を示すように、同様のサンプリング構造を備えています。表面流が容易修復タスクで立ち往生しているので悪いにおける極小内に[33]、本研究では、トレーニングプロセスの収束を確実にするために2つの変更を行いました。まず、代わりに操作をサンプリング拡張サンプルをサンプリング双線形ガウスを受信します。第二に、この論文は、正しいサンプリング領域かどうかを決定するために、サンプリングの精度の損失と呼ばれる、新たな損失関数を導入します。いくつかの新しい方法の主観と客観の比較実験により、我々は、この方法が良い結果を達成できることを証明しました。また、この核融合研究は、この記事の仮定および修正を検証します。             

この論文の主要な貢献は、次のように要約することができます。             

•再構成は、グローバル構造として保持される構成、エッジ情報を生成する平滑化画像を提案しました。              、

•本論文では、地域や既存分野の長期補正の欠如との間に発生するテクスチャを作成するための設計を紹介します。             

•外観の最適化トラフィックを簡単にするために、我々はガウスサンプリングの代わりに、双一次サンプリング、および新しいサンプリング正し損失の導入を使用することをお勧めします。             

•複数のパブリックデータセットの実験は、我々の方法は、競争力のある結果を得ることができることを示しています。

 

 

2。関連作業

2 0.1。画像インペインティング

従来の画像修復作業は、2つのカテゴリに分けることができる:一方は拡散法やシート表面に基づいており、他方は深いニューラルネットワークの方法です。拡散法[2、6]は目標開口に伝播近傍テクスチャ外観により合成しました。しかし、これらの方法では、唯一の穴にパッチを適用バックグラウンドタスクを処理することができます。彼らは、意味のある構造を生成することができない場合があります。拡散のみの異なる方法に基づいて孔近傍画素を欠落用いて、パッチベースの方法は、欠失領域テレマティクスを復元するために使用することができます。パッチベースの方法[1、8、ソース画像と重複する画像パッチ領域探索から同様の損傷を受けていないことにより3]は、対象領域を充填します。これらのメソッドは、細孔の大漏れリアルな質感かもしれません。適切な画像ブロックを見つけるために、双方向の類似製概念[24]類似度計算ブロックより視覚的な情報を得るために、より少ない視覚的アーチファクトを導入します。計算量を減らすために、PatchMatch [1]高速最近傍探索アルゴリズムは、自然画像の事前情報として干渉の度合いに基づいて設計されています。しかしながら、これらのパッチベースの方法は、削除領域と非空の領域を想定して、同様の意味内容を有する顔画像修復タスクで保持できない可能性があります。したがって、いくつかの画像がうまく機能することができ、繰り返し構造を有するが、画像のためのユニークな構造を有するため、それらは合理的な結果を生成することができません。近年では、多くの方法が、修復作業に学習の深さに基づいて提案されている状態の生成問題としてモデル化されます。これらの方法の重要な利点は、彼らが破損した画像から意味の意味を抽出し、新しい画像コンテンツを生成することができることです。エンコーダコンテキスト[22]初期の試みの一つです。これは、エンコーダ使用デコーダアーキテクチャ最初の抽出機能と、その後、再構成出力を- 。しかし、これはグローバルな一貫性のネットワークを維持することは困難であり、多くの場合、視覚的な化学元素を使用して生成された結果。飯塚ら[12]この問題を解決するために、ローカルおよびグローバルアービタを使用することにより、これらの分類は、競争の画像流れと一貫したイメージの実際の代替コンテンツを生成するための責任があります。Yuら。[33]長期相関が無効で確立すること畳み込みニューラルネットワークを発見しました。この問題を解決するために、彼らは、遠隔地のコンテキストの注目から機能を借りて提案しました。Liuら[16]ピクセル代替エンド結果、入力されたシールドビアがアーティファクトをもたらすと考えています。したがって、彼らは有効画素(ピクセルに損傷)を使用するようにネットワークを強制的に畳み込み部を提案しました。畳み込みゲートされた[32]さらに、この概念を一般化、すべての層上の各位置を拡張するための機能選択機構が学習可能です。論文[21]提案追加のアプリオリ情報を合理的な構造を生成する:EdgeConnectは、本明細書に同様の動機を有します。EdgeConnectは、まず、地図のエッジを復元する詳細情報の欠落領域を埋めます。しかし、エッジマップの限られた容量のために、この方法は、オブジェクトの境界に誤った内容を生成することができます。

2 0.2。オプティカルフローと外観の流れ

オプティカルフローは、連続するビデオフレーム間のオブジェクトの動き、及びエッジ表面を記述するために使用されます。これは、ビデオ・フレーム内で合成された行動認識、[37,29] 、[25,28]は、広くそのようなオプティカルフロー推定などの分野で使用されているコンピュータビジョンにおける重要な課題です。多くの方法[11、27]は正確に連続するフレーム間のオプティカルフローを推定することが提案されています。最近、いくつかの方法[5,13]は深いニューラルネットワークを訓練することによって、この問題を解決します。しかし、これらの技術は十分な根拠実際の光照射野を必要とし、それを得ることは非常に困難です。したがって、いくつかの合成オプティカルフローは、データセット作成トレーニングのために使用される[5]。

いくつかの他の方法[18、19]は教師なしトレーニングネットワークを介してこの問題を解決します。しかし、多くの既存の教師なしオプティカルフロー推定法は大きな動きを、とらえどころのありません。文献[18、23]の結果を改善するために、マルチスケールの方法を使用することを試みました。本論文では、これは、双線形サンプリングによるものであると主張しています。本明細書中で、本明細書に改善ガウスサンプルとして。[35]ストリームの外観に基づいて外部流発生対象シーン(オブジェクト)ソースからのシーン(オブジェクト)メソッドを使用することを提案しました。これは、二次元座標ベクトルを予測するために、ソースとターゲットとの間の相関を計算する(すなわち、流れ場の外観)。このアイデアは、画像修復作業のために使用することができます。細孔実代替コンテンツの削除に、画素は欠失領域にソース領域「フロー」から合理的に(機能)とすることができます。本明細書において、紙は、改善画像修復作業に適して、[35]のストリームの外観。

 

 

3。当社のアプローチ

示されるようにフレームワーク修復は、ネットワークフロー図です。構造再構成:私たちのモデルは、2つの部分から構成さのGsとテクスチャジェネレータGtを。

3 0.1。構造再構成

大きな課題の画像修復タスクが削除された地域のために意味のある構造を生成することです。したがって、紙構造再構成の設計グローバル構造は、入力された画像Gを復元します。方法エッジ保存平滑化[30、31]は、鋭いエッジと低構造を維持しながら、高周波テクスチャを除去することを意図しています。これらの結果は、グローバルな構造の良い表すことができます。

3 0.2。テクスチャジェネレータ

畳み込みニューラルネットワークを効果的に長く依存キャプチャすることができます[33]。異なる領域間の明確な関係を確立するために、設計は、本明細書に組み込まれるGtを。示されるように、図2、歪んだ入力を抽出するための流動特性の外観。

流れ場の様子を制限するために提案され、精度の損失をサンプリング。現在の領域が「良い」の選択肢であるかどうかを決定するためにサンプリングされます。本論文では、事前に訓練を受けた損失を計算するVGG19。

 

 

4。実験

4 0.1。実装の詳細

基本的に、発生器は、本明細書に記載のGsとGtは自動エンコーダ構造の設計です。いくつかの残りのブロックの追加、更なる処理の特性の[9]。本明細書に記載の特徴を備えた流線型の外観については、得られた接続されたコンボリューションブロックを歪ませることになります。弁別本明細書に類似した構造Bicycleegan構造[36]。本明細書で使用されるように、2つの異なるスケールPatchGANs [14]予測真偽は異なるスケールで画像を重ね合わせ。ネットワークの記事でスペクトル正規使用して、この悪名高いに対して不安定訓練生成的なネットワークの問題を解決するために、[20]。

本明細書に含む、3つの一般的なデータセットにモデルを訓練Place2 [34である]、Celeba [17]とパリストリートビュー[4]。最も挑戦的なデータセット以上含まれていplace2 含まれている1000枚のワン画像、400以上のユニークなシーンカテゴリを。Celebaとパリのストリートビューは、高度に構造化された顔画像の建物が含まれています。本明細書中で使用される、[16]、不規則なマスクデータセットによって提供されます。孔径(例えば、画像全体に対してマスク画像0-20%を分類する、など)。この論文では、この方法はエッジスムージング保持する構造再構成得るためRTV [31] のGTトレーニングラベル。RTV平滑化処理、平滑化パラメータσは、テクスチャ要素の最大サイズを制御するように、窓の空間スケールを制御します。最初にセクション4.3、紙は、最終結果にσの影響を論じています。本明細書において使用される設定σ≈通り。3、記事は、経験的に最良の結果を得ました。

4 0.2。比較

ここで、主観的および客観的方法は、コンテキスト(注意方法を含む、最新のいくつかの方法との比較のために本明細書に記載CA)を[33れている]、畳み込み部(PCONV)[16]とEdgeConnect [21]。             

客観的な比較             

専門的な定量的評価指標の画像修復タスクの不足。認知の歪みメトリックおよび品質メトリクス:正確にできる限りの結果を比較するために、我々は2回の測定値を使用しています。構造的類似性指数(雑音比(にSSIM)とピーク信号復元結果を仮定上PSNR)は、対象画像と同一です。これらは、歪みの測定に使用されています。フレシェ初期距離(FID)二つの分布間で計算[10] ワッサー-2距離。             

したがって、それは結果の知覚品質を示すかもしれません。計算に時間FIDスコアを、本明細書中で使用される、事前訓練抽出物インセプション-V3モデルは実画像と画像復元を特徴とします。最終的な評価結果を表1に示す1。テストセットに計算10Kランダム画像統計を。図から分かるように、他のモデルに比べて、我々のモデルの結果は、競争力の達成されています。              主観的比較              

本論文では、アマゾン機械トルコ人(MTurk)は主観の研究を行いました。ボランティアは、実際の画像と生成されたペアからの記事に、より現実的な画像を選択するよう求めました。各データセットについて、ランダムに選択された物品600枚の画像とからランダムマスク比- 0%から60%の評価に割り当てられています。別のボランティアによって各画像5つの比較。評価結果を表1に示す。2。顔データセットではCelebaやストリートデータセットパリや他の高度に構造化シナリオ、我々のモデルは、競合他社よりも良い結果を達成しました。このショーは、我々のモデルは削除された地域のために意味のある構造を生成することができることを。データセットの位置に基づいて2も競争力のある結果を達成しました。             

3に示す異なるモデルのいくつかの例の結果。図から分かるように、CAの結果は、この方法は、構造のバランスをとるとテクスチャを生成することは困難であることを意味するアーチファクトによって影響されます。EdgeConnectは正しいグローバルな構造を復元することができます。しかし、オブジェクトのエッジで詳細のエラーを生成することができます。方法は、本明細書で意味のある構造及び鮮やかなテクスチャを生成することができます。また、それは本明細書で提供されるEdgeConnect再配列構造とモデル4。エッジマップは、画像の色として、回復グローバルな構造の時に有用な情報の多くを失ったことを私たちを見つけます。したがって、EdgeConnectはいくつか不足している分野の間違ったより多くの情報を提供することができます。同時に、異なるオブジェクトのエッジは、それが困難なテクスチャを生成することを可能にするエッジマップに混合一緒にしてもよいです。対照的に、滑らかな画像は、画像の構造だけでなく、物品ショーのエッジを保持することができます。したがって、このモデルはうまく改造やテクスチャ生成ここバランスさせることができます。画像の構造よりも大きい孔を有するいくつかの高もため、現実的な結果を得ることができます。

4 0.3。アブレーション研究

このセクションでは、最終的な性質のストリームの構造の各成分の寄与の観点の構造及び外観の点から二物品。この記事では、我々は、画像修復作業のための構造情報が重要であることを前提としています。したがって、事前情報として、紙及び再構成の構造は、最終的な結果を生成します。唯一のテクスチャパッチジェネレータを使用してモデルを訓練、こここの仮説、取り外し可能な構造の再構成をテストします。破損した画像とマスクは、直接モデルに入力されます。公正な比較のために、我々はまた、ネットワーク上のトラフィックの外観を保持していることに注意してください。結果を表1に示す3。

目に見える、構造的リモデリングはモデルの安定したパフォーマンスの向上をもたらす可能性があり、本明細書です。本論文では、エッジ保存平滑化の画像にその注意を向けています。本明細書で我々は、平滑化操作は高周波テクスチャを除去するために、滑らかな画像は、エッジを保持するための構造で表すことができると考えています。これを検証するために、我々は、グランドトゥルース画像を使用してモデルを訓練ラベルの構造的な復興としてIGT。結果を表1に示す3。そして、性能劣化にテクスチャ構造の結果として高周波画像を含む、StructureFlowを比較しました。

しかし、正確に画像の質感や構造を区別することは困難です。どれだけの手術の範囲?私たちは、構造とテクスチャジェネレータの再構成の間にトレードオフがあることがわかります。少しテクスチャが削除された場合、それはより多くの情報を復元する必要があるため、復興の構造は、より困難になります。しかし、テクスチャの生成が容易になるだろう。したがって、私たちはより良い結果を得るためには、タスクの難易度の両方のバランスを取る必要があります。使用滑らかRTV [31]をσの方法を制御するために、滑らかな結果値が大きいσを取得するために軍曹テクセルに最大寸法を。本明細書で使用される、σ = 0,1,3,6,9平滑化画像ストリームは、トレーニングアーキテクチャによって生成されます。データが設定されます。表にパリに評価結果を下記4。σ場合のように、見ることができる結果= 3は、最良の結果を得ました。小さすぎるとσの値が大きすぎると、パフォーマンスの劣化モデルを引き起こす可能性があります。図の例であることがわかった。5。σの場合= 0、構造が再構成無関係なテクスチャ情報を乱され、合理的な構造を生成することができません。σときにいくつかの有用な情報構造の除去のために= 9トレーニング、テクスチャジェネレータは、リアルな画像を生成することができないとき。

このフロー融合核融合研究では、まず、物品の表面の流れによって得られるパフォーマンスの向上を評価します。そこで、本論文では、有効性と正確性の損失サンプリングのガウスサンプリングを説明します。ここストリーム外観の妥当性を検証するために、モデルは、テクスチャの外観ストリームブロックビルダーを使用せずに、本明細書中で訓練を受けました。評価結果を表1に示す3。図から分かるように、紙の本ストリームの外観は、テクスチャを生成し、より良い性能、との訓練ストリーム操作の出現なしによりモデルStructureFlowを助けることができるどの手段とモデルのパフォーマンスを向上させます。次に、我々はサンプリングと正しさの損失をサンプリングガウスこの論文をテストしました。

2つのモデルが融合訓練:動作の流れのねじれ面を使用して訓練される双線形モデルをサンプリングし、他方が場合であるサンプリングモデルの精度の損失を使用せずにトレーニング。6に示すこれらのモデルにおいて得られた流れ場の外観。したがって、サンプル損失の正確訓練されたモデルを使用することなく、大きな欠失領域の正確な特徴サンプルを抽出することができません。双一次サンプルは、長期的な関連性をキャプチャすることはできません。ここStructureFlow合理的な視野、および不足している地域のための現実的なテクスチャを生成します。

4 0.4。ユーザー事例

提案された方法は、いくつかの画像編集アプリケーションのために使用することができます。7は、使用のいくつかの例を提供します。ユーザーが対話的に不要なオブジェクトを削除するには、入力マスクに描かれたことができます。今回のモデルは、不足している本当の代替コンテンツ領域を生成することができます。さらに、画像を直接編集する構造は、ユーザがコピーしたり、新しいオブジェクト及びイメージコンテンツに加えてもよいです。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5。結論

本論文では、鮮やかなテクスチャーと構造との意味のある回復イメージのための効果的な構造を意識したフレームワークを提供します。構造とテクスチャの生成を再構築:本明細書の方法は、タスクは二つのサブタスクに分割して修復します。実験結果は、滑らかな画像のエッジを維持するだけでなくグローバルな構造情報を反映させることができることを示し、それが修復に重要な役割を果たしています。テクスチャ生成のために、本明細書中で使用される、関連するサンプリング機能領域からの流れの外観。本論文では、この動作の流れは、最終結果のパフォーマンス向上に安定性をもたらすことができます確認します。いくつかの方法の最新のと比較すると、本明細書の方法は、競争力のある結果を得ることができます。

おすすめ

転載: www.cnblogs.com/wujianming-110117/p/12631324.html