画像超解像分野におけるGANの応用

        このブログでは、画像超解像分野における対立生成ネットワーク GAN (SRGAN、ESRGAN、BSRGAN、Real-ESRGAN) の応用を紹介し、論文の内容、手法、ネットワーク構造を詳細に紹介し、関連する概要を作成します。 。GAN の原理の概要については、私の以前のブログを参照してください。リンクは次のとおりです:ネットワークに対して生成 - GAN https://blog.csdn.net/xs1997/article/details/130277123?spm=1001.2014。 3001.5501
ネットワークに対する条件付き生成 - CGAN https://blog.csdn.net/xs1997/article/details/130278117?spm=1001.2014.3001.5501

画像翻訳分野における GAN の応用 - CycleGAN&Pix2Pix https://blog.csdn.net/xs1997/article/details/130903541?spm=1001.2014.3001.5501さて、本題に入りましょう~

1.SRGAN(CVPR2017)

論文:https://arxiv.org/pdf/1609.04802.pdf

https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1609.04802

https://link.zhihu.com/?target=https%3A//github.com/zsdonghao/SRGAN

内容概要

        Twitter は CVPR2017 で SRGAN を提案しました。これは、画像の信頼性を向上させることを目的として、超解像度の分野に GAN を導入した最初の論文です。この記事では、敵対的生成ネットワーク (GAN) を使用して超解像度問題を解決します。この記事では、ネットワークのトレーニング時に平均二乗誤差が損失関数として使用されると述べられており、高いピーク信号対雑音比は得られますが、復元された画像では通常、高周波の詳細が失われ、良好な画像を得ることができなくなります。視覚的な体験。SRGAN は、知覚損失敵対的損失を使用して、復元された画像のリアリズムを向上させます知覚損失は、畳み込みニューラルネットワークを用いて抽出された特徴であり、畳み込みニューラルネットワークを通過した後の生成画像の特徴と、畳み込みニューラルネットワークを通過した後のターゲット画像の特徴との差異を比較することにより、意味的および生成された画像とターゲット画像のスタイルを改善し、より似たものにすることができます。SRGANの仕事は、生成部Gが高解像度画像から低解像度画像までを生成し、識別部Dが得られた画像が生成画像であるか実画像であるかを判定することである。生成器 G が識別器 D を騙すことに成功すると、この GAN による超解像が完了します。

ネットワーク構造

        超解像度は病的な問題であり、低解像度の画像ブロックが複数の高解像度画像ブロックに対応する可能性があります。MSE で得られる結果は、これらの複数の高精細画像ブロック (赤枠の画像ブロック) の平均のようなものであるため、結果として得られる画像は非常にぼやけており、実際の高精細画像 (高、中) の分布に準拠していません。本物の高精細画像に引っ張られた分布(黄色枠のタイル)

        平均二乗誤差を使用して SRResNet (SRGAN の生成ネットワーク部分) を最適化すると、高いピーク S/N 比の結果が得られます。SRGAN を最適化するためにトレーニングされた VGG モデルの高レベルの特徴の知覚損失を計算し、SRGAN の判別ネットワークと組み合わせることで、ピーク信号対雑音比は最高ではありませんが、現実的な視覚効果を持つ結果を得ることができます。SRGAN ネットワーク構造を次の図に示します。

        生成ネットワーク (SRResNet) 部分には複数の残差ブロックが含まれており、各ブロックは Conv-BN-PReLU-Conv-BN-Sum の構造を持ちます。スキップ接続の場所は 2 つあり、1) ブロック内にスキップ接続がある場合と、2) 複数のブロックもスキップ接続で接続されている場合があります。ジェネレーターには合計 16 個のブロックがあります。各残差ブロックには 2 つの 3x3 畳み込み層が含まれており、畳み込み層の後にはバッチ正規化層 (BN) と活性化関数としての PReLU が続き、2 つの 2x サブピクセル畳み込み層 (サブピクセル畳み込み層) が増加するために使用されます。機能サイズ。

        識別ネットワークは 8 つの畳み込み層で構成されます. ネットワーク層の数が深くなるにつれて, 特徴の数が増加し, 特徴のサイズは減少します. 活性化関数は LeakyReLU として選択され, 最終的に予測は 2 つの全結合層と最終的なシグモイド活性化関数 自然画像の確率。

小さなヒント: BN 層の導入によりネットワークのトレーニングを高速化できますが、BN層のテストではトレーニング セット データの平均と分散の統計が使用されます。テストデータとトレーニングデータの分布に一貫性がない場合、結果にアーティファクトが生成されます(そのため、作成者はESRGANのときにBN層を削除しました

損失関数

        知覚損失を使用して画像の信頼性を向上させます。知覚損失 = コンテンツ損失 + 敵対的損失。ピクセルレベルで損失を計算すると、画像がぼやけ、高周波情報が欠落する傾向があります。損失計算はピクセル レベルで実行するよりも特徴レベルで実行する方が適切です。特徴レベルではエッジや形状などのさまざまな構造情報が存在するため、生成された画像が特徴レベルで実際の画像と一致するように制約されると、生成された画像のぼやけが回避され、視覚が改善されます。

コンテンツ ロスは特徴抽出に VGG19 ネットワークを使用し、生成された画像と実際の画像を特徴レベルで制約します。vgg ロスによって計算された特徴マップは高レベル ネットワークによって取得され、ネットワークはより優れたテクスチャの詳細を生成します。VGG19 ネットワークの i 番目の最大プーリング層の前の j 番目の畳み込み (アクティブ化後) によって得られた特徴マップを使用して、VGG 損失を、再構成された画像の特徴表現と高解像度画像の間のユークリッド距離として定義します。解像度参考画像。

敵対的損失対損失の定義は次のとおりです: すべてのサンプルに対する識別器の確率判断

評価指標

        PSNR (Peak Signal to Noise Ratio): ピーク信号対雑音比は主に MSE の影響を受けるため、評価指標には単純に PSNR (Peak Signal to Noise Ratio) を使用するわけではありません。一方、MSE はあいまいな結果を生成する傾向があります。したがって、PSNRが高いということは、画像が人間の視覚に適合していることを意味するのではなく、画像がぼやけていることを意味します。

        平均主観的意見スコア (MOS) は、ユーザーに画像を見て、1 が最悪、5 が最高として 1 ~ 5 で評価してもらい、スコアを数えます。この評価指標の結果は人間の視覚認識を説明することができます。MOS スコアが高い場合は、画像が人間の視覚認識に適合していることを意味し、そうでない場合は適合していません。

        MOS の結果では、高精細画像である HR の MOS スコアが最も高く、SRGAN が 2 位となっており、SRGAN が画像の信頼性を向上させる信頼性があることがわかります。

2.ESRGAN(ECCV2018)

論文リンク: https://arxiv.org/abs/1809.00219

論文ソースリンク: https://github.com/xinntao/ESRG

内容概要

        Twitter は復元画像の視覚的知覚を改善するために超解像分野に Gan (SRGAN) を導入することを提案していますが、そのフレームワークはアーティファクトを伴いながらディテールを生成します。ネットワークのトレーニングを高速化しますが、BN 層テストではトレーニング セット データの平均と分散の統計が使用されます。テスト データとトレーニング データの分布に一貫性がない場合、結果にアーティファクトが発生します。したがって、復元された画像の全体的な視覚認識をさらに改善する方法は検討する必要がある問題です。

        ビジュアル品質をさらに向上させるために、この論文では SRGAN の 3 つの主要なコンポーネント (ネットワーク構造、敵対的損失、知覚的損失) を深く研究し、それらを改善して、Enhanced SRGAN (ESRGAN) を実現しました。ESRGAN は SRGAN よりも優れたビジュアル品質を実現し、よりリアルで自然なテクスチャを実現し、PIRM2018-SR チャレンジで 1 位を獲得しました。主な改善点は以下のとおりです。

  • 基本的な構成要素としてバッチ正規化を行わない Residual-in-Residual Dense Block (RRDB) を導入する
  • 相対論的 GAN の考え方を利用して、ディスクリミネーターに絶対値ではなく相対的な信頼性を予測させます。
  • 知覚損失の改善は、SRGAN のアクティベーション後の VGG 機能をアクティベーション前の VGG 機能に置き換えて、輝度の一貫性とテクスチャの復元をより強力に監視することを提案しています。

ネットワーク構造

左: SRGAN 残差ブロックの BN 層が除去されています。右: より深いモデルで使用される RRDB ブロック。β は残差スケール パラメーターです。SRResNet の基本アーキテクチャでは、ほとんどの計算は LR 特徴空間で実行されます。

        さまざまな PSNR 指向のタスクでは、BN 層を削除するとパフォーマンスが向上し、計算の複雑さが軽減されることが示されています。BN レイヤーは、トレーニングではデータのバッチの平均と分散を使用し、テストではトレーニング セット全体の推定平均と分散を使用して特徴を正規化します。トレーニング セットとテスト セットの統計が大きく異なる場合、BN レイヤーは不快なアーティファクトを導入し、一般化を制限する傾向があります。

        GAN アーキテクチャでトレーニングし、ネットワークが深い場合、BN 層でアーティファクトが発生する可能性が高くなります。これらのアーティファクトは、反復の途中や異なる設定下で発生することがあり、トレーニング中の安定したパフォーマンスの必要性を侵害します。したがって、SRGAN によって復元される画質をさらに向上させるために、ESRGAN はジェネレーター G のアーキテクチャに 2 つの変更を加えます。

1) すべての BN 層を除去します。

2) 元の基本ブロックを、提案されている残差セット残差密ブロック (RRDB) に置き換えます。RRDB は、多層残差ネットワークと密な接続を組み合わせたものです。

        ジェネレーター アーキテクチャの改善に加えて、相対 GAN に基づいてディスクリミネーターも強化されました。SRGAN のラベル付きディスクリミネーター D とは異なり、D は入力画像 x が本物で自然である確率を推定し、相対ディスクリミネーターは、図に示すように、本物の画像 xr が偽の画像 xf よりも相対的に本物である確率を予測しようとします。標準識別器と相対識別器の違いについては、以下の図を参照してください。

損失関数

        より効果的な知覚損失 Lpercep は、SRGAN で実践されているように、アクティベーション後ではなく、アクティベーション前に機能を制限することによって開発されました。アクティベーション層の前に機能を使用すると、次の 2 つの欠点があります。

(1) アクティベーション機能は非常にまばらであり、特に非常に深いネットワークの後では、まばらなアクティベーションによる監視が弱く、パフォーマンスの低下につながります。

(2) 実画像と比較すると、アクティブ化された特徴量の使用により、再構成の明るさが不均一になります。

        画像「ヒヒ」のアクティベーション前後の代表的な特徴マップ。ネットワークが深くなるにつれて、アクティベーション後のほとんどの機能は非アクティブになり、アクティベーション前の機能にはより多くの情報が含まれます。

方法の概要

        ESRGAN モデルは、以前の SR 手法よりも優れた知覚品質を一貫して達成します。知覚指標の点では、この方法は PIRM-SR チャレンジで 1 位を獲得しました。この論文では、BN 層を持たないいくつかの RDDB ブロックを含む新しいアーキテクチャを構築します。さらに、提案された深いモデルのトレーニングを容易にするために、残差スケーリングやより小さな初期化などの有用な手法が採用されています。また、相対 GAN をディスクリミネーターとして使用することも導入されており、これにより、ある画像が別の画像より現実的であるかどうかを判断することが学習され、ジェネレーターがより詳細なテクスチャを復元するように導きます。さらに、起動前に機能を使用して知覚損失を増強することで、より強力な監視を提供し、より正確な明るさと実際のテクスチャを回復します。

3.BSRGAN(ICCV2021)

論文: https://arxiv.org/abs/2103.14006

コード: https://github.com/cszn/BSRGAN

内容概要

        既存の劣化モデルに存在する問題を目的として、ブラー、ダウンサンプリング、ノイズ劣化のランダムな並べ替えを含む、複雑だが実用的な新しい劣化スキームを提案および設計します (つまり、各劣化は複数のタイプに対応し、その順序はランダムに調整されます)。具体的には、ブラーの劣化は 2 つの畳み込み (等方性ガウスぼかしと異方性ガウスぼかし) によってシミュレートされ、ダウンサンプリングは最近傍補間、バイリニア、バイキュービック補間からランダムに選択され、ノイズは異なるノイズ レベルのガウス ブラーを通過します。ノイズ、異なる圧縮品質の JPEG 圧縮、 ISPなどから発生するセンサーノイズを反転します。

        設計された新しい劣化スキームに基づいて、RRDBNet モデルがトレーニングされ、合成データであろうと実際のシーン データであろうと、得られたモデルは SOTA パフォーマンスと優れた視覚認識品質を達成しました。

主な貢献には次の点が含まれます。

  • より複雑な劣化空間を考慮して設計する、SISR の実用的な劣化モデルを提案します。
  • 上記で設計された劣化モデルによって合成されたトレーニング データに基づいて、ブラインド SISR がトレーニングされ、得られたモデルはさまざまな種類の実際の劣化データに対して非常に良好な結果を達成しました。
  • 一般化されたブラインド超解像度の劣化モデルを手動で設計する最初のスキーム。
  • DNN-SR の実用性にとって正確な劣化モデルの重要性を強調します。

既存の方法

        既存の画像の超​​解像度では、通常、バイキュービック法またはブラーダウン法を使用してトレーニング データを作成します。少し複雑な画像の場合は、ブラー、ダウンサンプリング、およびノイズの組み合わせが使用されます。ノイズは多くの場合、加法的なガウス ホワイト ノイズであると想定されますが、これは実際の画像のノイズ分布と一致させることが難しいことがよくあります。実際、ノイズはセンサー ノイズや JPEG 圧縮ノイズから発生することが多く、これらは通常信号に依存し、不均一です。 。ぼけ劣化が正確であるかどうかに関係なく、ノイズを効果的に一致させることができない場合、超解像性能の重大な劣化につながりますしたがって、実際の画像の劣化に直面して、既存の劣化モデルにはまだ多くの改善の余地があります

人工的に劣化をシミュレートすることに加えて、ブラインド画像超解像度スキームにはいくつかの研究方向性があります。

  • 最初に LR 画像の劣化パラメータが推定され、次にノンブラインド スキームを使用して HR 画像が生成されます。非ブラインド スキームは劣化エラーに非常に敏感であり、生成された結果は過度に鮮明で滑らかです。
  • ノイズを考慮せずにブラー カーネルと HR 画像を同時に推定すると、ブラー カーネルの推定は不正確になり、HR 再構成の品質に影響します。
  • RealSR や DRealSR など、監視された方法で LR/HR データ ペアを収集します。ペアのトレーニング データの収集コストは非常に高く、学習されるモデルは LR ドメイン画像に限定されます。
  • ペアになっていないトレーニング データに基づいて、CycleGAN と同様の考え方を使用してモデルをトレーニングし、ソース ドメイン画像とターゲット ドメイン画像を同時に劣化させてトレーニング データを生成します。このような方法では正確な縮退ブラー カーネル推定が重要ですが、不正確なブラー カーネル推定はモデルのパフォーマンスの低下につながる可能性があります。

ネットワーク構造

        BSRGAN は 4 つの観点 (ファジー、ダウンサンプリング、ノイズ、ランダム置換戦略) から劣化モデルを設計し、劣化モデル内のランダム置換戦略を設計します具体的には、縮退シーケンスに対して逐次ランダム置換が実行され、ランダム置換により縮退空間が大幅に拡張されます。

上図は劣化モデルの模式図です。HR 画像の場合、さまざまな劣化操作とパラメータを調整することで、さまざまな LR 画像を生成できます。

トレーニングの詳細

        BSRGAN の目的は、未知の劣化を前提として、より広範なブラインド画像の超解像度を解決することです。ESRGAN がベースライン モデルとして選択され、いくつかの変更が加えられました。

  • トレーニング データに関しては、DIV2K、Flickr2K、WED、および FFHQ の 2000 個の顔画像が使用されます。
  • 72*72 のより大きな画像ブロックが使用されます。
  • 損失に関しては、L1、VGG知覚、およびPatchGANの組み合わせが使用され、その組み合わせ係数は1、1、0.1です。

オプティマイザは Adam、バッチ = 48、固定学習率です。トレーニング全体には約 10 日かかります (Amazon クラウド、4 V100)

4.Real-ESRGAN(ICCV2021)

論文へのリンク: Real-ESRGAN: 純粋な合成データを使用した現実世界のブラインド超解像度のトレーニング

論文のソース コードへのリンク: GitHub - xinntao/Real-ESRGAN: Real-ESRGAN は、一般的な画像/ビデオ復元のための実用的なアルゴリズムを開発することを目的としています。

内容概要

SRアルゴリズムは、低解像度画像から高解像度画像へのマッピングをデータを通じて学習し、マッピングを通じて低解像度画像を高解像度画像に復元できます。高解像度画像から低解像度画像への劣化は複雑かつ多様であるため、実際のシーンでは SR アルゴリズムは制限されており、あるデータ バッチでトレーニングされたモデルは、別のデータ バッチではパフォーマンスが低下することがよくあります。つまり、一般化が不十分です。現実のシーンで使用できる汎用性の高いモデルをどのように入手するかが、SR の現在の課題です。

 ブラインド超採点タスクの紹介

        単一画像超解像 (SISR) の目標は、低解像度の観察から高解像度の画像を再構成することです。SISR のパフォーマンスを向上させるために、深層学習手法に基づくさまざまなネットワーク アーキテクチャと超解像度ネットワーク トレーニング戦略が提案されています。SISR タスクには、高解像度の HR マップと低解像度の LR マップが必要です。

        超解像度モデルの目的は後者から前者を生成することであり、劣化モデルの目的は前者から後者を生成することです。古典的な超解像度タスク SISR は、低解像度の LR 画像は高解像度の HR 画像の特定の劣化によって得られると考えており、この劣化カーネルはバイキュービック ダウンサンプリング ブラー カーネル (ダウンサンプリング ブラー カーネル) としてプリセットされています。しかし、実際のアプリケーションでは、この劣化効果は非常に複雑で、その式が不明であるだけでなく、単純にモデル化することも困難です。バイキュービック ダウンサンプリングされたトレーニング サンプルと実際の画像の間にはドメインの違いがあります。このドメイン ギャップは、ファジー カーネルが実際に適用されるときにバイキュービック ダウンサンプリングでトレーニングされたネットワークのパフォーマンスの低下につながります。このような未知の縮退カーネルによる超解像タスクをブラインド超解像タスクと呼びます。

        現実世界のシーンの複雑な劣化カーネルは、通常、カメラの撮像システム、画像編集プロセス、インターネット送信などの複数のプロセスの劣化の組み合わせなど、さまざまな劣化プロセスの複雑な組み合わせです。

SR アルゴリズムは、取得された LR 画像の劣化過程に応じて 2 つのカテゴリに分類されます。

アルゴリズムの種類

LR画像を取得する劣化方法

質問

明示的なモデリング

ブラー、ダウンサンプリング、ノイズ、JPEG圧縮などのHRの劣化を実行します。

実際のデータの劣化はより複雑かつ多様であり、単純な劣化の組み合わせで実際のデータをカバーすることは困難であり、その結果、トレーニングされたモデルの一般化が不十分になります。

暗黙的なモデリング

GANを使用してLR画像のデータ分布を学習する( cycleganなど)

ganで取得したデータを使用すると、生成されるデータもトレーニング セットの分布に傾向があり、トレーニング セットの分布が単一の場合、結果として得られるLRも単一になり、トレーニング済みモデルの一般化が不十分になります。

モデルアーキテクチャ

リアル ESRGAN ジェネレーター

        ESRGAN と同じジェネレーター、つまり、いくつかの Residual-in-Residual Dense Blocks (RRDB) を備えたディープ ネットワークが使用されます。ESRGAN は重いネットワークであるため、著者は最初に Pixel-Unshuffle 操作を使用します (Pixel-Shuffle の逆操作。Pixel-Shuffle は、画像チャネルを圧縮して画像サイズを拡大し、画像チャネルを拡大することで空間解像度を下げることとして理解できます)。チャンネル数)。画像の解像度を下げることを前提として、画像チャンネル数を拡張し、処理された画像をネットワークに入力して超解像再構成を行います。したがって、ほとんどの計算はより小さな解像度空間で実行され、GPU メモリとコンピューティング リソースの消費が削減されます。

Real-ESRGAN 識別子

        Real-ESRGAN は ESRGAN よりもはるかに大きな劣化空間を解決することを目的としているため、ESRGAN の Discriminator の元の設計は適用できなくなりました。Real-ESRGAN の Discriminator は、複雑なトレーニング出力に対してより高い識別力を必要とします。さらに、以前の ESRGAN の Discriminator は、画像の全体的な角度に重点を置いて真正性を判断していましたが、U-Net Discriminator は、生成された 1 つのピクセルの真正性をピクセルの角度から判断できるため、画像の全体的な真正性を保証できます。次に、画像の詳細の生成に焦点を当てます。U-Net の構造と複雑な劣化もトレーニングの不安定性を高めます。スペクトル正規化正則化を追加することにより、複雑なデータセットの複雑なネットワークによって引き起こされるトレーニングの不安定性の問題を軽減できます。

トレーニングプロセス

  1. まず、著者は L1 損失を使用して PSNR 指向のモデルをトレーニングします。結果として得られるモデルは Real-ESRNet と呼ばれます。
  2. 次に、Real-ESRNet のネットワーク パラメーターを通じてネットワークを初期化し、L1 損失、知覚損失、GAN 損失の組み合わせを使用して、最終的なネットワーク Real-ESRGAN をトレーニングします。

        トレーニング セットは DIV2K、Flickr2K、OutdoorSceneTraining を使用します。トレーニング HR パッチのサイズは 256、バッチ サイズは 48 です。Real-ESRNet は ESRGAN から派生したものであり、より高速なコンバージェンスを実現するために微調整されています。Real-ESRNet 1000K 反復をトレーニングし、Real-ESRGAN 400K 反復をトレーニングします。L1 Loss、Perceptual Loss、GAN Loss の重みはそれぞれ 1.0、1.0、0.1 です。

実験結果

        著者は、RealSR、DRealSR、OST300、DPED、ADE20K、およびインターネットからのいくつかの画像を含む、いくつかの異なるテスト データセット (すべて実世界の画像) を使用しています。以下の図に示すように、さまざまな方法で生成された画像の品質の視覚化が示されています。Real-ESRGAN は、アーティファクトの除去とテクスチャの詳細の回復の両方において、以前の方法よりも優れたパフォーマンスを発揮します。Real-ESRGAN+ (研ぎ澄まされたグラウンド トゥルースでトレーニングされた) により、視力がさらに向上します。

 方法の概要

        現実世界のシーンの複雑な劣化カーネルは、通常、1 カメラ撮像システム、2 画像編集プロセス、3 インターネット送信など、さまざまな劣化プロセスの複雑な組み合わせです。複数の劣化プロセスの組み合わせです。たとえば、携帯電話で写真を撮影すると、カメラによるぼやけ、センサーからのノイズ、鮮明化アーティファクト、JPEG 圧縮などの劣化が生じる可能性があります。次に、編集を行ってソーシャル メディア アプリにアップロードします。これにより、さらなる圧縮と予測不可能なノイズが発生します。画像がインターネット上で複数回共有される場合、上記のプロセスはさらに複雑になります。上記 3 つのプロセスの複合効果によって引き起こされる現実世界のシーンの複雑な劣化は、単純な劣化モデルでは正確に表現したりモデル化したりすることはできません。

        Real-ESRGAN では、現実世界のシーンの複雑な劣化をより正確にシミュレートする高次劣化モデルが導入されており、より現実的な劣化を合成するために、sinc フィルターを使用して一般的なリンギングとオーバーシュート アーティファクトをシミュレートしています。さらに、Real-ESRGAN は、生成された単一ピクセルの真偽をピクセル角度で判断する U-Net 形式の Discriminator を導入しています。これにより、生成された画像の全体的な信頼性を確保しながら、生成された画像の詳細に注意を払うことができます。生成された画像。実験結果は、合成データでトレーニングされた Real-ESRGAN が、ほとんどの実世界の画像の不快なアーティファクトを除去しながら細部を強調できることを示しています。

        OK, ここに私がこれまでにまとめた画像超解像分野における GAN の応用に関する非常に古典的な論文をいくつか紹介します. GAN にはまだ多くの関連応用分野があり, 興味深くて楽しいこともたくさんできます.一緒に交流して学びましょう~

おすすめ

転載: blog.csdn.net/xs1997/article/details/131747566