深層学習に基づく画像復元手法に関する総説論文

この記事は以下から転載しました: [CV] 画像復元のための深層学習手法に関するレビュー論文 (2022)

元リンク: [CV] 画像復元に対するディープ ラーニング アプローチの調査_画像復元に対するディープ ラーニング アプローチの調査_画像復元に対するディープ ラーニング アプローチの調査_画像復元の調査_datamonday のブログ https://blog. csdn.net/weixin_39653948/article/詳細/124455382

論文名: 画像復元への深層学習アプローチの調査 論文
ダウンロード: https://www.sciencedirect.com/science/article/pii/S0925231222002089?via%3Dihub
論文年: 2022
論文引用: (2022/04/27 )


抽象的な

この論文では、画像復元タスクのための深層学習手法に関する広範なレビューを紹介します。畳み込みニューラル ネットワークを中心とした深層学習技術は、画像処理のほぼすべての分野、特に画像分類において大きな注目を集めています。ただし、画像の復元は基本的かつ困難な テーマです 画像の処理、理解、表現において重要な役割を果たします。通常、画像のブレ除去、ノイズ除去、かすみ除去、および超解像度に対処します。画像復元のためのディープラーニング手法には、アプローチとメカニズムに大きな違いがあります。判別学習ベースの方法は復元マッピング関数の学習の問題に効果的に対処できますが、最適化モデルベースの方法は特定の学習制約でパフォーマンスをさらに向上させることができます。この論文では、画像のノイズ除去、ぼやけ除去、かすみ除去、および超解像におけるディープラーニング技術の比較研究を提供し、さまざまな教師ありディープネットワークアーキテクチャ、残留接続またはスキップ接続、および受信野から教師なしまでのこれらのタスクに関連する原理を要約します。オートエンコーダーのメカニズム。画質基準も見直され、画像復元におけるその役割が評価されます。私たちの分析に基づいて、ぼけ除去のための効率的なネットワークと、超解像度復元タスクのためのいくつかの多目的トレーニング関数をさらに提示します。提案された方法は、定量的分析と定性的分析の両方を使用して最先端の方法と広範囲に比較されます。最後に、将来の研究の潜在的な課題と方向性を指摘します。

【意義】

このペーパーでは、画像復元タスクのための深層学習手法について広範なレビューを提供します。畳み込みニューラル ネットワークを中心とする深層学習テクノロジーは、ほぼすべての画像処理分野、特に画像分類の分野で広く注目を集めています。ただし、画像の復元は、画像の処理、理解、表現において重要な役割を果たす、基本的かつ挑戦的なテーマです。

【画像修復における細分化された研究の方向性】

通常、画像のブレ除去、ノイズ除去、かすみ除去、および超解像度を処理します

【画像復元方法】

画像復元のためのディープラーニング手法は、その方法とメカニズムが大きく異なります。

  • 弁別学習に基づく方法は、回復マッピング関数の学習の問題を効果的に処理できます。

  • 最適化モデルに基づく方法により、特定の学習制約の下でパフォーマンスをさらに向上させることができます。

【この記事の作品】

この論文では、画像のノイズ除去、ぼけ除去、かすみ除去、超解像におけるディープラーニング技術の比較研究を行います。

  • これらのタスクに関係する原理は、さまざまな教師ありディープ ネットワーク アーキテクチャ残留接続またはスキップ接続受容野教師なしオートエンコーダメカニズムまで要約されています。
  • 画質基準が調査され、画像復元におけるその役割が評価されます。
  • 私たちの分析に基づいて、超解像度回復タスクのための効率的なブレ除去ネットワークいくつかの多目的トレーニング関数をさらに提案します

【研究結果】

提案された方法は、定量的および定性分析の最先端の方法と広範囲に比較されます。最後に、将来の研究の潜在的な課題と方向性を指摘します。

1. はじめに

画像復元は、前世紀以来、デジタル画像処理における長期的な研究テーマであり [1-5]、近年も引き続き活発なテーマです。画像復元は、劣化した観察からきれいな潜像を復元することを目的としており、典型的な逆問題です多次元の
劣化した観察と復元された画像の間の無限の可能なマッピングが、この逆問題の不適切な性質を決定します。マッピングが既知で可逆的な状況では、対応する解決策を簡単に取得できますが、このマッピングは一意であり、普遍性に欠けます。実際には、逆マッピングは未知であるため、解空間は無限であり、実行可能な最適解に到達するには正則化手法を適用する必要がありますしたがって、ほとんどの画像復元研究は、劣化した画像を復元するための正確なマッピング近似値を見つけるために、効率的な分析モデルと学習スキームを採用することに重点を置いています

従来の画像復元方法は、高度な数学と確率モデルを使用して、主に反復アルゴリズムの最尤法またはベイジアン法に基づいて逆問題を解決します [6-8]。
ここに画像の説明を挿入します
劣化画像 Y の一般式がきれいな画像を畳み込んだ結果であると仮定すると、超解像 また、連続する画像フレーム間の関係を利用して高品質でクリーンな画像とビデオを再構築するマルチフレームとビデオの復元への関心も高まっています[27-32] 。

過去 10 年間、ディープラーニング (DL) テクノロジーの急速な台頭は、認識と分類 [38-41] から回帰と生成 [42-45] に至るまで、さまざまなコンピューター ビジョン タスクに大きな影響を与えました畳み込みニューラル ネットワーク (CNN) は最初に分類と検出のパフォーマンスを向上させました [46]。ベンチマーク研究タスクを解決するために多くのネットワーク アーキテクチャが提案されています。

  • VGGNet [47] は、以前の研究は主に浅いネットワークに焦点を当てていたのに対し、深いネットワーク アーキテクチャが有益であると指摘しました [48]。
  • ResNet [39] は画像復元のベースライン構造を提供し、次のようないくつかの方法の基本構造になります。
    • EDSR [49] (超解像用)
    • DeepDeblur[50] (画像のブレ除去用)
    • DnCNN [35] (画像のノイズ除去用)。
  • DenseNet [51] は、密に接続された畳み込み層を使用して残留リンクを開発することにより、ネットワーク パフォーマンスをさらに向上させます。

深層学習手法は、画像復元に次のような多くの利点をもたらします。

  • 学習ベースの方法によりパフォーマンスを向上させることができますディープ ラーニング ベースの手法は、多くの場合、ほとんどのベンチマーク データセットで従来の手法よりも大幅に優れたパフォーマンスを発揮します。
  • ディープラーニングによりアプリケーションはより現実的なものになりますビデオの劣化は、連続するフレームを考慮するか、欠落したコンテンツを埋めることで回復できますが、劣化プロセスを数学的にモデル化することは不可能です (修復など)。
  • グラフィックス プロセッシング ユニット (GPU) などの並列処理ユニットを使用することにより、深層学習アルゴリズムはコンピューター ハードウェアに自然に適合し、CPU を使用するよりも効率的になります

ただし、多くの課題が残っています。

  • 計算の複雑さの観点から見ると、深層学習ベースの手法はかなりの計算コストがかかるため、リアルタイム処理に導入することが困難になります。さらに、マトリックス処理はコンピューターのハードウェアに対する要求が高く、GPU やメモリーに関しては、マイクロコントローラー ユニット (MCU) などの産業界で一般的に使用されている組み込みシステムでは要求を満たすことができません。
  • パフォーマンスの観点から見ると、既存のアルゴリズムにはまだ改善の余地がたくさんあります。
  • トレーニングの観点から見ると、ディープ ラーニング CNN には大規模なデータ セットが必要ですが、取得してラベルを付けるのが難しく、実際の状況と一致しない可能性があります。たとえば、多くのブレ除去または超解像度アプリケーションは顔に重点を置いていますが、ほとんどの既存のトレーニング データセットには比較的少数の顔サンプルが含まれており、車や建物などの他の多くのサンプルは特定のアプリケーションには役に立たない可能性があります。

3D 再構築 [52] や画像修復 [53]など、 画像復元に関連性の高いタスクもいくつかあります。画像復元におけるアイデアや新しい方法は、上記のタスクに利益をもたらすことができ、またその逆も同様です。

この調査は、画像復元のための深層学習手法のタイムリーな最新情報と概要を提供することを目的としており、次のように構成されています。

  • セクション 2 では、画像復元のための既存のディープ ニューラル ネットワークの概要を説明し、続いてブレ除去、ノイズ除去、および超解像度タスクのモデルを詳細にレビューします。さまざまな画質評価基準も検討され、議論されます。
  • セクション 3 では、典型的なネットワーク アーキテクチャと学習戦略をレビューおよび分析します。最新モデルについて簡単に考察します。次に、広範な実験と最先端のモデルとの比較とともに、ブレ除去および超解像タスクのためのいくつかのネットワークを紹介します。
  • 最後のセクションでは、これらのネットワーク、パフォーマンス、結果、および残りの課題について説明し、作業を終了します。今後の取り組みや研究の方向性も提案されています。

2. 画像復元のためのディープネットワーク

2.1. 画像の修復

デジタル画像復元に深層学習を適用するには、いくつかの方法があります。深層学習ニューラル ネットワーク [54–56,17] を通じて画像事前分布またはカーネルを学習することは、一般的なアプローチです複雑な手作りの画像事前分布やそのような事前分布を導出するために行われる広範な作業と比較して、不正設定問題に対する効率的な正則化として深層学習ニューラル ネットワークを介して事前分布を学習する方が効率的です学習 された事前分布は最適化の次の段階に統合され劣化した画像が回復され、分析モデルに基づいて事前分布よりも優れたパフォーマンスを達成するのに役立ちます。さらに、ディープラーニング手法は、さまざまなアーキテクチャ [59、60、56、61] と学習戦略 [62、63]を採用し、強力な学習機能を活用して大量のトレーニング データから重要な情報を抽出することで、より良いソリューションを取得します一般的な深層学習技術を画像復元タスクの解決に適用するために、広範な研究が行われてきました。

最近、敵対的生成ネットワーク (GAN) ベースの手法が主流となり、一般的な CNN ベースの手法を上回り、最先端のパフォーマンスが向上しています [64-66]。GAN モデルの強力な互換性と容量により、特定のアプリケーション向けにネットワークを特別に設計する負担が軽減されますが、その代償として、より大規模でより深いネットワークとトレーニングの問題が発生します [67-69]  。さらに、これらの高度なネットワークは、水中イメージング [63,70]、ライトフィールドイメージング (蛍光) [60]、蛍光画像再構成 [71]、コンピューター断層撮影 (コンピューター断層撮影) 超解像度など、さまざまなアプリケーションで大きな進歩を遂げています[72]

2.2. 画像のブレの除去

ぼやけた画像は 実際には一般的であり、長時間露光時間中の避けられない動き、画像​​機器の物理的制限と不完全なシステム、未知の劣化プロセスなどのさまざまな要因によって発生します。回復は困難です研究者たちは多大な努力を払い、これらの困難な問題を解決するための効果的で新しい方法の開発に取り組んでいます。

ダイナミックなシーンのブラーは、 現実の画像キャプチャではいたるところで発生します。ぼやけは、カメラの動き、オブジェクトの動き、シーンの深度の変化の組み合わせによって発生することがあります。カメラの動きには、並進運動と回転運動という 6 つの自由度の 2 つのカテゴリがあります。並進運動は深度の変化に関連します [73、74]。一方、回転カメラの運動とオブジェクトの運動は独立した要素であり、画像に不均一なブラーを引き起こす可能性があります。これらのモーション ブラーは空間的に変化するため、特に単一のブラー画像しか利用できない場合、イメージングと劣化のプロセスをモデル化することは簡単な作業ではありません事前の知識と画像の追加の観察を使用して、実際のブラー カーネルを近似するモデルを構築する多くの試みが役に立ちました

いくつかの研究では、代表的な作品をレビューし、単一画像のブレ除去のパフォーマンスを比較しました。Wang et al. [75] は、画像のブレを除去する従来の方法をレビューし、イメージングに現れる一般的なブレを定義し、それぞれの特性に基づいて方法を 5 つの主要なフレームワークに分類しました。当時は学習ベースの手法が十分に開発されていなかったため、ニューラル ネットワークはさらなる研究の有望なテーマとのみ考えられていました。Lai ら [76] は、独自の実世界のぼやけた画像と人間の被験者の研究 (Amazon Turk) を使用して、13 の単一画像のぼやけ除去アルゴリズムを評価および比較しました。最近の NTIRE (New Trends in Image Restoration and Enhancement) 2020 Image and Video Deblurring Challenge では、最先端の手法が導入され、公正なランキングとパフォーマンスの比較が提供されました [77]。Koh et al. [78] によって提供された最新の調査では、2013 年以降の深層学習ベースの非ブラインドおよびブラインドぼけ除去技術の開発がレビューされています。この論文では、比較研究により、知覚損失によって引き起こされるアーティファクト、明示的な画像事前分布の優位性、教師なし学習の可能性について説明します。

いくつかの研究では、代表的な研究をレビューし、単一画像のブレ除去のパフォーマンスを比較しました

  • Wang et al. [75] は、従来の画像のブレ除去方法をレビューし、一般的なイメージングで発生するブレを定義し、それぞれの特性に基づいて方法を 5 つの主要なフレームワークに分類しました当時は学習ベースの手法が十分に開発されていなかったため、ニューラル ネットワークはさらなる研究の有望なテーマとのみ考えられていました。
  • Lai ら [76] は、現実世界のぼやけた画像と人物に関する独自の研究 (Amazon Turk) を使用して、13 の単一画像ぼけ除去アルゴリズムを評価および比較しました。
  • 最近の NTIRE (New Trends in Image Restoration and Enhancement) 2020 Image and Video Deblurring Challenge では、最先端の手法が導入され、公正なランキングとパフォーマンスの比較が提供されました [77]。
  • 最近の調査は Koh らによって提供されています [78]。2013 年以降の深層学習に基づく非ブラインドおよびブラインドぼけ除去技術の開発をレビューします。この論文では、比較研究により、知覚損失によって引き起こされるアーティファクト、明示的な画像事前分布の優位性、および教師なし学習の可能性が示されています。

マルチスケールのブレ除去ネットワークは、「粗いものから細かいものへ」構造を使用して、いくつかのステップで画像を復元します

  • これは [50] で最初に提案され、Eigen ら [79] によって開発されたマルチスケール構造を適用しています。
  • Tao ら [80] と Gao ら [81] は、マルチスケールのブレ除去ネットワークを開発し、Zhang ら [82] は、他の 3 つの方法と比較して、それを採用する際に構造とメカニズムにその後の根本的な変更を加えました。 . 大きな違いがあります。

DeblurGAN は [33] によって提案され、問題のぼけ除去に条件付き GAN が初めて使用されました

  • この方法では、生成器の主コンポーネントとして残差ネットワーク ブロック [39] が使用されます。

  • DeblurGAN-v2 [64] は DeblurGAN の更新バージョンで、元々物体検出用に提案された特徴ピラミッド ネットワーク (FPN) [83,84] をジェネレーターとして使用します。

  • [85] の著者らは、教師なし CNN から構成されるエンドツーエンドのブレ除去ネットワークを提案しました。これまで、教師あり深層学習ネットワークは、大量のペア データに大きく依存していましたが、これは要求が厳しく、取得が困難でしたが、教師なしトレーニング スキームは、ペア データと同等のパフォーマンスを達成できます。

  • [86] は、ドメイン固有の単一画像のぼけ除去のための分離表現に基づく別の教師なしネットワークを提案しました。

[87] の著者らは、Dr-Net と呼ばれる新しいタイプのネットワークを提案しました。彼らはダグラス・ラッチフォード反復法を使用してぼけ除去問題を解決しました。これは、近似勾配降下法アルゴリズムよりも適切な最適化プロセスであるためです[88]は、深刻なぼやけの影響を受けた画像の回復には、大きな受容野を備えたネットワーク設計が必要であると報告し、入力の不均一なぼやけの空間的に変化するシフトの原因を暗黙的に発見できる領域適応型高密度変形可能モジュールで構成される新しいアーキテクチャを提案しました。画像と学習された変調フィルター。

表 1、表 2、および表 3 は、さまざまな方法の比較を示しています。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

2.3. 画像のノイズ除去

画像のノイズ除去は、画像復元におけるもう 1 つの重要なタスクであり、多くの面で低レベルの視覚にとって非常に価値があります。まず、ノイズ除去はさまざまなコンピューター ビジョン タスクにおいて重要な前処理ステップであることがよくあります第二に、画像のノイズ除去は、ベイジアンの観点から画像の事前モデルと最適化方法を評価するための理想的なテストベッドです[94]。伝統的に、BM3D [91] は、類似した 2D 画像セグメント (パッチなど) を 3D データ配列にグループ化することでスパース性を強化する主流の方法です学習ベースのノイズ除去は、深層学習だけでなく他の機械学習手法にも焦点を当てています。この違いは、ノイズのメカニズムが多くの信号処理方法に広く適用できるという事実によるものです。このペーパーでは、DL ベースのノイズ除去と、かすみ除去やノイズ除去などの他の画像処理タスクとの共通点に焦点を当てます学習ベースの画像ノイズ除去の概要については、[109] を参照してください。数学的には、ノイズのあるイメージ Y は次のように表すことができます。
ここに画像の説明を挿入します
ここで、X は実際のイメージを表し、N は X によって破壊された付加的なノイズを表します。ノイズは本質的に増殖する場合もあります。Deep CNN は 2015 年に画像のノイズ除去に適用され始めました [110,111]。最初の重要な研究は [112] で、最初にスキップ接続を使用した非常に深い CNN を適用します。[93] は、カーネル スプラッティング アーキテクチャを使用したモンテカルロノイズ除去法を開発しました。

ノイズの種類に応じて、画像のノイズ除去は 4 つのカテゴリに分類できます

  • 加法的ホワイト ノイズ イメージ (AWNI) ノイズ除去
  • リアルノイズ画像のノイズ除去
  • ブラインドノイズ除去
  • 混合画像のノイズ除去

これらのカテゴリの中で、AWNI が最も注目を集めました。ただし、AWNI の人気は実際のノイズ画像を反映していませんしたがって、AWNI ノイズ除去にはガウス、ポアソン、ソルト、ペッパー、乗算ノイズが含まれていますが、実際のアプリケーション シナリオとの間にはまだギャップがあります

関連するものは、最近の概要 [109] で見つけることができます。このサブセクションでは、学習ベースのノイズ除去手法を他の画像復元タスクと比較することを目的としています。ノイズ除去のために開発された多くのアイデアや技術は、他の画像逆問題にも適用でき、またその逆も同様であり、重要なノイズ除去ネットワークの多くは、既存の低レベル ビジョンの研究からインスピレーションを受けていますたとえば、DnCNN [35] は、画像復元における残差学習を最初に提案しました。ここでの残差学習は ResNet [39] とは異なります。残差画像を予測するために単一の残差ユニットを採用します一般に、DnCNN は長い残差リンクを使用して入力画像を出力に直接接続するため、ネットワークは残差画像を学習するだけでよく、画像の内容に注意を払う必要はありません残差学習方法は画像復元に大きな影響を及ぼし、DnCNN 以降、ほとんどのブレ除去および超解像度ネットワークは残差リンクを使用します包括的な画像ノイズ除去方法の比較を表 4 に示します。
ここに画像の説明を挿入します

2.4. 画像のかすみ除去

大気散乱モデルは、霞んだ画像生成の古典的な説明です。
ここに画像の説明を挿入します
ここで、Y は観測された霞んだ​​画像、X は回復される霞のないシーンの放射輝度です。重要なパラメータが 2 つあります。A は地球規模の大気光を表し、t は次のように定義される透過行列です。ここで、
ここに画像の説明を挿入します
b は大気の散乱係数、d は物体とカメラの間の距離です。

霧やほこりなどの濁ったメディアの存在により、かすみの存在により写真の視認性が低下し、データに依存した複雑な非線形ノイズが画像に追加されるため、かすみの除去は不適切で非常に困難な回復問題となります。 . . 多くのコンピューター ビジョン アルゴリズムは、かすみのないシーンの輝度でのみ適切に機能します。

  • [113] は、伝達関数に加えて表面シェーディングを考慮した結像モデルを再構築しました。
  • [114] は、屋外のかすみのない画像の画像パッチは通常低い強度値を持つという仮定に基づいて、単一画像からかすみを除去するダーク チャネル プリア (DCP) を提案しました
  • [115] は早期学習に基づいたアプローチです。
  • [116] は、再定式化された大気散乱モデルに基づいた軽量 CNN を通じてクリーンな画像を直接生成する統合方法を提案しました。
  • [117] は、ディスクリミネーターを使用してジェネレーターをガイドして粗いスケールで疑似リアルな画像を作成することでかすみを除去するための GAN を導入しましたが、ジェネレーターに続くエンハンサーは、細かいスケールでリアルなかすみを除去した画像を生成する必要があります。
  • [118] は、スムーズな拡張技術を採用し、ゲートされたサブネットワークを利用して、さまざまなレベルで機能を融合しました
  • MSRL-DehazeNet [119] は、マルチスケール残差学習と画像分解に依存しています
  • RYF-Net [120] は、伝達グラフ融合ネットワークを使用して 2 つの伝達マップを統合し、ヘイズ画像の堅牢で正確なシーン伝達マップを推定します。
  • [121] には、教師あり学習ブランチと教師なし学習ブランチが含まれています
  • DCP-Loss [122] は、損失関数としてダーク チャネル プリアを使用します。
  • [123] の著者らは、鮮明な画像を生成する CycleGAN とテクスチャの詳細を保存する条件付き GAN から構成される異種 GAN に基づく方法を提案しました。
  • 同様の研究が Cycle-dehaze [124] にも見られます。
  • FAMED-Net [125] には、かすみのない画像を効率的かつ直接学習するための 3 つのスケール エンコーダと融合モジュールが含まれています。
  • [126] は、画像変換モジュールと 2 つの画像かすみ除去モジュールからなるドメイン適応パラダイムを提案しました。
  • [127] の著者らは、ホワイト バランス (WB)、コントラスト強調 (CE)、およびガンマ補正 (GC) を適用することで、元のぼやけた画像から 3 つの入力を取得する新しいフュージョン ベースの戦略を採用しました。
  • 多くの画像ぼけ除去ネットワークと同様に、DCPDN [128] は高密度接続構造を採用しています。

表 5 は、学習ベースの画像かすみ除去方法の比較を示しています。写真1を参照してください。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

2.5. 画像の超解像

超解像度 (SR) は、画像システムの固有の制限を効果的に克服する高解像度画像を再構成する技術です [134]幅広い用途での実用的価値があるため、広く注目を集めています。超解像度開発の初期段階では、複数の低解像度 (LR) 画像の利用可能性と、高解像度 (HR) 画像の取得に貢献する復元および補間技術が基本的な前提条件と考えられていました。利用可能な LR 画像が 1 つだけの場合、問題はさらに困難になり、単一画像超解像度 (SISR)と呼ばれます他の復元タスクとは異なり、ブレ除去後、SR では画像の次元を拡大して HR 画像を取得するために追加のアップサンプリング プロセスが必要です式 1 に基づいて、式 7 に示すように、劣化ではブラーの後にダウンサンプリング演算子 D が適用されます。観測モデルを図2に示します。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

2.6. 画質評価

画像品質評価 (IQA) は、画質、画像処理アルゴリズム、および画像処理システムを決定するために重要です統一された品質基準を提供することによってのみ、説得力のある信頼できる証拠を備えたアルゴリズムとシステムの特性と特性を反映する公正な比較を行うことができます。当初、画質測定 (IQM) は主に画像圧縮および取得技術を評価するために使用され、その後、他の画像処理タスクや画像通信ネットワークに一般化されました [153]。画像の最終的な受信者は人間であるため、画像の視覚的品質の最も信頼できる評価は、多数のテスト例から評価を収集することによる主観的な人間の研究です。ただし、実際に各ケースの品質評価を提供するためにこのような調査を実施するには時間がかかり、多くの場合費用がかかりすぎます。したがって、人間の視覚システム (HVS) の反応と相関させながら知覚品質を効果的に予測することを目的とした客観的な IQA が強く求められています。

客観的な品質測定の最も一般的な分類は、参照画像の利用可能性に基づいています。

  • フルリファレンス (FR) 品質測定: 歪んだ画像と参照画像の間の類似性を計算します。
  • 縮小参照 (RR) 品質測定: RR 測定は、参照画像からの部分的な情報が利用可能な場合に適用されます。
  • 非参照 (NR) 品質測定: NR 測定では、参照画像からの情報がまったく利用できないため、画像統計を使用して画質を評価します。

最も単純な客観的な FR 測定は、参照画像と劣化画像の間の平均二乗誤差 (MSE) に基づくピーク信号対雑音比 (PSNR)です。

  • 広く採用されているにもかかわらず、PSNR のような画像忠実度の尺度は、視覚的な品質とあまり相関しないことが知られています [154、155]。

  • [156] は構造類似性指数尺度 (SSIM) を導入しました。HVS の品質評価は、構造情報の変化に対する HVS の感度を利用することでさらに近似されます。SSIM には、マルチスケール SSIM [157]、3 コンポーネント SSIM [158]、および 4 コンポーネント SSIM [159] など、一般化のためにさらに開発されたバリアントがいくつかあります。

  • さらに、[160] によって提案された情報忠実度基準 (IFC) などの情報理論を導入して、画質評価を導き出すこともできます。

  • これに続いて、視覚情報忠実度測定 (VIF) に関する拡張作業が行われました [161]。

  • さらに、特徴類似性指数測定 (FSIM) [162]、DCTune [163]、ウェーブレットベースの歪み測定 [164]、ハールウェーブレットベースの知覚類似性指数 (HaarPSI) [165] などの測定では、データが利用されます。他のドメインからの画像特徴を使用して HVS 応答を近似します。

  • 多くの研究が FR IQA に関する貴重なレビューを提供しています [166–168, 160,169–171]。

  • RR IQA 測定は、参照画像または劣化プロセスからの部分的な情報がある場合に適しており、FR および NR IQA 測定からインスピレーションを得た中間ケースと考えることができます [172-175]。

代表的な FR および RR 手法と式を表 6 に示します。
ここに画像の説明を挿入します
NR IQA 測定は、元の参照画像を品質評価に利用できない場合に役立ちます。ほとんどの NR IQA 測定で採用されている共通の機能は、さまざまな劣化や画像コンテンツにわたって不変の特性を持つ自然シーン統計(NSS) [177,178] です。

  • ブラインド/参照画像なし空間品質評価器 (BRISQUE) [179]

  • 歪み識別ベースの画像真正性および完全性評価器 (DIIVINE) [180]

  • Natural Image Quality Evaluator (NIQE) [181]。

図 3 は、代表的な NR メソッドのパイプラインを示しています: BRISQUE、BLIINDS-II [182]、DIIVINE、および NIQE。NR IQA は、DCT ドメインの NSS [183,182]、多変量ガウス モデルの NSS [184]、勾配の大きさ [185,186] などの他の機能も採用しています。[187] で提案されている知覚インデックス (PI) は、生成された画像の知覚評価のために 2 つの NR 方法 ([181, 188]) を組み合わせています。
ここに画像の説明を挿入します
IQA 尺度の開発中に、多くの研究で歪みベースの尺度と知覚的品質尺度との間の矛盾が報告されました。したがって、知覚と歪みの間のトレードオフは、[189] で系統的に説明されています。このトレードオフを分析するために関連する研究が行われ[190、191]、その議論では、画質は忠実度または知覚品質の点で改善できるが、相互に犠牲を払う必要があると結論づけられました。

最近、IQA の代替パラダイムとしてディープ ラーニングが開発されました。ディープ ラーニングは、人間の主観的な品質評価 (つまり、平均オピニオン スコア (MOS) または差分平均オピニオン スコア (DMOS) を通じて、トレーニング セットからの歪んだ画像の数値スコアに画像をマッピングすることを学習します。 )). [192 –200] . エンドツーエンドのトレーニングにより、ディープ ニューラル ネットワークは以前の手動手法よりも優れた予測精度を達成できます。ただし、グラウンド トゥルース MOS/DMOS 値を収集することの難しさを考慮すると、パフォーマンスの最適化と一般化の機能は、限られたトレーニング セットによって制限されますモデルの複雑さとネットワーク ハイパーパラメータの微調整も、深層学習ベースの手法を一般化する上で重要かつ重要なタスクです。

3. ネットワークアーキテクチャと学習戦略

3.1. ベースラインモデル

多層パーセプトロン (MLP) [201] は、画像復元に使用される最も初期の人工ニューラル ネットワークの 1 つです [202-206]。復元には同じ次元の入力画像と出力画像が必要です。MLPフレームワーク (図 4a) は完全に接続されたネットワークの構造に従い劣化した入力画像と鮮明な潜像の間の高次元マッピングを学習できますただし、MLP は、コンピューティング リソースとストレージに負担をかける多数のパラメータの冗長性により非効率的ですさらに、MLP はクロスチャネルの空間情報と多次元画像の内容を無視します。これもさらなる開発の障害となります。

画像の構造的特徴と MLP の欠点を考慮して、畳み込みニューラル ネットワーク (図 4b) (例: [207]) が採用され、画像復元により適したソリューションを提供します。畳み込みニューラル ネットワーク (CNN) には、共有重み、アーキテクチャーのスパース性、トレーニングの安定性、階層的特徴抽出という利点があるため、並外れたパフォーマンスを達成し、新しい最先端の手法となっていますネットワーク深度の増加は、大きな受容野と意味のある階層特徴を通じて CNN のモデル パフォーマンスに利益をもたらすことが観察されていますが、トレーニングの安定性と計算リソースが厄介な問題になります。したがって、これらの問題に対処するために多くの高度なテクノロジーが使用されています。残留学習とスキップ接続はトレーニングを安定させるために発明されました[39] 残差ブロック (図 4c) はパフォーマンスを効果的に向上させ、多くの深い残差ネットワーク (図 4d) の新しい構成要素になります。他のネットワーク パラダイムには、トレーニング データから高レベルのスパース表現を学習することを目的とした教師なし学習スキームに基づくエンコーダー デコーダー、オートエンコーダー、および変分オートエンコーダーが含まれます(図 4e) マルチスケール ネットワーク (図 4f) は、さまざまなスケールでの劣化の処理に特化しています[208] に示すように、敵対的生成ネットワーク (GAN) (図 4g) は、生成モデリングと敵対的学習の利点を組み合わせて、生成された画像にもっともらしいテクスチャを生成します。GANベースのモデルで必要なペアのトレーニング画像を取得するのは難しいため、cycleGAN [209]などのペアのないトレーニングが提案されています。サイクル一貫性の損失は、高品質の画像を生成するための正則化手法として設計されています(図4h)。 。モード崩壊の問題を防ぐために、[210] (図 4i) ではデエンタングルメント表現が採用され、位置合わせされたトレーニング データなしで異なる出力画像を生成する新しい代替手段が提供されます
ここに画像の説明を挿入します
ここに画像の説明を挿入します

3.2. 学習戦略

3.2.1. 教師あり学習、半教師あり学習、教師なし学習

ラベル付きデータが利用できる限り、教師あり学習を使用してニューラル ネットワークをトレーニングするのが一般的かつ簡単です。ネットワーク層を介したコスト関数とバックプロパゲーションを最小限に抑えることで、効果的な監視の下で強力な学習機能が可能になります。これにより、ネットワークがターゲットのディストリビューションに向かって収束し、目的の出力が生成されるようになります。一般的なアプリケーションは、予測または推論を目的とした分類と回帰です。ただし、ディープ ニューラル ネットワークをトレーニングする場合、教師あり学習は、基礎となるマッピング関数が複雑でトレーニング データが限られているため、過学習や汎化能力が低下する傾向がありますこれらの問題を軽減するために、早期停止 [212]、ドロップアウト [213]、重み共有 [214] などの技術がモデルの複雑さを正規化するために使用されており、これらは今日のディープ ニューラル ネットワークの設計とトレーニングに必要となっています。さらに、画像復元においてディープネットワークをトレーニングするために一致する画像ペアを収集するには時間がかかります。

教師なし学習は、データ内の基礎となる構造とパターンを発見し、入力と出力の間のマッピングに対する潜在的な洞察を提供しますしたがって、最初に代表的な特徴を学習し、次に学習した特徴を教師あり学習下の他のタスクや生成モデルに使用することができます [215-217、210、218、209]元の入力と再構成された出力の間の再構成損失は、深層ネットワークの表現力を活用する教師なし学習にとって重要です。次元の削減と再構成を通じて、オートエンコーダはエンコーダ - デコーダ構造を採用して画像のスパース表現を学習します [112、219]画像から画像への変換などのドメイン転送タスクでは、教師なしメカニズムが不可欠です [220-222]実際には、ラベル付けされたトレーニング データまたはペアになったトレーニング データの量は常に不足しています。大量のラベルなしデータと少量のラベル付きデータを活用するために、半教師あり学習 [223] は教師あり学習と教師なし学習の固有の利点を活用します。監視下では、ディープネットワークはトレーニングデータから目的の出力を生成できますが、そのパフォーマンスにも限界があります。ラベルなしデータは安価で入手が簡単で、教師なし学習および半教師あり学習では、これらのデータを使用して、精度と汎化能力の点でネットワークのパフォーマンスが向上します。そして、事前に指定された仮定の下では、教師なし学習は、特定のクラスの問題について教師あり学習よりも優れたパフォーマンスを発揮できることが示されています [224-230]。 [121] の著者らは、単一画像のかすみ除去のために、教師ありブランチと教師なしブランチを含む CNN で半教師あり学習を採用しました[231] の著者らは、半教師あり学習を使用して単一画像の雨を除去するためのディープ CNN をトレーニングし、最先端の方法よりも優れたパフォーマンスを達成しました。

3.2.2. オートエンコーダ と敵対的ネットワーク

オートエンコーダ:オートエンコーダは、教師なしまたは自己教師ありの方法でデータの効率的なエンコードまたは表現を学習するために使用されるニューラル ネットワークですオートエンコーダの目的は、低次元空間内の一連のデータの表現を学習することです次元削減とともに、オートエンコーダの再構成部分は、次元削減エンコーディングからの元の入力にできるだけ近い表現を生成しようとします学習した表現に有用な特性を強制的に仮定することを目的としたオートエンコーダのバリエーションは数多く存在します。たとえば、正規化されたオートエンコーダ (スパース、ノイズ除去、縮小) は、後続の分類タスクの表現を学習するのに効果的です。オートエンコーダーとエアレーションオートエンコーダーは、生成されたモデルの不可欠な部分として使用できます。オートエンコーダは、画像のノイズ除去 [232、233] や超解像度 [234-236] で広く使用されています。[237] のようなブレを除去するネットワークもオートエンコーダに関連しています。具体的には、著者らは GAN を使用して、入力が与えられた鮮明な画像の表現としてぼやけた画像を生成し、オートエンコーダーの再構成部分をぼけ除去ネットワークとして使用します。

敵対的ネットワーク: Goodfellow et al. [208] によって導入された生成的敵対的ネットワークは、2 つの競合するネットワーク (弁別者と生成者) 間のゲームを定義します。ジェネレーターは入力から情報を受け取り、サンプルを生成します。弁別器は実際のサンプルと生成されたサンプルから学習し、それらを区別しようとします。ジェネレーターの目的は、実際のサンプルと区別できない、知覚的に説得力のあるサンプルを生成することによって、識別器をだますことです。生成器 G と弁別器 D の間のゲームには、次のミニマックス目標があります。
ここに画像の説明を挿入します
ここで、  Pr はデータまたは実際のサンプル分布、Pg は生成器モデル分布ですGAN は、視覚タスクにおいて優れた知覚品質のサンプルを生成できることで知られています。しかし、GAN のバニラ バージョンのトレーニングでは、[67] で説明されているように、モード崩壊や勾配の消失などの多くの問題が発生することがよくあります。GAN の値関数を最小化することは、 上のデータ分布とモデル分布の間の Jensen-Shannon (JS) 発散を最小化することと同じです[238] は、JS 発散近似によって引き起こされる GAN トレーニングの難しさを議論し、Earth-Mover (Wasserstein-1 としても知られる) 距離 W ( q , p ) W(q,p)W(q,p) を使用することを提案しました。 。Wasserstein-GAN の価値関数は、Kantrovich-Rubinstein 双対性 [239] を使用して構築されます
ここに画像の説明を挿入します
ここで、D は 1-リプシッツ関数のセット、Pg はモデル分布です。

ここでの考え方は、臨界値が K × W ( P r , P θ ) K \times W(P_r,P_{\theta})K×W(Pr ,Pθ ) に近いということです。ここで、K はリプシッツです定数、W Pr; W ( P r , P θ ) W(P_r,P_{\theta})W(Pr ,Pθ ) はワッサーシュタイン距離です。この場合、弁別ネットワークはクリティカルと呼ばれ、サンプル間の距離を近似します。WGAN でリプシッツ制約を強制するために、[238] は [-c, c] の重みクリッピングを追加しました; [240] は、リプシッツ制約を強制する代わりに値関数に勾配ペナルティ項を追加することを提案しました: この方法は便利です
ここに画像の説明を挿入します
プロセッサ アーキテクチャの選択は堅牢であり、ハイパーパラメータの調整はほとんど必要ありませんこれは、以前に画像のブレ除去 [50] に使用されていた標準の Deep ResNet アーキテクチャ [39] の代わりに軽量アーキテクチャの使用を可能にするため、画像のブレ除去にとって非常に重要です。GAN ベースの手法は、ノイズ除去 [241-245] や超解像度 [36、246-250] においても一般的です。

3.3. 最先端のモデル

学習ベースの単一画像復元は、依然として活発なトピックです。動きのぼけ除去に加えて、焦点ぼけ除去もますます注目を集めています。たとえば、[251] は、ほとんどの最新のカメラのデュアル ピクセル (DP) センサーで利用可能なデータを活用し、[252] は、古典的なウィナー デコンボリューション フレームワークと学習された深い特徴の明示的なデコンボリューション プロセスを組み合わせることにより、特徴空間で実行することを提案しました。

画像復元のさらなる開発における重要な方向性は、画像処理と深層学習/機械学習手法を組み合わせることです画像の超解像度に関して、研究者はさまざまなシナリオに焦点を当て始めました。たとえば、超解像度ネットワークは、あたかも単一の画像であるかのように内部データを使用してトレーニングできます。これは、ゼロショート超解像度 (ZSSR) [253] と呼ばれます。MZSR [254] は、メタを追加することでトレーニングを高速化します。トレーニング段階のスピード。グラフ ニューラル ネットワークも超解像度に道を譲り始めています [255]。画像ノイズ除去に関して、[256] は Nose2Siame と呼ばれる自己教師ありノイズ除去フレームワークを導入し、典型的な教師あり損失の自己教師あり上限を導出することで新しい自己教師あり損失を提案しましたNose2Siame は、J 不変性 (ノイズ除去モデルの悪化につながる可能性がある) もノイズ モデルに関する追加情報も必要としないため、より幅広いアプリケーションで使用できます。

4. 提案されるネットワーク

4.1. 超解像

トレーニング目的関数には複数の損失成分が含まれるため、さまざまな損失を同時に最小化する必要があります。線形結合は最も直接的な方法ですが、重み付けと加算後の結合損失が凸にならない場合があり、勾配降下法で最適解を導き出すことが困難になります複数の損失成分によって自然に形成される多次元損失空間はユークリッドであり、個々の損失は空間内の独立した次元を表すと仮定します。最小化のトレーニング目標は、損失位置と原点の間のユークリッド距離、または損失と損失境界によって境界付けられるハイパーボリュームとして定義できることを提案します (図 5)したがって、複雑な多目的最適化問題は単一目的最適化に変換されます。表 7 に数式を示します。
ここに画像の説明を挿入します
ここに画像の説明を挿入します
[257] で提案されている Ed と Hypervol の定式化の共通の特徴は、トレーニング中に学習された勾配の重み付けと、個々の損失に対する自動的な重要度の割り当てです。ほとんどの既存の方法で採用されている重み付けパラメーターの手動による微調整と比較して、トレーニング目的関数の提案された Ed 定式化は、特定のモデル構造のモデルのパフォーマンスを最適化する代替手段を提供します。

2 つの方法には異なる勾配重み付け係数があります。ユークリッド距離ベースのスキームは、原点と損失の位置の間のユークリッド距離への個々の損失の投影を利用します。Hypervol 式の勾配重み係数は、損失と対応する損失限界の間の距離の逆数を計算します。表 7 からわかるように、Ed 式の方程式はより簡潔であり、追加のハイパーパラメータを事前に定義する必要はありませんが、Hypervol 式では実装前に損失境界 lk を決定する必要があります。

提案された方法をベースラインモデル SRGAN [36] に適用し、SRGAN 論文と同じ実装詳細を採用しました。元の論文 [36] で与えられた敵対的損失 Ladv と知覚的損失 LX に基づいて、多次元損失空間を形成するための追加の制約として MSE 損失 LMSE と SSIM 損失 LSSIM も追加しました。損失関数は次のとおりです。
ここに画像の説明を挿入しますここで、ILR は入力低解像度画像を表し、IHR は高解像度画像 ϕ i を表します。j \phi_{i;j}ϕi;j は、i 番目の前の j 番目です。 VGG19 ネットワークの最大プーリング層 畳み込みアクティブ化後に取得された特徴マップ。Wi;j および Hi;j は、特徴マップの次元です。

トレーニング目的関数の元の式については、[36] で与えられた方程式、L = 10^-3 Ladv + LX に基づき、MSE 損失 LMSE または SSIM 損失 LSSIM を重み 10^-2 で追加して、マルチを形成します。 -目的トレーニング関数。4
ここに画像の説明を挿入します
つの SR データセット Set5 [258]、BSDS100 [259]、DIV2K 検証セット [260]、RealSR [261] でメソッドをテストしました。定量的な結果を表 8 に示します。視覚的な比較のために、テスト画像とパッチの例を図 6 に示します。歪みベースの PSNR、SSIM、および知覚ベースの VIF、PI という 4 つの品質評価尺度を使用しました。PSNR、SSIM、および VIF メトリクスの場合、測定値が高いほどテスト画像の品質が向上し、PI (知覚指数) が低いほど品質が向上しますPSNR、SSIM、および VIF 指標の説明と計算を表 6 に示します。PI は、Ma のスコア [188] と NIQE [181] を使用して次のように計算されます。表 8 から、提案されたトレーニング目的関数 Ed の公式が向上することがわかります
ここに画像の説明を挿入します
ここに画像の説明を挿入します
モデル性能の面でも効果を発揮します固定損失重みを使用して定義された元の式と比較して、提案された方法と Hypervol 式は適応重みをうまく活用し、より優れたパフォーマンスを実現しますさらに、研究では、正則化のための追加の制約として他の損失を使用することが有益であり、必要であることが示されています。そのうち、SSIM 損失は、GAN モデルをトレーニングして高品質の画像を生成するために最も重要な損失です。さまざまなトレーニング目的関数でトレーニングされたモデルによって生成された画像の品質評価に反映されているように、トレーニング目的関数 f ( L adv , LX , LSSIM ) f(L_{adv}, L_X, L_{SSIM})f( Ladv ,LX,LSSIM) モデル。通常はトレーニング目的関数 f (L adv , LX , LMSE ) f(L_{adv}, L_X, L_{MSE})f(Ladv ,LX ,LMSE) を使用して画像比率を生成します。の方がスコアが高いです。トレーニング目的関数 f ( L adv , LX , LMSE , LSSIM ) f(L_{adv}, L_X, L_{MSE}, L_{SSIM})f(Ladv ,LX ,LMSE ,LSSIM ) からの実験、複数の損失成分の線形結合と比較して、提案された Ed 式は、生成された画像の品質を向上させる効果的な代替手段であることがわかります
ここに画像の説明を挿入します
視覚的な評価として、図 6 にはテクスチャの詳細を観察するために抽出されたパッチの結果例が含まれています(ズームインすると、より詳細な部分が確認できます)。全体的な視覚的な違いは区別できないほど小さいためです。Ed 式では不鮮明なアーティファクトが発生しますが、Hypervol 式ではより詳細なディテールを復元できることがわかります。さらに、SSIM 損失は画質を定量的に向上させるのに役立ちますが、小さなパッチで奇妙なアーティファクトが明らかになるため、視覚的な画質にはその恩恵がありません。一方、MSE 損失はさまざまな配合に採用され、高品質の画像を生成するのに適しています

4.2. ブレを除去する

この論文では、MixNet という名前のブレ除去ネットワークも提案します。高密度に接続されたエンコーダー-デコーダー構造を採用し、強力なブレ除去性能を追求します。[81] で使用されていたすべてのパラメータ共有を削除しました。これは、パラメーター共有が役に立たないという意味ではありませんが、スケール内、スケール間、およびマルチスケール構造でパラメーター共有を組み合わせると、共有パラメーターの最適化に対する制約が増え、パフォーマンスの低下につながる可能性がありますさらに、ネットワークをさらに簡素化するために、マルチスケール構造を削除しました。
ここに画像の説明を挿入します
ネットワーク アーキテクチャ: 図 7 に示すように、ネットワークは畳み込み層、DenseBlocks、および Inception-A ブロックで構成されます。Ib と Is はそれぞれ入力ブラー イメージと出力イメージを表しますネットワークのバックボーンは、受容野を強化する要素として DenseBlocks と ResBlock を使用しますデフォルトでは、各非線形 DenseBlock モジュールには 4 つの処理ユニットがあります。使用される ResBlock の構造は図 7 に示されており、2 つの畳み込み層が含まれています。フレームワークについては、マルチスケール構造とパラメータ共有メカニズムを削除し、ネットワークを簡素化します。エンコーダー/デコーダー構造は、独立したパラメーターを持つ 12 個の DenseBlock に基づいています。ネットワークの中央に 4 つの Inception-A ブロックを追加して、機能マップを拡大しますInception-A は Inception-v4 のコンポーネントの 1 つで、画像復元に適した入力サイズと特徴マップ幅を備え、382 チャネルが含まれています。Inception-v4 の場合、Inception-A、Reduction-A、Inception-B、Reduction-B、および Inception-C の 5 種類のブロックがあります。しかし、インセプション A を除くこれらのブロックには 1000 を超える特徴があるため、画像再構成には適していません。inception-A を採用することにより、提案されたネットワークは DenseNet ネットワークと Inception-A ネットワークからのハイブリッド特徴抽出メカニズムを備えているため、MixNet と呼ばれます。5 × 5 [50,80] のカーネル サイズを使用するのとは異なり、モデル サイズを制御するために 3 × 3 のカーネル サイズを使用します。これは、3 × 3 カーネルを含む 2 層が、5 × 5 カーネルを含む 5 層と同じ受容野をカバーできるためです。 5 コアですが、パラメータの約 25% が節約されます

損失関数は、画像のブレ除去ネットワークのもう 1 つの重要な要素ですセクション 2 のレビューによると、MSE 損失は画像のブレ除去にとって最も重要な損失として知られています。これは、以下に示すように、性能評価において最も重要な尺度の 1 つであるPSNR に直接関係します。
ここに画像の説明を挿入します
したがって、この研究では、損失関数として MSE 損失を採用します。私たちの経験では、他の補助的な損失 (SSIM 損失や敵対的損失など) を追加しても、ブラー除去に必ずしも重大な影響を与えるとは限りません。

実装: TensorFlow [264] によって提案された MixNet を NVIDIA Tesla P100 GPU に実装しました。ぼやけた 256 × 256 領域からランダムに切り取られた実際の画像とその同じ位置がトレーニング入力として使用されます。トレーニング中にバッチ サイズを 16 に設定します。すべての重みはザビエル法 [265] を使用して初期化され、バイアスはゼロに初期化されます。ネットワークは、デフォルト設定 beta1=0.9、beta2=0.999、epsilon=10^-8 で Adam メソッド [266] を使用して最適化されました。学習率は最初に 0.0001 に設定され、その後 0.3 の累乗を使用して 0 まで指数関数的に減衰します。実験によると、ネットワークが収束するには 2000 エポックで十分です

結果と比較: 提案された MixNet で実験を実施し、GoPro データセット上の動的シーンのブレ除去および不均一なブレ除去のための最先端の方法と比較しました。比較された手法には、DeepDeblur [50]、Scale Recurrent Network (SRN-Deblur) [80]、DSHMN [82]、DeblurGAN [33]、DeblurGANv2 [64]、教師なしぼけ除去 [85]、ドメイン空間 [86]、SVRNN [89] が含まれます。 ]、Dual  Residual  [90]、Douglas-Rachford network [87]、Region Adaptation [88]、Blur2Flow [262]。結果は、デフォルトの GoPro トレーニング データセットでトレーニングされたモデルから生成され、その後 GoPro テスト データセットでテストされます。教師なし学習方法、教師なしぼけ除去およびドメイン固有の場合、トレーニング データセットからのぼやけた画像と、高解像度の新しい GoPro データセットからの鮮明な画像を使用しました。Blur2Flow や最適化ベースのメソッドなどのカーネルベースのメソッドについては、公開されているモデル コードでテストしました。定量結果と評価を表9に示す。
ここに画像の説明を挿入します
一般に、教師なし学習方法では、教師 (グラウンド トゥルース) が関与せず、教師なし学習のデータセット サイズが制限されているため、予想どおり PSNR と SSIM が低くなります。さらに、これらのネットワークは主にこのトレーニング メカニズムを調査するために開発されましたが、ネットワーク構造はほとんど開発されていません。Dr-Net は最高の SSIM パフォーマンスを持っていますが、提案された MixNet は他のすべての評価基準で最先端のパフォーマンスを達成します。さらに、当社の MixNet は実行時間とパフォーマンスのバランスが取れていますが、Dr-Net の実行時間は MixNet の 2 倍です。GoPro 評価データセットの視覚的な比較を図 8 に示します。図に示すように、提案されたモデルは一般に他の方法よりも優れた結果を生成します。ドメイン固有のネットワークは教師なしのぼけ除去の代表例であり、明らかに色にある程度の歪みがあります。
ここに画像の説明を挿入します
また、HIDE データセットでの手法を評価および比較しました。定量的な結果を表 10 に示します。これらの結果は、デフォルトの HIDE トレーニング データセットでトレーニングされたモデルによって生成されます。図に示されているように、提案された MixNet は、これらすべての評価基準においてこれらの最先端の方法を上回るか、またはそれに匹敵します。
ここに画像の説明を挿入します

4.3. 貢献

ここでは、この論文の主な貢献を要約します。

  • 総合的なレビュー

    画像修復、画像のブレ除去、画像のノイズ除去、画像のかすみ除去、超解像度、および画質評価に関して包括的な文献レビューが行われます。対応するすべてのベースライン深度モデルもレビューされました。

  • 超解像とブレ除去のための新しい方法

    は、Hypervol 式の拡張として、超解像のための GAN トレーニング目的関数の新しい式を提案しました [257]。新しいバランスのとれた画像のぼけ除去法であるMixNetを提案する。

  • 実験による検証

    超解像を実現するために SRGAN のさまざまなトレーニング目的関数に Ed と Hypervol の式を適用する広範な実験が行われ、改善が得られました。提案された MixNet と最先端のブレ除去方法を比較する実験が行われ、その結果、主流の画像ブレ除去ネットワークと比較して MixNet のパフォーマンスが優れていることが示されました。

5. 結論と考察

画像のノイズ除去は、その不適切な性質のため、困難な画像処理タスクです従来の方法では、劣化メカニズムとノイズ モデルを構築するために手作りのモデルに依存していました実際には、劣化メカニズムとノイズモデルが単純で統一されていることはほとんどありません。その結果、学習ベースの手法がより適用可能になり、多くの場合、従来の手法よりも大幅に優れたパフォーマンスを発揮します深層学習ネットワークは特に人気があり、ぼけ除去、ノイズ除去、かすみ除去から超解像度に至るまで、あらゆるものについて多くの研究が行われています。これらのタスクの方法を包括的にレビューし、さまざまな回復タスクに対する典型的で有用なメカニズムとその利点を要約します。また、特定のトレーニング目標と超解像度のための新しい定式化、およびブラインド単一画像のブレ除去のための効率的なディープ ネットワークも提案します実験結果は、最先端の方法と比較してその利点とパフォーマンスの向上を示しています。

画像のノイズ除去は、低レベルの視覚と信号処理にとって非常に価値があり、ベイジアンの観点から画像の事前分布と最適化手法を評価するための理想的なテストベッドとして機能します従来、画像ノイズ除去方法は、既存の信号ノイズ除去方法からインスピレーションを受けてきました。学習ベースの方法では、事前知識がほとんどなくてもパフォーマンスが大幅に向上し、鮮明な画像を回復できます。しかし、最近の研究は主に現実世界のノイズ画像ではなく合成ノイズ画像に基づいており、その分布は不明であり、一般に想定されているようなガウス分布になることはほとんどありません。現実世界の画像のノイズ除去は依然として課題です。

自然シーンの統計やディープ ニューラル ネットワークによって学習された特徴などの専門知識を使用して、画像のブレを除去する最終的な目標は、詳細な再構成ですこれらの画像事前分布は、画像のブレ除去問題を解決するための正則化手法として使用され、最適化中にコスト関数を最小化するために追加されます。動的なシーンのブラーは本質的に画像全体で変化するため、回復のためのカーネルを推定するために手動の方法を採用することは困難です。対照的に、エンドツーエンドのディープ ニューラル ネットワークのトレーニングには強力な学習機能があり、劣化した入力画像ときれいな出力画像の間のマッピングを近似できます。ただし、ネットワーク アーキテクチャとパラメータを慎重に調整する必要があり、モデルのパフォーマンスを最適化するには献身的な努力が必要です。

劣化した低解像度バージョンから高解像度画像を再構築するには、次元の増加だけでなくデコンボリューションも必要になります指定された画像に基づいて、補間されるピクセルは、古典的なバイキュービック関数またはディープ ニューラル ネットワーク学習を通じて推定されますディープラーニング ニューラル ネットワークは優れたパフォーマンスを生み出すことが証明されています。ディープ ニューラル ネットワークのアンサンプリング レイヤーは、サブピクセルを挿入して画像の寸法を拡大し、画像を再スケールして、より詳細なディテールとテクスチャで品質をさらに向上させることができますさらに、トレーニング目的関数は解空間の制約としてさまざまな損失を使用することが多いため、最適化の方向、ひいてはパフォーマンスも決定します。画質メトリクスに基づく損失は、モデルのパフォーマンスを向上させるのに効果的であることが証明されており、導入が簡単で便利です。

ほとんどの深層学習手法は教師あり学習に基づいていますが、教師なし学習または半教師あり学習も、データ表現の向上という点で画像復元に利益をもたらすため、教師ありメカニズムと組み合わせることが増えています。この方向でのさらなる開発により、回復タスクがより効率的かつ効果的になる可能性があります。グラフと自己組織化構造は、深いネットワークの教師あり学習スキームに統合でき、不正設定逆問題をより実行可能かつ効率的にし、多数のペアのトレーニング サンプルへの依存度を低くすることができます

おすすめ

転載: blog.csdn.net/SmartLab307/article/details/132803572