空間ピクセルと時空間ピクセルの学習

画像およびビデオのノイズ除去のための変形可能カーネルの学習

著者: Xiangyu Xu SenseTimeSenseTime Research

论文思想: 1 つは従来のバイラテラル フィルタリング アルゴリズムと CNN を組み合わせる方法、もう 1 つは変形畳み込みを使用してマルチフレーム アライメントを行う方法、3 つ目は RAW で処理する方法です。

主な貢献:

  1. 従来のノイズ除去アルゴリズムと変形畳み込みを組み合わせた変形畳み込みは、従来のアルゴリズムでの選択と平均化の学習プロセスを示すために使用されます。
  2. 2D の変形可能な畳み込みを 3D に拡張すると、ビデオ ノイズ リダクションのパフォーマンスがさらに向上し、大規模なモーションでのアーチファクトが軽減されます。3D 変形可能な畳み込みの正則化項も提案されています。
  3. 変形した畳み込みがどのように機能するかを視覚的に分析します。
  • 私たちは集約ベースの手法とディープ ニューラル ネットワークを利用し、画像ノイズ除去のためのピクセル集約プロセスを明示的に学習する新しいアルゴリズムを提案します。

  • 空間ピクセルの集合を時空間領域に拡張して、ビデオのノイズ除去における大きな動きをより適切に処理し、アーティファクトをさらに低減し、パフォーマンスを向上させます。

  • ビデオノイズ除去モデルのトレーニングを支援するために、正則化項が導入されました。ベンチマーク データセットに関する広範な実験により、私たちの方法が単一の画像入力とビデオ入力の両方で最先端の方法よりも優れていることが実証されました。

まとめ

  1. 既存のノイズ除去方法はby selecting and averaging pixels復元に合格しており、この論文では手作りの平均化戦略に依存しない NN を使用することを提案しています。
  2. この論文では deformable 2D kernels for image denoising、画像のノイズ除去、適応型画像構造を適用し、過剰な平滑化とアーティファクトを効果的に軽減することを提案します。
  3. 次に、3D deformable kernels for video denoisingビデオのノイズ除去への参照を提案し、空間と時間のピクセルを効果的に使用し、大きな動きのmisalignment問題を解決します。
  4. 新しいビデオノイズ除去モデルregularization termthe trilinear samplerトレーニングビデオノイズ除去モデルを導入します。

導入

画像およびビデオ キャプチャ システムは、フォトンからのショット ノイズやセンサーからの読み取りノイズなどのノイズによって劣化することがよくあります [1]。この問題は、低照度のシーンや小口径の携帯電話カメラで撮影された画像やビデオではさらに悪化します。ほとんどのノイズ除去手法の成功は、同じ信号の複数の独立した観測値を平均すると、元の観測値よりも分散が小さくなるという事実に由来します。数学的には、これは次のように表されます。

画像-20220318132735467

(1) 既存のノイズ除去アルゴリズム [2] ~ [4]、[6]、[7] は通常、入力画像から類似したピクセルをサンプリングし、加重平均によってそれらを集計します。類似ピクセルの分布は局所的な画像構造に依存するため、サンプリング グリッド N と平均重み F は通常、データに依存し、空間的に変化します。N と F を決定するための戦略は、さまざまなノイズ除去方法を区別する重要な要素です。図 1© および (h) に示すように、これらの方法は通常、複雑なシーンではhand-crafted schemesパフォーマンスが低下します。sample and weigh pixels,

(2) CNN ベースのアプローチが提案されています。これは、空間不変性とデータ独立性を使用しconvolution kernels、ノイズ除去プロセスでは空間変動とデータ依存性を使用します。したがって、これらの方法では、空間的に変化するデータ依存のプロセスを暗黙的に近似するための高い非線形性を実現するために非常に深い構造が必要ですが、集約ベースの定式化ほど効率的で簡潔ではありません。さらに、CNN ベースの手法は、出力空間を制限するために入力ピクセルを明示的に操作しないため、図 1(d) に示すように、破損した画像テクスチャや過剰な平滑化アーティファクトが生成される可能性があります。

(3) したがって、この論文では、a pixel aggregation networkピクセル集約プロセスをデータ駆動型の画像ノイズ除去方法と明示的に統合することを提案します。

詳細: CNN を使用して、ノイズのある画像内の各位置の空間サンプリング グリッド N を推定します。サンプリングされたピクセルを集約するには、各サンプルの平均重み F を予測します。最終的に、エンドツーエンド ネットワークで F と N を重み付け平均で組み合わせることにより、ノイズ除去された出力を取得できます。

利点: (1) 集計プロセスは手作りではなく学習データに依存します (2) 提案されたモデルは、空間的に変化しデータに依存するサンプリングおよび平均化戦略を通じて、画像構造によりよく適応し、詳細を保存できます。(3) ノイズ入力を直接フィルタリングし、それによって出力空間を制限します。 (4) 提案された方法は、動的な方法でピクセルをサンプリングすることができます (コンボリューション カーネルの固定位置による厳密なサンプリングではありません)。これにより、画像構造によりよく適応し、受容性が向上します。追加の場所をサンプリングせずにフィールドを作成します。

(4) ビデオに適用:2D pixel aggregation各フレームにそれぞれ直接適用し、最後にフレームごとに融合します。

——短所: 大規模な動きに直面すると信頼性が低く、隣接するフレーム間には信頼できるサンプリング情報がほとんどありません。

——解決策: 出力位置ごとに 1 つずつ開発しますa spatio-temporal pixel aggregation network。これは、隣接するフレームで最も多くの情報を持つピクセルを適応的に選択するために使用されます。

——利点: ダイナミックなシーンによって引き起こされる位置ずれの問題を解決し、アーティファクトを軽減します。

関連作業

1. 画像とビデオのノイズ除去

  • ピクセル集約に基づく表示または暗黙的手法 (ローカル ウィンドウ内のサンプル ピクセル ブロック、平均重みを計算した後に集約)、または非ローカル平均法 (グローバル集約)
  • 映像には時間的・空間的な情報があるため、類似したピクセルをグループ化して集約することでVBM3D/VBM4Dなどが普及しています)
  • 深層学習に基づく: 残留接続に基づく CNN および RNN

2. バーストノイズ除去brust denoising

  • 既存の手法のほとんどは、コンボリューション カーネルに正確なサンプリング グリッドを使用するため、局所的な画像構造をうまく利用できません。

3、learning dynamic filtering

  • ほとんどの方法では、固定領域のピクセルのみが考慮されるため、多くの場合、受容野が制限され、無関係なサンプリング位置の影響を受けやすくなります。
  • 明示的な重み付け方法では、過剰な平滑化アーティファクトが発生する可能性があります。に似ているGaussian filters

提案手法

画像-20220318142525018

まず、サンプリング グリッドのオフセットを推定するためにディープ CNN をトレーニングします

次に、予測されたオフセットに従ってノイズのある入力** からピクセルをサンプリングしサンプリングされたピクセル、ノイズのある入力、およびオフセット ネットワークの特徴を連結することによって重みを推定します

最後に、サンプリングされたピクセルを学習した重みで平均して、ノイズ除去された出力を生成します。

具体的には、ニューラル ネットワークを使用して、ノイズを含む入力の各ピクセルのサンプリング位置 the sampling locationsN と平均重み averaging weightsFを予測します。これら 2 つのコンポーネントは、空間的および時空間的なピクセル集約のために統合されています。N の空間座標を直接回帰する代わりに、剛体サンプリング グリッドのthe spatial coordinates オフセット V を学習し、それに応じて剛体グリッドを変形します。offsets

簡単に言うと、オフセットネットワークを通じて、周囲の情報量が多い位置にあるある画素点のオフセット位置情報Vをサンプリングして取得し、元の画像とオフセット位置情報、オフセット画素を同時に入力し、畳み込み層を介して平均重み F を取得し、サンプリングされた画素に対して平均学習出力を行います。

ピクセル(画像)を集約する方法を学習するプロセス

ノイズ画像の場合、X は $ R^{h*w}$ に属するピクセルの 1 つであり、h と w は長さと幅を表します

集合ノイズは次のように表されます。

画像-20220319092021661

ここで、(u,v) はノイズ除去された入力ピクセルの 1 つを示し、F は平均化されたピクセルの重みを示し、N は n 個の位置を持つサンプリング グリッドを示します。

画像-20220319092304015

上の図では、ビデオ シーケンスに 3 つの隣接するニードルがあり、黄色の枠は下の図で選択されるサンプリング領域です。

上の図の青い領域は、厳密なサンプリングの使用を示しますa rigid sampling grid。つまり、コンボリューション カーネルと同様に、グリッド領域が固定されています。

この方法のみを使用し、将来の平均重みを学習するだけでは、通常、受容野が制限され、画像の構造情報を効果的に使用できません。

画像-20220319092559026

この論文はpixel aggregation network (PAN)、ネットワークの予測オフセット V に従って適応サンプリング グリッドを設計することを提案します。

この方法を使用すると、効果がより良くなります。たとえば、ポイントの領域が車の前方 (黒い影の左側) に近いため、サンプリング ピクセルの位置を近傍に応じて適応的に調整できます。 。

  • 時空間ピクセル集合体

提案された方法は、ビデオのノイズ除去にも簡単に拡張できます。ノイズの多いビデオ シーケンス {Xt−τ , . . . , Xt , . . . , Xt+τ } があると仮定します (Xt は参照フレーム)。この入力を処理する簡単な方法は、上の図 c に示すように、PAN モデルを各フレームに個別に適用し、出力を加重和と融合することです。ただし、この単純な 2D 戦略は、隣接するフレームの領域 (たとえば、図 4 のフレーム Xt-1 および Xt+1 の中央領域) には信頼できるピクセルがほとんどないため、大きな動画ビデオを扱う場合には効果がありません

この問題を解決するには、より信頼性の高いフレーム (参照フレーム Xt など) により多くのサンプリング位置を割り当て、激しい動きのあるフレームを避ける必要があります。効率的なソリューションでは、入力ビデオの時空間空間でピクセルを検索できる必要があります。

この論文はa spatio-temporal pixel aggregation network (ST-PAN)、ビデオのノイズ除去に使用することを提案し、時空間空間で最も情報的なピクセルを適応的に選択します (時空間空間で最も情報的なピクセルを適応的に選択します)。

画像-20220319093349886

the large motion issuesこの問題は、効率的に処理しreduce cluttered boundariesghosting artifacts既存のビデオノイズ除去アプローチによって生成されながら、 3D 位置間の依存関係をキャプチャし、より信頼性の高いフレームでサンプリングすることで解決できます[7]、[9]。

画像 (右側) には十分なサンプリング ポイントがありません。これは、2 つの隣接するフレームにサンプルがあるだけでなく、情報量が多いため、一部の情報ポイントが他のフレームでもサンプリングされることを示しています。

  • ガンマ補正 ガンマ補正

ノイズは sRGB 空間では非線形であるため [33]、[34]、線形生空間でノイズ除去モデルをトレーニングします。線形出力 Y を使用して、5 のガンマ補正を実行して、知覚品質を向上させる最終結果を生成します。

B ネットワークアーキテクチャネットワーク構造

画像-20220319093903794

単一フレームが画像ノイズ除去の入力として使用され、2τ + 1 個の隣接フレームのシーケンスがビデオノイズ除去に使用されます。図 3(b) に示すように、

U-Net アーキテクチャ [35] が採用されており、エンコーダは入力フレームを低解像度の特徴埋め込みに順次変換し、デコーダはそれに応じて特徴をフル解像度の推定値にスケールバックします。エンコーダーとデコーダーの同じ解像度のレイヤー間のスキップ接続を使用してピクセル単位の合計を実行し、推定タスクに低レベルの特徴と高レベルの特徴を共同で使用します。予測された重みはサンプリングされたピクセルに適用されるため、これらのピクセルを重み推定ブランチにフィードして、重みをサンプリングされたピクセルによりよく適合させることが有益です。したがって、サンプリングされたピクセル、ノイズを含む入力、およびオフセット ネットワークの最後の層からの特徴を連結し、それらを 3 つの畳み込み層に供給して平均重みを推定します。デザインの詳細については原文をご覧ください

C 損失関数損失関数の設計

L1 損失を使用して、単一画像のノイズ除去のためにネットワークをトレーニングします

画像-20220319094148634

  • ビデオのノイズ除去のための正則化用語

ST-PAN モデルはビデオ フレーム内のピクセルをサンプリングするため、トレーニング プロセスが極小値でスタックする可能性があります。つまり、すべてのサンプル位置が参照フレームの周囲にのみ存在します。local minimum この問題を軽減し、ネットワークがより多くの時間情報を利用できるようにするためにsubsets of the sampled pixels 、サンプリングされたピクセルのサブセットが 3D 集約プロセスを個別に学習できるようにする正則化項を導入します。

[6] と同様に、サンプリング グリッドを S グループにグループ化します。各グループは N/s で構成されます。以下を参照してください。

実験

データセット

インターネットから27 個の高品質の長いビデオを収集します。23 個の長いビデオをトレーニングに使用し、残りの 4 個をテストに使用します。各シーケンスが 2τ + 1 つの連続フレームで構成されるトレーニング用に 20K のシーケンスを抽出します。[9] と同様に、逆ガンマ補正を実行し、信号依存のガウス ノイズを追加することで、モデルのノイズの多い入力を処理します。

トレーニングとパラメータ設定

一部のパラメータをトレーニングするための基本設定

合成データセットのテスト

提案されたアルゴリズムを、さまざまなノイズ レベルの合成データセットに対する最先端の画像およびビデオのノイズ除去方法 [3]、[4]、[7]、[9]、[10] に対して評価しますNLM [3]、BM3D [4]、および VBM4D [7] メソッド (ブラインドおよび非ブラインドの両方) で徹底的なハイパーパラメーター微調整を実行し、最良の結果を選択します。また、比較のために、同じ設定を使用してデータセットで KPN [9] メソッドと DnCNN [10] メソッドをトレーニングします。KPN [9] スキームは元々マルチフレーム入力用に設計されていますが、より包括的な評価を行うためにネットワーク入力を変更することで単一画像に適応させます。

[外部リンク画像の転送に失敗しました。ソース サイトにはリーチ防止メカニズムがある可能性があります。画像を保存して直接アップロードすることをお勧めします (img-tiSsPDBW-1689334096676) (C:/Users/dell/AppData/Roaming/Typora/) typora-user-images/image-20220319095027284.png)]

画像-20220319095132720

等分散ガウスノイズの評価

現実世界のノイズはほとんどが信号相関があり、不均一分散 [1]、[13]、[53] ですが、既存の方法では通常、等分散ガウス ノイズに基づいてノイズ除去アルゴリズムを評価します [10]、[12]、[42]、[45]。 –[49]、[52]。より包括的な研究のために、等分散ガウス ノイズを使用して画像およびビデオのノイズ除去データセットに対して提案された PAN モデルと ST-PAN モデルを評価します。画像-20220319095319726

画像-20220319095338302

時間的整合性の検証 時間的整合性

画像-20220319095356410

ビデオのノイズ除去アルゴリズムは通常、時間的に一貫したビデオ フレームを生成することを望んでいます。図7に、提案されたモデルの時間的一貫性を評価するためのいくつかのビデオノイズ除去結果を示します。具体的には、赤い縦線で強調表示された 1D サンプル (図 7(a) を参照) を 60 個の連続フレームから収集し、これらの 1D サンプルを 2D 画像に連結して、ノイズ除去されたビデオの時間分布を表します。ベースライン法の結果 (図 7(c) および (d)) と比較して、提案された ST-PAN モデル (図 7(e)) の時間分布は、より滑らかな構造と少ないジッター アーティファクトを持っています。これは、モデルの時間的一貫性が向上していることを示しています。

実出力比較

画像-20220319095510959

議論と分析

サンプルは 2D 画像に連結されて、ノイズ除去されたビデオの時間分布を表します。ベースライン法の結果 (図 7(c) および (d)) と比較して、提案された ST-PAN モデル (図 7(e)) の時間分布は、より滑らかな構造と少ないジッター アーティファクトを持っています。これは、モデルの時間的一貫性が向上していることを示しています。

実出力比較

画像-20220319095510959

議論と分析

おすすめ

転載: blog.csdn.net/qq_38758371/article/details/131730290