ステレオ画像の超解像度のためのハイブリッドトランスフォーマーとCNNアテンションネットワーク

1. 概要

イメージ復元タスクでは、多段階戦略がよく使用されます。Transformer ベースの手法は単一画像の超解像度タスクでは高い効率を示していますが、立体視の超解像度タスクでは CNN ベースの手法を上回る大きな利点はまだ示されていません。
これは 2 つの重要な要素に起因すると考えられます:
第一に、単一画像超解像度用の変流器はプロセスで相補的なステレオ情報を活用できないこと
解像度アルゴリズムに存在しないことです。
これらの問題に対処するために、この論文では、単一画像の強調には Transformer ベースのネットワークを、ステレオ情報融合には CNN ベースのネットワークを利用する、ハイブリッド Transformer および CNN アテンション ネットワーク (HTCAN) を提案します。

2. 簡単な紹介

2.1 ステレオ超解像と単一画像超解像の違い

2.1.1 ステレオ超解像と単一画像超解像の違い 1

立体画像超解像度: 与えられた低解像度の左ビュー画像と右ビュー画像から高解像度画像を再構成することを目的としています。
Single Image Super-Resolution : 特定の低解像度のメインビュー画像から高解像度の画像を再構築することを目的としています。

2.1.2 ステレオ超解像と単一画像超解像の違い 2

立体画像超解像度: 立体画像超解像度は、重なり合う領域が大きい 2 つのビューからの情報を利用できます。
単一画像超解像度: 単一画像超解像度では、単一ビューからの情報のみを利用できます。

あるビューで失われた情報が別のビューにまだ存在している可能性があり、別のビューからの追加情報を利用すると、再構築プロセスに大きなメリットが得られます。したがって、立体画像超解像アルゴリズムの最終的な性能は、各ビューの特徴抽出能力とステレオ情報交換能力に大きく依存します。

2.1.3 ハイブリッドトランスとCNNアテンションネットワーク

Transformer と CNN のハイブリッド アテンション ネットワークでは、単一ビューの低解像度画像の重要な特徴のほとんどがさらなる処理のために確実に保存されるように、Transformer が最初のステージとして使用され、CNN ベースの手法が使用されます。効果的なステレオ情報交換のための第 2 段階。

2.1.4 この論文の具体的な貢献

①ハイブリッドステレオ画像超解像ネットワーク:変換器とCNNアーキテクチャを統合した統合ステレオ画像超解像アルゴリズムを提案し、変換器は単視点画像の特徴を抽出するために使用され、CNNモジュールは使用されます。 2 つの View 情報を交換し、最終的な超解像度画像を生成します。
②包括的なデータ拡張:マルチパッチトレーニング戦略などの技術を包括的に研究し、立体画像の超解像に適用します。
③ 最先端の性能:提案手法は新たな最先端の性能を実現し、ステレオ画像超解像チャレンジで優勝した。

3. 具体的な方法

図 1 ハイブリッド Transformer と CNN アテンション ネットワークの図

        提案されているハイブリッド トランスフォーマーおよび CNN アテンション ネットワーク (HTCAN) は、図 1 に示すように、マルチレベルの復元ネットワークです。ステージ 1 では、低解像度のステレオ画像L^{lr}と合計が与えられ、まずR^{lr}Transformer ベースの単一画像超解像度ネットワークを使用してL^{s1}合計に超解像されますR^{s1}第 2 段階では、CNN ベースのネットワークを使用して合計に対してステレオ強化を実行しL^{s1}R^{s1}強化された画像のL^{sr}合計を取得しますR^{sr}第 3 段階では、さらなるステレオ強化とモデル統合のために、第 2 段階と同じ CNN ベースのネットワークを使用します。

3.1 フェーズ 1: トランスフォーマーベースの単一画像超解像度

3.1.1 ネットワークアーキテクチャ

        図 1(a) に示すように、Transformer ベースの単一画像超解像度 (SISR) ネットワークの入力は、1 つの低解像度画像パッチとその周囲の 8 つのパッチです。周囲の 8 つのパッチは、中央のパッチの上下左右から切り取られます。したがって、周囲の 8 つの小さなブロックが画像の端からはみ出す可能性があります。この場合、反射パディングを使用して画像が拡張され、パディング画像から低解像度パッチとその周囲の 8 つのパッチが抽出されます。F_{L}^{1}9 つの入力低解像度パッチが与えられると、それらはまず 3 × 3 畳み込み層に入力されて、浅い特徴 , が抽出されます。F_{R}^{1}\in R^{H\times W\times C}ここで、C は特徴チャネルの数であり、チャネルの数は 180 に設定されます。浅い特徴は、入力の初期認識を提供し、その後、自己注意と集約情報のために、K1 が 12 に設定された連続的な K1 カスケード Residual Hybrid Attendee Group (RHAG) に供給されます。さらに、ウィンドウ内の情報をより適切に集約するために、ウィンドウ サイズが 24 × 24 に増加されました。最後に、カスケード RHAG の効率的な情報集約の後、畳み込み層とピクセル シャッフル 層を通じて超解像度画像が生成されます。ネットワークの出力は、センターパッチに対応する高解像度パッチです。

3.1.2 全体戦略

自己統合は、入力された低解像度画像を回転および水平/垂直反転することによって実現されます。また、HAT-L モデルの GeLU 活性化関数は SiLU 活性化関数に置き換えられます。実験を通じて、導入されたフーリエ アップサンプリング手法ではモデルのパフォーマンスが大幅に改善されないことがわかりました。ただし、追加のアンサンブル モデルとして導入すると、パフォーマンスがさらに向上することがわかりました。

3.2 第 2 段階: CNN に基づくステレオ強調

3.2.1 ネットワークアーキテクチャ

        第 2 段階の目的は、ステレオ情報交換を実行することです。そのために、最先端のステレオ超解像モデルNAFSSR-Lをバックボーンとして採用しています。NAFSSR-L も 4 倍の超解像度モデルなので、この段階ではアップスケールする必要はありません。ステージ 1 の入力画像ピクセルは、第 2 ステージの入力および出力サイズ要件に一致するように 4 回再構成されます。それに応じて、最初の畳み込み層の入力チャネルも変更されます。これにより、メモリ占有が減少し、NAFSSR-L の受容野が拡張されます。このモデルを UnshuffleNAFSSR-L と呼びます。図 1(b) に示すように、ステージ 1 からの超解像画像のL^{s1}合計R^{s1}が UnshuffleNAFSSR-L に入力されます。リビニングされていない左ビュー画像と右ビュー画像が与えられると、それらはそれぞれ 3 × 3 畳み込み層に入力され、浅い特徴 、 が抽出されます。F_{L}^{2}ここF_{R}^{2}\in R^{H\times W\times C}で C は特徴チャネルの数であり、C は 128 に設定されます。次に、浅い特徴は、クロスビュー情報集約のための連続する K2 カスケード非線形活性化フリー (NAF) ブロックとステレオ クロスアテンション モジュール (SCAM) に供給されます。高効率を確保するために、NAFBlocks は従来の非線形活性化関数を乗算に置き換え、K2 を 128 に設定します。SCAM モジュールは 2 つの NAF ブロックごとに挿入され、クロスビュー情報の集約を可能にします。SCAM モジュールは、スケーリングされた DotProduct アテンションに基づいて左右の特徴に対してクロス アテンションを実行し、クエリ内のすべてのキーの内積を計算し、ソフトマックス関数を適用して値の重みを取得します。立体画像の超解像度タスクでは、左画像と右画像の間で対応するピクセルが同じ水平線上にあります。したがって、SCAM モジュールは、左ビューと右ビューの同じ水平線上にあるすべてのマーカー ポイントを蓄積し、それによってクロスビュー情報を効率的にキャプチャします。カスケード接続された NAF ブロックと SCAM による効率的なクロスビュー情報集約の後、図 1(b) に示すように、畳み込み層L^{sr}とピクセル シャッフル層によってステレオ強調画像が生成されます。R^{sr}

3.2.2 全体戦略

        自己統合は、入力画像を水平および垂直に反転し、左右のビューを反転することによって行われます。最終的なアンサンブル結果を構築するために、2 つのモデルが選択され、それらの出力が平均されました。潜在的な丸めエラーを防ぐために、出力は浮動小数点形式で維持されることに注意することが重要です。

3.3 第 3 段階: CNN に基づくステレオ効果

第 2 ステージでトレーニングされたモデルの多様性が欠如しているため、第 2 ステージのアンサンブル出力が満足のいくものではないことに気付きました。そこで、第 3 段階を紹介します。ステージ 3 はステージ 2 とまったく同じですが、入力がステージ 1 の対応する出力ではなくステージ 2 の自己統合出力に変更される点が異なります。モデルのパフォーマンスはステージ 3 で飽和し、ステージ 2 と比較して明らかな改善はありませんが、優れたアンサンブル モデルとして機能し、ステージ 2 でトレーニングされたモデルのパフォーマンスをさらに向上させます。各段階での全体的なパフォーマンスの変化を表 2 に示します。時間の制約により、ステージ 3 モデルは 1 つだけトレーニングされました。

図 2. ステージ全体でのパフォーマンスの向上 (すべての PSNR 値は検証セットで計算されます)。

おすすめ

転載: blog.csdn.net/weixin_42715977/article/details/131771037