ビデオ超解像アルゴリズム TDAN: ビデオ超解像のための一時的に変形可能なアライメント ネットワーク

ここに画像の説明を挿入
この記事では、DCN (変形可能な畳み込み) に基づく DCN バリアントを提案します。TDから、暗黙的な動き補償メカニズム、フローフリー方式。フローベースの方法を使用する VESPCN とは異なります。VSR の通常の構造は、アライメント ネットワーク + フュージョン SR ネットワークです。この記事では、アライメントネットワーク部分が改善され、フュージョン SR 部分は引き続き共通の構造を使用し、フュージョンは最も単純な初期フュージョンを使用します。
元のリンク: TDAN:ビデオ超解像度リファレンス カタログ用の一時的に変形可能なアライメント ネットワーク
: TDAN

概要

この記事の出発点は、連続した画像の複数のフレームを位置合わせすることが重要であるということですが、オプティカル フローフロー ベースの方法に基づく参照フレームとサポート フレームの位置合わせは、アーティファクトが発生しやすいということです。そのため、フローフリー方式が提案されています

  1. カメラまたはオブジェクトの動きが異なるため、参照フレームと各支持フレームは位置合わせされません。したがって、タイム アラインメントは VSR にとって重要なステップです。これまでの VSR 方式はすべてオプティカル フローによるタイム アラインメントに基づいていましたが、この方式は非常に重要であり依赖于光流估计、推定値が正確でないと、その後の画像再構成の品質に大きく影響します。

この問題を解決するために、著者は、時間変形可能アラインメント ネットワーク (TDAN)、オプティカル フローを計算せずに、参照フレームと各サポート フレームをフィーチャ レベルで適応的に位置合わせします。TDAN の整列方法は、基于DCNの変形です。DCN と同様に、TDAN は参照フレームと各サポート フレームの特徴を動的予測に使用します偏移量対応するカーネルで畳み込むことにより、TDAN ネットワークはサポート フレームを参照フレームに合わせます。TDAN は、再構成プロセスにおけるオクルージョンとアーティファクトを軽減できます。

VESPCN のアライメント モジュールは、STN の変形を使用します. 原理は、画像の 2 つのフレーム間の動き推定を学習して動きベクトルを取得し、次にリサンプリングによってサポート フレームの推定値を復元し、それを参照フレームこのプロセスには画像の動きの分析が必要であり、オプティカル フローが存在する必要があります。また、入力モーション推定モジュールは画像自体であるため、このプロセスは画像単位です。

TDAN のアライメント モジュールは DCN の変形を使用します. 原理は,特徴画像のサンプリング位置のオフセットを学習することでオフセット特徴量を決定し, 参照フレームの特徴にアプローチする. 特徴ごとの方法です.また、オプティカル フローの推定を回避します。

1 はじめに

ビデオの超解像タスクでは、カメラの揺れやオブジェクトの動きにより、異なるフレーム間の画像が変化するため、隣接するフレーム画像の位置合わせは重要なステップです。以前の位置合わせ方法はすべて、オプティカル フロー フロー ベースの方法に基づいていましたが、于依赖运动估计的准确性オプティカル フロー推定のエラーにより、出力推定画像にさまざまなアーティファクトが生じやすくなります。

この点に関して, この論文では,オプティカル フローに基づかないTDAN 手法隐式的运动补偿机制を提案する. 1 つは, サポート フレームの特徴位置のオフセットを学習することにより, 畳み込みカーネルに変換された特徴の新しい位置ピクセルを抽出させる.マップし、サポート フレームを再構築すると効果的です避开光流方法TDAN は強力で柔軟性があり、一時的なシーンでさまざまなモーション条件を処理できます。

この論文の貢献は 3 つあります。

  1. one-stage提案した特征级変形可能なアラインメント ネットワーク (TDAN)flow-freeメソッドです。
  2. 全体として、ネットワークは 2 つの部分で構成されます。DCN ベースのアライメント ネットワーク TDAN + フュージョン SR ネットワーク。エンドツーエンドでトレーニング可能な VSR フレームワークです。
  3. Vid4 データセットで SOTA パフォーマンスを達成しました。

2 方法

2.1 概要

全体的な構造:
2 つのサブネットワークで構成されています可变形对齐网络(TDAN)SR重建网络

ここに画像の説明を挿入
接下来用I t LR ∈ RH × W × C I_t^{LR}\in\mathbb{R}^{H\times W\times C}tL RεRH × W × C はビデオttt帧,I t HR ∈ R s H × s W × C I_{t}^{HR}\in \mathbb{R}^{sH\times sW\times C}tH RεRs H × s W × Cはビデオを表すttフレームtに対応する高解像度画像sssは SR 倍率、I t HR ′ ∈ R s H × s W × C I_t^{HR'}\in\mathbb{R}^{sH\times sW\times C}tHR _εRs H × s W × Cは、超解像の結果を表します。

VSR の目標は、ビデオ内の連続する 2 N + 1 N + 1を毎回変換することです。N+1{ I i LR } t − N t + N \{I_i^{LR}\}^{t+N}_{tN}{ 私はL R}t Nt + NI t HRからネットワークに入力I_t^{HR'}tHR _.
これで2 N + 1 2N+12N _+1フレーム、tttI t LR I_t^{LR}tL Rは参照フレームで、残りは2 N 2N2 N{ I t − NLR , ⋯ , I t − 1 LR , I t + 1 LR , ⋯ , I t + NLR } \{I_{tN}^{LR},\cdots, I_{t-1} ^{LR}, I_{t+1}^{LR},\cdots, I_{t+N}^{LR}\}{ 私はt NL Rt 1L Rt + 1L Rt + NL R}はサポート フレームです。

全体的なネットワーク構造は、次の 2 つの部分に分かれています。

  1. TDAN对齐网络. オブジェクトの整列またはカメラの動きによって引き起こされるコンテンツの不一致の問題。
  2. SR重建网络. 整列2 N + 1 2N+12N _+融合と超解像処理のための1フレーム。

TDAN アライメント ネットワーク:
アライメント ネットワークは毎回 2 つのフレームを入力し、そのうちの 1 つは固定参照フレームI t LR I_t^{LR}tL R,另一帧是サポート帧I i LR , i ∈ { t − N , ⋯ , t − 1 , t + 1 , ⋯ t + N } I_i^{LR},i\in\{tN, \cdots, t -1,t+1, \cdots t+N\}L Rε{ tN t1 t+1 t+N }f TDAN ( ⋅ ) f_{TDAN}(\cdot)Tダン_ _( )は整列演算子を表します。I i LR " I_i^{LR'}L R为支持帧 I i L R I_i^{LR} L R参照フレームI t LR I_t^{LR}tL Rアライメント後の結果、つまりI i LR I_i^{LR}L R推定値。アラインメント ネットワークの式は次のとおりです:
I i LR ′ = f TDAN ( I t LR , I i LR ) . (1) I_i^{LR'} = f_{TDAN}(I_t^{LR}, I_i^{LR}) .\タグ{1}L R=Tダン_ _(私はtL RL R( 1 )

SR 再構築ネットワーク:
この部分の入力は2 N 2N2 N 個の位置合わせされたサポート フレームと参照フレームが一緒に SR ネットワークに入力され、高解像度の画像が再構築されます。式は次のとおりです。
" , I t LR , I t + 1 LR " , ⋯ I t + NLR " ) (2) I_t^{HR'} = f_{SR}(I_{tN}^{LR'},\cdots, I_{ t -1}^{LR'}, {I_{t}^{LR}},I_{t+1}^{LR'},\cdots I_{t+N}^{LR'})\tag{ 2 }tHR _=S R(私はt NL Rt 1L RtL Rt + 1L Rt + NL R)( 2 )

2.2 時間的に変形可能なアラインメント ネットワーク

このセクションは、この記事の最も重要な部分であり、記事が提案するものですTDAN ネットワーク. サポート フレームの位置合わせに使用I i LR I_i^{LR}L R参照フレームI t LR I_t^{LR}tL R.
DCN のバリアントを使用して、 を追加时间元素全体のプロセスは DCN とほぼ同じです。DCN は単一の画像入力であり、参照フレームが最終ラベルとして使用されますが、TDAN は同時に 2 つのフレームを入力します (フレームI i LR I_i^{LR}をサポート)。L R参照フレームI t LR I_t^{LR}tL R)、参照フレームはラベルとして機能します。
ここに画像の説明を挿入

TDAN ネットワークには主に、特徴抽出変形アライメントアライメント フレーム再構成の3 つの部分が含まれます。

特徴抽出:

この部分は畳み込み層と EDSR の同様のk 1 k1で構成されますk 1 個の残差ブロックで構成され、参照フレームI t LR I_t^{LR}tL R和支持帧 I i L R I_i^{LR} L R的特徴F t LR 、 F i LR F_t^{LR}、F_i^{LR}tL RファL R、機能ごとの時間調整用。

変形アライメント:

まず、抽出された特徴F t LR , F i LR F_t^{LR}, F_i^{LR}tL RファL Rスプライシングconcatの後bottleneck layer(3×3)、このレイヤーの機能は、フィーチャー マップに入力されるフィーチャー チャネルの数を減らすことです。次に、offset generatorレイヤーを通じて、画像全体のオフセット パラメーターΘ \Thetaが予測されます。ΘΘ \シータΘh ×w×w時間×w は入力特徴マップと同じで、チャネル数は∣ R ∣ |\mathcal{R}|infinityfθ ( ⋅ ) f_\theta( \ cdot )( )は上記のプロセスを示します:特徴抽出部分の式は次のとおりです:
Θ = f θ ( F i LR , F t LR ) . (2) \Theta = f_\theta(F_i^{LR}, F_t^{ LR}). \tag{2}=( FL RtL R( 2 )

Θ = { Δ pn ∣ n = 1 , ⋯ , ∣ R ∣ } \シータ = \{\デルタ p_n | n=1,\cdots, |\mathcal{R}|\}={ p _n∣n _=1 R}∣ R ∣ |\mathcal{R}|R ∣ は畳み込みカーネルのパラメーターの総数です。たとえば、3 × 3 3\times 33×3 つの畳み込みカーネル∣ R ∣ = 9 |\mathcal{R}| = 9R=9 . DCN ∣ R ∣ |\mathcal{R}|
の元の論文では、オフセットは 2 です。Rはそれぞれ x 方向と y 方向のオフセットを表し、TDCN では∣ R ∣ |\mathcal{R}|R、直接学習されるのは x と y の合成方向です。

オフセット位置オフセットありΘ \ThetaΘの後、特徴画像の対応する位置にオフセットを追加し、畳み込みを使用してオフセット位置のピクセル値を取得して計算します。
fdc ( ⋅ ) f_{dc}(\cdot)dc _( )は変形可能な畳み込み演算子であり、Δ pn \Delta p_np _n入力特徴マップに追加F i LR F_i^{LR}L R対応する位置で、畳み込みカーネルR \mathcal{R}を使用します。R はオフセット サンプリング ポイントを抽出し、変形アライメント式は次のとおりです:
F i LR ' = fdc ( F i LR , Θ ) . (3) F_i^{LR'} = f_{dc}(F_i^{LR} , \Theta).\tag{3}L R=dc _( FL R( 3 )
w ( pn ) w(p_n)w ( pn)は畳み込みカーネルの位置pn p_npnp 0 p_0の学習可能なパラメーターp0F i LR F_{i}^{LR}L RF i LR ' F_i^{LR'}の整数グリッド位置L R変形可能な畳み込みの出力です.変形可能な畳み込みの具体的なプロセスは次のように表現できます.

オフセットは一般に整数ではなく浮動小数点数であるため、非整数座標に対応するピクセル値を直接取得することはできないため、補間によって対応する値を取得する必要があります.この手順は DCN とまったく同じです.

  1. 著者は串联、4 つの変形可能な畳み込み層を使用して、変換アライメント モジュールの柔軟性と能力を高めています。
  2. 参照フレームF t LR F_t^{LR}tL Rの特徴はオフセットを計算するためにのみ使用され、それらの情報は位置合わせされたサポート フレームF i LR F_i^{LR}には渡されません。L R真ん中。

TDAN が暗黙的な動き補償である理由

  1. STN では、オプティカル フローの推定は、動き推定 + 動き補償の 2 つのステップに分けられます。マッピング関係に従って、オフセットが計算され、対応する位置が取得され、リサンプリングされます画像を操作します。重要なのは、リサンプリングが対応する位置のピクセル値を直接計算 (コピー) し、出力イメージを取得することです。
  2. TDAN では、畳み込みによって位置オフセットを学習して入力フィーチャの位置オフセットを取得し、畳み込みを使用して、畳み込み用のオフセット位置でピクセルをキャプチャします特徴画像で動作します。畳み込みは、オフセット位置のピクセルをキャプチャし、畳み込み計算を実行します. このステップでは、位置の周りの畳み込みカーネルのサイズの環境要因が考慮され、得られる出力特徴は畳み込みの操作範囲内の畳み込みです.入力特徴マップの周囲のカーネルエラー許容率が高く、オプティカル フローの推定を回避しながら、より強力な探索能力を備えています。

整列されたフレームの再構成:

上記の手順の後、変形可能な畳み込み後に得られた位置合わせされた特徴画像F i LR ' F_i^{LR'}L R、その回復と再構築により、必要なサポート フレーム推定I i LR " I_i^{LR'}を取得できます。L R.
デコンボリューション プロセスを使用して特徴マップを画像に再構築するために、著者は3 × 3 3\times 3を使用しました。3×達成するための3つの畳み込み層。

この再構築のステップも重要ですが、変形可能な位置合わせはモーション キュー、F t LR 、F i LR F_t^{LR}、F_i^{LR} をキャプチャできます。tL RファL Rアライメント。ただし、このレイヤーの再構成レイヤーがなく、I t LR I_t^{LR}の場合tL R損失を行うと、暗黙のアライメントを習得するのが難しくなります。このステップで監視された位置合わせの損失を使用して、変形可能な位置合わせモジュールが動きをキャプチャし、機能レベルで 2 つのフレームを位置合わせします。

2.3 SR 再構築ネットワーク

2N 参照フレームとサポート フレームのペアを TDAN に渡した後、対応する 2N 整列 LR フレームが取得され、これを使用して HR ビデオ フレームを再構築できます。
この論文の焦点は, 時間整列ネットワーク TDAN を提案することです. 融合 SR 再構成ネットワークは改善されていないため, 比較的単純な構造が使用されます.
ここに画像の説明を挿入

ネットワークのこの部分の入力は、整列された 2N+1 個の隣接フレームI t − NLR ' , ⋯ , I t − 1 LR ' , I t LR , I t + 1 LR ' , ⋯ I t + NLR ' I_{ tN}^{LR'},\cdots, I_{t-1}^{LR'}, {I_{t}^{LR}},I_{t+1}^{LR'},\cdots I_{ t+N}^{LR'}t NL Rt 1L RtL Rt + 1L Rt + NL R、出力は超解像再構成画像I t HR ' I_t^{HR'}tHR _.
ネットワークのこの部分は、時間融合+非線形マッピング+ HR フレーム再構成(つまり、従来の融合 + SR 再構成ネットワーク) の3 つの部分に分かれています。

時間融合:
時間融合部分の作者は、最も単純なアーリー フュージョン (実際には、2N+1 フレームの結合スプライシング) を使用し、次に3 × 3 3\times 3を使用します。3×浅い特徴抽出のための3 つの畳み込み。(VESPCNでは 3 つの時間融合法が提案されています

非線形マッピング:
k2 残差ブロックを積み重ねて、深い特徴を抽出します。(残差ブロックの構造はEDSRに似ています)

再構成層
LR 空間で深い特徴を抽出した後、ESPCNで提案されているサブピクセル畳み込みをアップサンプリングとして使用して、高解像度の画像を再構成します。×4 倍率の場合、2 つのサブピクセル畳み込みモジュールが使用されます。最後に、調整のために別の畳み込み層が接続され、最終的に最終的な再構成画像I t HR ' I_t^{HR'}が出力されます。tHR _

2.4 損失関数

この論文で提案されているネットワーク構造には、2 つの損失関数があります。アライメント ネットワーク TDAN 損失L align \mathcal{L}_{align}Lアライグン_ _ _ _そしてSR 超解像ネットワーク損失L sr \mathcal{L}_{sr}Lsr _

位置合わせモジュールの目的は、サポート フレームの推定値をI i LR ' I_{i}^{LR'} にすることです。L R基準フレームにできるだけ近づけるI t LR I_{t}^{LR}tL R自监督、隣接するフレームのコンテンツを参照フレームに合わせて時間をより連続的にするために、参照フレームを疑似ラベルとして使用します。この部分は明確なラベル情報を持たないため、トレーニングに属します (Ground Truth )。TDAN L align \mathcal{L}_{align}Lアライグン_ _ _ _损失関数表达式::
L align = 1 2 N ∑ i = t − N , ≠ t ∣ ∣ I i LR ′ − I t LR ∣ ∣ . (5) \mathcal{L}_{align} = \frac{1}{2N}\sum_{i=tN,\net}||I_i^{LR'} - I_t^{LR}||.\タグ{5}Lアライグン_ _ _ _=2N _1i = t N = tL RtL R.( 5 )

再構成モジュールの場合、SR ネットワーク損失関数はL 1 L_1を使用します。L1損失 (1 ノルム損失):
L sr = ∣ ∣ I t HR ′ − I t HR ∣ ∣ 1 . (6) \mathcal{L}_{sr} = ||I_t^{HR'} - I_t^{ HR}||_1.\タグ{6}Lsr _=tHR _tH R1.( 6 )

最適化される最終的な損失関数は、上記の 2 つの合計であり、アラインメント サブネットワークと超分子ネットワークが一緒にトレーニングされるため、TDAN モデル全体のトレーニングはエンドツーエンドです完全な損失関数の式は次のとおりです:
L = L align + L sr . (7) \mathcal{L} = \mathcal{L}_{align} + \mathcal{L}_{sr}.\tag{7}L=Lアライグン_ _ _ _+Lsr _.( 7 )

2.5 提案された TDAN の分析

TDAN は、タイム アラインメントを使用して、特定の参照フレームを一連のサポート フレームに合わせることができます。TDAN のいくつかを要約します优点

  1. ワンステージ:
    Ⅰ Ⅰこれまでのタイムアラインメント手法の多くは、オプティカルフローに基づいており、これは画像ごとの 2 段階の手法ですオプティカル フローは、時間的アラインメントの問題を、フロー/モーション推定とモーション補償の 2 つの下位問題に分割します。これらの方法のパフォーマンスは、オプティカル フロー推定の精度に
    Ⅱ ⅡII一方、TDAN は1 段階の方法サンプリング ポイントのオフセット位置を適応的に学習し、畳み込みを実行することにより、暗黙的にキャプチャされ、推定したい整列フレームが整列特徴再構築から復元されます。
  2. 自己教師ありトレーニング: I i LR " I_{i}^{LR'}がないため、TDCN トレーニングは自己教師ありトレーニングに属します。L R対応するラベルは、参照フレームを疑似ラベルとして使用するだけです。
  3. 探索能力:
    ⅠⅠオプティカル フロー法では、フレーム内の各位置について、オプティカル フローによって計算されるモーション フィールドは、1 つの潜在的な位置 p のみを参照します。すなわち、STN法は写像関係から変換前の位置pを求め、リサンプリングしてその位置の画素値を求める。この 1 つの位置 p のみが使用されます
    Ⅱ ⅡIIと DCN 法では、オフセット位置 p のピクセル値を見つけた後、畳み込みも実行されます。つまり、畳み込みサイズの範囲内のより多くの特徴が使用され、これらの特徴は p と同じ画像構造を持つ場合があります。推定されたフレームをより適切に再構築するために、より多くのコンテキストを集約するのに役立ちます。(この畳み込み範囲は通常の 3×3 ボックスを参照していません。畳み込み位置がオフセットされて変形されるため、変形範囲に対応します。もちろん、畳み込みカーネルが変形されていないことを強調する必要があります。変形は入力特徴マップの位置) (どちらの方法もオフセット位置を見つけるときに補間を使用します。重要なのは、DCN が畳み込みを使用することです。) もう 1 つのポイントは、この記事の TDAN 方法であり、特徴を再構成して出力します。復元された画像、復元された画像と参照フレームが失われます. このステップの監視も非常に重要です. 変形可能な位置合わせモジュールは位置合わせのためにモーションをキャプチャする必要があります. この監視がなければ, 暗黙の学習は位置合わせが困難です.
  4. 一般性: 提案された TDANは、ビデオのノイズ除去、ビデオのデブロッキング、ビデオのブレ除去、ビデオ フレームの補間、さらにはビデオの予測など、他のタスクのフローベースの動き補償を簡単に置き換えるために使用できる一般的な時間的アライメント フレームワークです。

3 実験

設定:
作成者はVimeo ビデオ スーパースコア データセットをトレーニング セットとして使用します。これは 64612 サンプルを含むデータ セットであり、各サンプルには448 × 256 448\times 256の連続する 7 フレームが含まれます。4 4 8×2 5 6ビデオ。448 × 256 448\times 256 の高解像度トレーニング セットはありません。4 4 8×2 5 6は元のビデオからサイズを変更しただけです。作成者はTemple シーケンスを検証セットとして使用し、Vid4をテスト セットとして使用します。{city, walk, calendar, foliage} の 4 つのシーンが含まれます。

SR スケーリング比 r=4
パッチ サイズ 48 × 48
バッチ=64
各サンプルには
Adam 最適化の 5 つの連続フレームが含まれ、初期学習率は1 0 − 4 10^{-4}1 04、100 エポックごとに半分に減少します。

特定の実験的な部分については、ブログ投稿 TDANを参照してください。

  1. SISR方式は独立したフレームで処理を行うため、時間冗長情報を利用できないため、VSR方式に比べて表現力が劣ります。
  2. 2 段階法の表現力も 1 段階 TDAN よりも低く、1 段階アライメント法の優位性を証明しています。
  3. 著者はまた、モデル サイズを比較すると、TDAN ネットワークは軽量ですが効果が高く、DUF は TDAN より軽量ですが、効果は TDAN ほど良くありません。
  4. 著者はまた、結果に対する TDAN サブネットワークの有無にかかわらず、一連のさまざまな数の変形可能な畳み込みの効果をさらに比較しました。
  5. 著者はまた、実際のシーンのビデオ超解像で実験的な比較を行いました
  6. 最後に、著者は TDAN ①データ セットの制限を分析します
    。実験的なトレーニング セットは 448 × 256 の小さな低解像度セットにすぎないため、より深いネットワークをトレーニングして再構成品質を向上させることは不可能です。DIV2K で訓練された RCAN が都市のビデオ フレームに表示された画像領域の構造を正確に復元できることが失敗のケースで見られます.DIV2K 画像データセットは高解像度であるため、RCAN は画像の詳細を正確に再構築できますが、Vimeo データセットは解像度が低いと、非常に深いネットワークをトレーニングすることが困難になるため、TDAN はより細かい画像構造と詳細を復元できません。これは、より大規模で高解像度 (2k、4k など) のデータセットの重要性を証明しています
    ②フュージョン方式:TDANではアライメントネットワークの改善に重点が置かれており、フュージョンには単純な初期フュージョンのみが用いられているが、より良いフュージョン方式を拡張することでネットワーク性能が向上する。
    ③Alignment LOSS: Alignment LOSSも改善可能 本稿で使用するアライメントラベルは参照フレームであり疑似ラベルである.著者は、この記事のノイズ ラベルを使用した学習の方法を使用して、ノイズ ラベルの問題をさらに改善できることを指摘しました。

4 結論

この論文では、ビデオ超解像のための時間的に調整されたネットワークを提案します。TDから.
特徴: one-stage, feature-wise, flow-free, 隐式地捕捉运动信息,能够探索图像上下文信息

 


最後に、皆さんの科学研究の成功、健康、そしてすべての成功をお祈りします~

おすすめ

転載: blog.csdn.net/qq_45122568/article/details/124420554