2020CVPRVSR時空間認識多重解像度ビデオ拡張

時空間を意識した多重解像度ビデオの強化

1.まとめ

同時に、時間と空間の超分割を行います。高解像度はモーションの詳細を改善でき、高フレームレートはモーションの調整に役立ちます。このホワイトペーパーの方法は、ST-SR中に潜在的な低解像度および高解像度の表現を生成するモデルコンポーネントを使用して、空間SRまたは時間SRのみの専用メカニズムを微調整できることです。

著者は、時空間認識多重解像度ネットワークSTARnetを提案しました。STARnetは、ST-SRのLRからHRへの直接接続を提供することにより、図1（の紫色の矢印で示すように、LRおよびHR空間でのS-SRとT-SRの相互強化の空間的および時間的表現を明確に組み込んでいます。 e）表示します。
ここに画像の説明を挿入

2、STA多重解像度

2つの低フレーム画像を提供します $I_t ^ l、I_（t + 1）^ l）$ 、サイズは $\ times N ^ l）$ 、スーパースコアの結果は $sr）、n∈[0、1]（I_t ^ {sr}、I_ {t + n} ^ {sr}、 I_ {t + 1} ^ {sr}）、n \ in [0,1]$ 、サイズは $\ times N ^ h）$ 、目標は $\ {I_t ^ {sr} \} _ {t = 1} ^ {T +}を生成することです$ 。
ネットワークは3つのステップに分かれています。

初期化
洗練
再構築
は、式に従ってネットワーク図を自分で描くことを提案します

2.1初期化（ステージ1）

この部分は主にS-SR、T-SR、ST-SRの共同学習を実現します。入力中の2つの低フレームRGB画像 $I_t ^ l、I_（t + 1）^ l）$ 、およびそれらの双方向オプティカルフロー図 $1→t）（F_ {t \ to t + 1}、F_ {t + 1 \ to t}）$
ここに画像の説明を挿入
第1ステージの出力は、中間フレームのHRおよびLR機能です $H_（t + n）$ そして $L_ {t + n}$ 。
この段階で、STARnetはサイクルの一貫性を維持します1）S-HRとS-LR、2）tとt +1。

2.2リファインメント（ステージ2）

サイクルの一貫性をさらに維持して、機能マップを再度完成させます。
ここに画像の説明を挿入

2.3再建（ステージ3）

4つの機能 $n）（\ hat H_t、\ hat H_（t + n）、\ hat H_ {t + 1}、\帽子L_ {t + n}）$ 変換换成対的画像像 $I_t ^ {sr}、I_ {t + n} ^ {sr}、I_ {t + 1} ^ {sr}、I_ {t + n} ^ l）$ 。
ここに画像の説明を挿入

2.4トレーニングの目標

S-HRイメージはgtとして使用され、T-HRフレームはgtとしても使用され、損失は
スペース損失 $I_t ^ {sr}$ として記述できます $私_{t}^{S R}$ 、 $I_ {t + 1} ^ {sr}$
時間損失 $I_ {t + n} ^ l$
時空間損失 $I_ {t + n} ^ {sr}$
損失関数、
上記の各損失には $L_1$ が含まれます $L_{1}$ アイテムと $L_vgg$ アイテム。

2.5フローリファインメント

大きなモーションビデオにフレームを挿入することは困難です。大きな動きによって引き起こされるフローノイズは、補間結果に悪影響を及ぼします。著者は、フロー画像をリファインまたはノイズ除去するための簡単なソリューションであるフローリファイン（FR）モジュールを提案します。
ここに画像の説明を挿入