論文:ビデオスーパーセグメンテーションのためのループバックプロジェクションネットワーク
記事検索ソース:2019 CVPR
要約と紹介
ビデオの超解像度の問題を目指して、新しいアーキテクチャを提案します。サイクリックエンコーダ/デコーダモジュールは、連続ビデオフレームの空間的および時間的コンテキストを統合するために使用されます。このモジュールは、マルチフレーム情報をターゲットフレームのシングルフレームスーパーディビジョンネットワークとマージします。スタッキングまたはワーピングによってフレームを組み合わせる以前のほとんどの作業とは異なり、私たちのモデルは、各コンテキストフレームを個別の情報ソースとして扱うサイクリックバックプロジェクションネットワーク(RBPN)です。
これらのソースは、マルチグラフスーパーディビジョンの逆投影の概念に触発された反復フレームワークに結合されています。フレームを明示的に整列させる代わりに、ターゲットに対する推定フレーム間モーションが明示的に表現されます。新しいビデオスーパースコアリングベンチマークを提案します。これにより、幅広い評価を実行し、さまざまなモーションモードのビデオを検討できます。実験結果は、RBPNが複数のデータセットで既存の方法よりも優れていることを示しています。
周期的逆投影ネットワーク
ネットワーク構造
RBPNの作業は、初期の特徴抽出、複数の投影、および再構築の3つの段階に分けることができます。
初期特徴抽出:入力I t I_t私トン投影モジュールに入る前に、それをLRフィーチャーL tL_tにマップします。Lトン。隣接するフレームごとにIt − k I_ {tk}私T - K、そしてそれを事前に計算されたI tI_tと比較します私トン和It − k I_ {tk}私T - KインテンシブモーションフローグラフFt − k F_ {tk}FT - K和 I t I_{t} 私トン一緒に接続されています。次に、この8チャネルの画像を隣接するフィーチャテンソルM t − k M_ {tk}にマップします。MT - K。
複数のプロジェクション:ここでは、SISRとMISRを統合することにより、ターゲットフレームで欠落している詳細を抽出し、洗練されたHR機能テンサーを生成します。このステージはIt − k − 1 I_ {tk-1}を受け取ります私T - K - 1そしてMt − k M_ {tk}MT - K、およびHR機能テンソルH t − k H_ {tk}を出力します。HT - K。
再構築:すべての機能マップが直列に再構築モジュールに送られます。SR t = frec([H t − 1、H t − 2、..。、H t − n]){SR} _t = f_ {rec}([H_ {t-1}、H_ {t-2} 、...、H_ {tn}])S Rトン=fR E C([ HT - 1、HT - 2、。。。、HT - N] )、ここでfrec f_ {rec}fR E Cそれは単一の畳み込み層です。
マルチプロジェクション
RBPNのマルチプロジェクションステージは、エンコーダ/デコーダモジュールの循環チェーンを使用します。時間枠間で共有される投影モジュールには、次の2つの入力があります。Lt− n −1∈RMlx N lx C l L_ {tn-1} \ in \ mathbb {R} ^ {M ^ l \ mathsf {x} N ^ l \ mathsf {x} C ^ l}LT - N - 1∈RMW xNl xCl和Mt−n∈RMlx N lx C m M_ {tn} \ in \ mathbb {R} ^ {M ^ l \ mathsf {x} N ^ l \ mathsf {x} C ^ m}MT - N∈RMW xNl xCm、次に2つの出力を生成します:L t − n L_ {tn}LT - N和Ht −n∈RMhx N hx C h H_ {tn} \ in \ mathbb {R} ^ {M ^ h \ mathsf {x} N ^ h \ mathsf {x} C ^ h}HT - N∈RMh xN時間X100hここで、cl、cm、chc ^ l、c ^ m、c ^ hcl、cm、chは、対応するグラフのチャネル数です。
エンコーダーは、投影から特定の隣接フレームへの推定HR機能の非表示状態を生成します。
デコーダーは、対応する非表示状態をエンコーダーモジュールの次の入力として復号化します。
実験
ベースライン:
アブレーション実験:
定量的評価:
学習目的でのみ、転載しないでください。