MEMC-Net：ビデオ補間とエンハンスメントのための動き推定と動き補償駆動型ニューラルネットワーク

総括する

従来のビデオフレーム挿入では、通常、動き推定（ME）と動き補償（MC）が使用されます。既存のオプティカルフローベースの方法は、オプティカルフローを予測するか、補正コアを予測するため、計算の効率とフレーム補間の精度が制限されます。著者は、ビデオフレーム補間のための動き推定と動き補償によって駆動されるネットワークを提案し、適応ワーピング層を使用してオプティカルフローと補間を統合し、ターゲットフレームを合成します。

1.はじめに

オプティカルフロー予測方法：
いくつかの課題があります：動きの速い薄いオブジェクト、オクルージョンとディスオクルージョン、明るさの変化、モーションブラー。
不正確なオプティカルフローとピクセルオクルージョンの問題を解決するために、動き補償補間法は通常、複雑なフィルターを使用して、生成されたフレームの視覚的なアーティファクトを低減します。
これらのスキームは、中間フレームのオブジェクトが前後の参照フレームに表示されない場合（たとえば、一部のピクセルを補正できない場合）はうまく機能せず、欠落しているピクセルを埋めたり、信頼性の低いものを削除したりするには、さらに後処理手順が必要です。 ones Pixels
モーション推定に焦点を当てた以前の学習ベースの方法、および双一次内挿プロセスでは、ぼやけた結果が生成されます。補間カーネルを考慮するいくつかの方法がありますが、これらの方法は大きな動きに敏感です。
著者の方法では、
著者は動き推定と動き補償を使用してビデオフレーム補間を実装し、動きベクトルと動き補償カーネルの両方がCNNによって推定されます。さらに、オプティカルフローコア補正フィルターに基づいて、新しいピクセルを合成するための適応ワーピングレイヤーが設計されています。
オクルージョンの場合、著者は、オクルージョンマスクがワープフレームを適応的にブレンドすると推定しています。さらに、後処理CNNを使用して欠落しているピクセルと穴の変形フレームの信頼できないピクセルが処理されます。
モデル全体のMEMC-Netは、従来のメソッドアーキテクチャによって駆動されますが、最新の学習ベースのメソッドによって実装されます。
貢献：
（1）動き推定と補償によって駆動されるニューラルネットワークは、堅牢で高品質のビデオフレーム補間のために提案されています。
（2）オプティカルフローの反りと学習の補償フィルターを適応反り層に統合します。提案された適応ワーピングレイヤーは完全に区別可能であり、ビデオ超解像、ビデオノイズ除去、ビデオデブロッキングなどのさまざまなビデオ処理タスクに適用できます。

2.関連する方法

2.1。従来のMEMCベースの方法

動き補償はブロックベースの方法を使用します。画像をいくつかの小さなピクセルブロックに分割し、空間/時間検索などの特定の検索戦略を使用して、絶対ブロック差の最小合計などの選択基準に基づいて動きベクトルを計算します。
動き補償補間の場合、通常、重なり合うブロックを使用して、ピクセルブロックの間違った動きベクトルを処理します。
最後に、後処理を使用してアーティファクトを減らし、視覚効果を提供します。
ここに画像の説明を挿入

2.2学習ベースの方法

直接法、位相ベース、フローベース、カーネルベースのアプローチに分けることができます。
フローベースの方法：
双方向オプティカルフローを予測するか、バイリニアワーピング操作を使用して入力フレームを整列させます。
出力画像を合成するために一般的に使用される方法は、occLusionマスクアダプティブブレンドワープフレームを予測することです。
オプティカルフローベースの方法が調整されていない場合、ゴーストまたはブラー効果が発生します。
この記事の方法は、内挿に固定双一次係数を使用するのではなく、各ピクセルの空間で変化する内挿カーネルを学習することです。学習されたカーネルは、双一次内挿よりも大きな空間サポート（たとえば、4×4）を備えているため、オクルージョンとオクルージョンをより適切に示すことができます。
カーネルベースの方法：
中間フレームの生成は、ローカルパッチの畳み込み結果として使用されます。このメソッドは、大きな畳み込みカーネルを使用して大きな動きを処理します。ただし、より多くのメモリが必要です。
ここに画像の説明を挿入

3.MEおよびMC駆動型ニューラルネットワーク

3.1全体的なフレームワーク

簡単な方法は、動き推定と動き補償を組み合わせて、後処理することです。まず、参照フレームでモーションアライメントを実行し、大きなモーションによるバイリニアワーピングを実行します。次に、小さな畳み込みを使用して最終フレームを取得します。
著者のアプローチは、参照フレームのオプティカルフローと補正コアを同時に予測することです。新しいフレームは、オプティカルフローコア補正コアに基づいて取得されます。オプティカルフローコアは、動き補償コアに緊密に結合されています。
ここに画像の説明を挿入

ここに画像の説明を挿入
著者は、参照フレームに基づいてオプティカルフローと補正コアを同時に推定し、オプティカルフローと補正コアに基づいてワーピングレイヤーを使用してフレームを挿入します。

3.2フロープロジェクションレイヤー

オプティカルフローがない場所に穴ができるので、著者はその点でのオプティカルフローとして、穴のない隣接領域の4方向のオプティカルフローを平均します。

3.3ビデオフレーム補間

動き推定：FlowNetSを介して入力 $I_（t-1）$ 和 $I_{t+1}$ 予測する $f_ {t + 1 \ to t-1}$ 、 $f_ {t-1 \ to t + 1}$ 入力順序を逆にして取得します。
カーネル推定：U-Netを使用してカーネル推定ネットワークとして機能します。カーネル推定ネットワークは、2つのビデオフレームを入力として使用し、生成します。 $R^{2}$ の係数マップは $K_（t-1）$ として表されます。 $K_{T - 1}$ そして $K_ {t + 1}$ 。
マスク推定：オブジェクトの深度変化と相対運動により、2つの参照フレームの間に遮蔽されたピクセルがあります。2つの湾曲した参照フレームから有効なピクセルを選択するために、オクルージョンマスクを予測するためのマスク推定ネットワークを学習しました。ネットワークは最終的に2チャネルの特徴マップを $M_ {t-1}$ として出力します $M_{T - 1}$ そして $M_ {t + 1}$ 。最終的な混合フレームの生成：
$\ hat I_t = M_ {t-1} \ times \ hat I_ {t-1 } + M_ {t + 1} \ times \ hat I_ {t + 1}$
コンテキスト抽出：オクルージョンをより適切に処理するために後処理モジュールで使用されます。次に、ワープされたコンテキストマップは、オプティカルフローと補間カーネルを介してワープします。これは、 $\ hat C_ {t-1}$ として示されます $\hat{C}_{T - 1}$ そして $\ hat C_ {t + 1}$ 。
後処理：オプティカルフローまたはマスクが正しくないとアーティファクトが発生するため、後処理を使用してください。通常、 $\ hatI_t$ として入力します $\hat{私}_{トン}$ 、予測されるオプティカルフローは $f_ {t \ to t + 1}$ 和 $f_ {t \ to t-1}$ 、補間カーネル係数マップ $K_ {t-1}$ そして $K_ {t + 1}$ 、オクルージョンマスク $M_ {t-1}$ そして $M_ {t + 1}$ 、ワープされたコンテキスト機能 $\ hat C_ {t-1}$ そして $\ hat C_ {t + 1}$ 。残差を使用して詳細を強調します。
ここに画像の説明を挿入

4.ビデオフレームの相互比例

スーパーディビジョン+フレーム挿入を行うネットワークの場合、作成者は最初にバイキュービックで画像を拡大し、次に上記の3.3と同じですが、後処理モジュールは高解像度の画像を処理しているため、フレーム拡張ネットワークに変更されます。このモジュールは後者よりも優れています。処理モジュールはより深くなっています。MEMC-Net_SRとして示されます。
著者のネットワークは、ビデオスーパーディビジョンMEMC-Net_SR、MEMC-Net_DNのノイズ除去、MEMC-Net_DBのブロック解除にも使用されます。

ペーパーノートMEMC-NetTPAMI