「CVHub」のWeChat公式アカウントをフォローしてください!
タイトル:圧縮ビデオの解像度変更による効率的なセマンティック セグメンテーション
PDF: https://arxiv.org/pdf/2303.07224
コード: https://github.com/THU-LYJ-Lab/AR-Seg
導入
ビデオ セマンティック セグメンテーション (VSS) は、高フレーム レートのビデオをフレームごとに予測する必要があるため、計算量が多いタスクです。最近の研究では、計算効率を達成するためにVSS
、コンパクトなネットワーク アーキテクチャまたは適応ネットワーク戦略が提案されています。ただし、これらの作業はいずれも、計算コストに影響を与える重要な要素である入力解像度を考慮していません。そこで著者らは、AR-Seg
ビデオセグメンテーションの高効率化を実現するために、Alternating Resolution Networkと呼ばれる交互解像度ネットワークフレームワークを提案するVSS
。AR-Seg は、非キー フレームに低解像度を使用することで計算コストを削減することを目的としていますが、同時に、ダウンスケーリングによるセグメンテーションのパフォーマンスの低下を防ぐために、著者は、解像度を超えた特徴融合モジュールを設計し、新しい特徴類似性を使用しましたCR-eFF
。監督のためのトレーニングFST
戦略。具体的にCReFF
は、まず、圧縮ビデオに保存された動きベクトルを使用して、高解像度のキー フレームの特徴を低解像度の非キー フレームに効率的に融合して、より優れた空間的位置合わせを実現します。また、ローカル アテンション メカニズムを使用して、ローカル フレームを選択的に集約します。キーフレームの機能。さらに、提案されたものは、FST
明示的な類似性損失と共有復号化層の暗黙的な制約を通じて、集約された特徴を監視します。CamVid と Cityscapes データ セットの実験では、AR-Seg が高いセグメンテーション精度を維持しながらコンピューティング コストを 67% 節約できることが示されています。
導入
ビデオ セマンティック セグメンテーションの目的は、ビデオ シーケンス内の各フレーム ピクセルのセマンティック ラベルを予測することです。ビデオ シーケンスは通常、特定のフレーム レート (25fps 以上) で記録された一連の連続した画像フレームです。
フレームごとのビデオ フレームに適用される画像ベースのセグメンテーション手法は、かなりの計算リソースを消費します。
VSS のコンピューティング効率を向上させるために、既存の方法は主にネットワーク アーキテクチャの設計に焦点を当てています。
- 主流のアプローチの 1 つは、各フレームの計算オーバーヘッドを削減するために、コンパクトで効率的な画像ベースのアーキテクチャを提案しています。
- もう 1 つの主流の方法は、深いモデルをキー フレームに適用し、浅いネットワーク モデルを非キー フレームに適用して、ビデオ フレームの繰り返し計算を避けることです。
上記の 2 つの既存の主流の方法は、ビデオ セグメンテーションの計算コストに影響を与える重要な要素、つまり入力解像度を無視しています。
入力解像度は計算量を直接決定し、たとえば 2D 畳み込みの計算コストは画像の幅と高さの積に比例します。入力フレームを 0.5 × 0.5 だけダウンサンプリングすると、計算オーバーヘッドを直接 75% 削減できます。解像度を下げると確かに計算オーバーヘッドを大幅に減らすことができますが、通常は画像情報の一部も失われ、さらにセグメンテーション精度の低下につながります。
ビデオ セグメンテーションの特殊性 (隣接するフレーム情報は通常、強い相関関係にある) を考慮して、この記事では、解像度の低下によって引き起こされる精度の損失を防ぐために、ビデオの時間的相関 (隣接するフレームの相関) を使用することを提案します。その中心的なアイデアは、低解像度フレームで欠落している局所特徴情報を、まばらな高解像度参照フレームから取得できるということです。
AR-Seg
この論文では、上の図 1(c) に示すように、ビデオを圧縮するための解像度交互フレーム ネットワークを提案し、極めて少ない計算量で効率的なビデオ セグメンテーションを実現します。AR-Seg
ネットワークは、HR ブランチを使用して高解像度のキーフレームを処理し、LR ブランチを使用して低解像度の非キーフレームを処理します。ダウンサンプリング (解像度の低下) によるセグメンテーションのパフォーマンスの低下を防ぐために、著者はCReFF
LR ブランチにモジュール (Cross Resulution Feature Fusion) を挿入し、FST
LR の特徴を強化するために (Feature Samelarity Training) 戦略を使用してトレーニングしました。地域の特徴など。
具体的には、CReFF
HR キー フレームの局所特徴情報は、次の 2 つの手順で LR 非キー フレームに効率的に統合されます。
- これは、特徴のワーピングに動きベクトルを使用して、さまざまなフレームの特徴の空間構造を揃えることにより、ほとんど追加コストなしで圧縮ビデオから取得できます。
- ローカル アテンション メカニズムを使用して、ワープされたフィーチャ (ワープ後にノイズが含まれる可能性がある) を LR フィーチャに選択的に集約します。ローカル アテンション メカニズムは近傍内の各位置に異なる重要性を割り当てるため、ノイズによる歪みを避けるための最良の方法です。機能を誤解させる効果的な方法。
トレーニングFST
戦略は、明示的な類似性損失 (集約された特徴と、非キーフレームから推測される高解像度の特徴の間の類似性損失) と、高解像度からの低解像度の分岐を支援する暗黙的な制約を通じて、集約された特徴の学習をガイドします。 信頼性が高く効果的な特徴はCReFF
、レートブランチで学習しました。
要約すると、AR-Seg
入力解像度を変更することにより、高いセグメンテーション精度を維持しながら、VSS の計算コストが大幅に削減されます。
実験結果は、AR-Seg
高いセグメンテーション精度を維持しながら、従来の解像度ベースライン モデルと比較して計算コストが 70% 近く削減されることを示しています。したがって、この記事の貢献には次のものが含まれます。
- 効率的な圧縮ビデオのセマンティック セグメンテーション フレームワークを提案
AR-Seg
- 効率的な
CReFF
モジュールは、ダウンサンプリングによる精度の損失を防ぐように設計されています。 FST
LR 部門が HR 部門から学ぶように導くための新しいトレーニング戦略が提案されています
関連作業
軽量のセマンティック セグメンテーション
画像セグメンテーションの効率を向上させるために、多くの軽量ネットワーク アーキテクチャが提案されています: 軽量DFANet
バックボーン ネットワークを使用してコンピューティング コストを削減し、クロスレベル集約を設計して特徴を改良し、部分的な並べDFNet
替えと枝刈りアルゴリズムを使用してセグメンテーション モデルを検索します。速度と精度のバランスを良くする;ICNet
カスケード フュージョン モジュールを使用し、計算の一部を高解像度から低解像度に変換する; Wang et al. は画像セグメンテーションのパフォーマンスを向上させるために超解像度学習を設計した; 各フロー パスは低レベルを処理BiSeNets
する詳細情報と高レベルのコンテキスト情報はそれぞれ、ESPNet は効率的な空間ピラミッドを使用して畳み込み計算を高速化します。これらの軽量で効率的なバックボーン ネットワークは、単一画像セグメンテーションの計算負荷を軽減し、VSS タスクに効果的に適用できます。
ビデオセマンティックセグメンテーション
ビデオ セマンティック セグメンテーション手法は、キー フレームから抽出された深い特徴を非キー フレームに伝播することで計算量を削減します。これらの方法の中には、キー フレームのセグメンテーション結果を直接再利用するもの、近傍内でセグメンテーション結果を補間するもの、非キー フレームから浅い特徴を抽出し、空間変動畳み込みによって伝播された深い特徴に融合するものがあります。ビデオ フレーム間の空間的不整合の問題を解決するために、いくつかの方法ではオプティカル フローを利用してキー フレームから非キー フレームに中間特徴をマッピングします。また、いくつかの方法では、グローバル アテンション メカニズムを通じて異なるタイムスタンプで特徴を集約します。
圧縮ドメインビデオ分析
近年、圧縮ビデオ形式がコンピュータ ビジョン タスクで広く使用されています。これらの手法は、ビデオ アクション認識とセマンティック セグメンテーションのための追加モダリティとして、モーション ベクトルと残差マップをネットワークに直接入力し、このモーション情報は、異なるフレームからの特徴の空間的位置ずれを補償するのにも役立ちます。ビデオ セグメンテーションでは、圧縮領域での効率的なセグメンテーションを提案する方法もいくつかあります。これらの方法では VSS の計算コストが削減されますが、非キーフレーム特徴改善モジュールの機能が制限されているため、パフォーマンスが低下します。
方法
ではAR-Seg
、詳細を保持するために一部のキーフレームのみが処理され、他の非キーフレームは計算コストを削減するために低解像度に処理されます。AR-Seg
このフレームワークには、HR ブランチと LR ブランチの 2 つのブランチが含まれています。HR ブランチはキー フレームに使用され、LR ブランチは非キー フレームに使用されます。どちらのブランチも同じバックボーン ネットワーク構造を共有していますが、異なる解像度に合わせてトレーニングされています。LR ブランチ バックボーン ネットワークの最終畳み込みの前に、HR 特徴を集約し、低解像度の非キー フレームを予測するために CReFF モジュールが追加されます。
GOP
キー フレームを識別するために、圧縮ビデオにエンコードされた画像グループのフレーム構造を利用します。GOP
Iフレーム、Pフレーム、Bフレームの3種類の連続したLフレームが収録されています。I フレームはイントラ コーディング モードを使用してエンコードされ、P フレームと B フレームはインタラクティブ コーディング モードを使用してコーディングされ、動き補償のために動きベクトルが計算されます。各 ではGOP
、最初の I フレームをキーフレームとして扱い、高解像度で処理します。GOP
の残りの L-1 フレームは非キー フレームであり、低解像度で処理されます。
CReFF: クロスレゾリューション機能の融合
上の図 2 に示すように、 HR ブランチはAR-Seg
I フレームから特徴FI ∈ RC × H × W F_I \in R^{C \times H \times W} を抽出します。F私∈RC × H × W 、LR 分岐はP フレームからf P ∈ RC × h × w f_P \in R^{C \times h \times w} をfP∈RC × h × w。P フレームは低解像度で処理されますが、CReFF
FIF_IF私、MP M_PMPそしてf P f_PfP入力として、集約された特徴FP ~ \tilde{F_P}を生成しますFP~,その中MP ∈ R 2 × H × W M_P \in R^{2 \times H \times W}MP∈R2 × H × Wは P フレームから I フレームまでの MV を表します。MP M_PMPの 2 つのチャネルは、動きベクトルの x 次元と y 次元に対応し、それぞれcx c_xで示されます。c×和cy c_ycはい。モジュール内ではCReFF
、MV ベースの特徴変形操作WMV W_{MV}WMV _最初のセットFI F_IF私P フレームの空間レイアウトに向けたワープは、ピクセルごとのシフトとして定式化できます。
このうち $ \hat{F_I} \in R^{C \times H \times W}$ は変形後の高解像度特徴を表し、さらに低解像度特徴に統合されます。
つまり、CReFF
モジュールはまず I フレームから抽出された特徴情報を P フレームに位置合わせし、次にQ_PQP和 K I K_I K私ピクセル間のピクセル類似性は、LR ブランチに集約されます。
FST: 機能類似性トレーニング
FST トレーニング戦略は、モジュールを効率的にトレーニングするために使用されますCReFF
。核となるアイデアは、P フレームFP F_PFST
の高解像度機能を活用することです。FP(HR ブランチから抽出) LR ブランチの集約された特徴FP F_Pの学習をガイドします。FPトレーニング。だってFP F_PFP高品質のセグメンテーション結果を生成するのに十分な詳細情報が含まれており、監督の下でFP F_PCReFF
を変換する方法を学習できます。FST
FP和 F I F_I F私効果的な高解像度機能に集約されています。FST
LR ブランチのトレーニング プロセスは、次の方法で明示的および暗黙的に監視されます。
ここで、明示的な制約は、特徴類似性損失関数L fs L_{fs}を使用することです。Lfs _。著者は平均二乗誤差 (MSE) を使用してFP ~ \tilde{F_P}を測定しますFP~とFP F_PFP2 つの特徴ベクトル間の差 (2 つの特徴ベクトル間の距離を測定します)。これは、低解像度モデルの追加の正則化に相当します。距離が小さい場合、2 つの間の類似性が高いことを意味するため、 MSE は、低解像度モデルの教師ありトレーニングの類似性の尺度として使用できます。この明示的な制約の効果は、低解像度モデルが高解像度モデルから集約された情報をより適切に学習し、セグメンテーション結果の品質を向上させることです。
暗黙の制約はFP ~ \tilde{F_P}です。FP~とFP F_PFP共有デコード層。HR 画像でトレーニングされたセグメンテーション バックボーン モデルでは、最後の畳み込み層がセグメンテーション デコーダーとして機能し、高品質の HR 特徴に関する深い意味情報が含まれます。この情報を利用するために、HR ブランチの最後の 1×1 畳み込み層を固定パラメーターを使用して LR ブランチに直接渡します。これらのパラメータは HR 特徴に基づいてトレーニングされるため、FP ~ \tilde{F_P}の場合FP~HR特集FP F_Pに迫るFPより良いセグメンテーション結果が得られますSP S_PSP。
要約すると、明示的および暗黙的な制約を通じて、FST
HR 特徴の知識が HR ブランチから LR ブランチに効率的に転送され、CReFF
集約された特徴に基づいて高品質のセグメンテーションが実現されます。上の図 2 は、LR ブランチの全体的なトレーニング戦略を示しています。HR I フレームはCReFF
機能融合のための FI 機能を提供し、HR P フレームはFST
明示的な監視のための FP 機能を提供します。LR ブランチのパラメータは、総損失 L を使用したバックプロパゲーションによってトレーニングされます。ここで、HR ブランチと共有される最後の畳み込み層のパラメータは固定されています。
実験結果
::: ブロック-1
CamVid および Cityscapes データセットで d=11 の AR0.5-PSP18 モデルを使用したセマンティック セグメンテーションの結果。AR0.5-PSP18 は、0.5 倍の解像度で動作する固定解像度 PSPNet18 よりも詳細なセマンティックを予測していることがわかります。1.0x 解像度のベースラインと比較して、AR0.5-PSP18 は同様のセグメンテーション結果を生成しましたが、消費した計算コストは 33.0% のみでした (GFLOP で測定)。
:::
::: ブロック-1
(a) は、AR-Seg
さまざまな LR 解像度でのパフォーマンスを示しています。(b) は、キーフレームからのさまざまな距離における注釈付きフレームの mIoUd (キーフレームからの距離) を示しています。d が 1 から L-1 に変化するとき、mIoUd の値の間隔は (a) の色付きのバーで表されます。
:::
::: ブロック-1
さまざまなコーデックを使用して圧縮されたビデオのパフォーマンスを示すと、その精度が画像ベースの解像度一定の対応物と同等、またはそれ以上であることがAR-Seg
わかります。:::AR-Seg
結論は
AR-Seg
この論文では、入力解像度の観点からビデオ セグメンテーションの効率を革新的に向上させる、圧縮ビデオ セマンティック セグメンテーション用の解像度代替フレームワークを提案します。アーキテクチャ設計とトレーニング戦略を共同で検討することにより、提案されたCReFF
モジュールとFST
戦略は、ダウンサンプリングによって引き起こされる精度の損失を効果的に防止します。広く使用されている 2 つのデータセットで評価された結果は、AR-Seg が計算コストを最大 67% 削減しながら、競争力のあるセグメンテーション精度を達成できることを示しています。この研究では現在、2 つの交互解像度 (HR と LR) のみを使用しています。今後の作業では、VSS パフォーマンスをさらに向上させるために、より複雑なマルチ解像度とキーフレーム間隔のスケジューリングを適用することを検討します。
人工知能とコンピューター ビジョンのフルスタック分野にも興味がある場合は、有益で興味深く愛情深い公開アカウント「CVHub」をフォローすることを強くお勧めします。最先端の科学技術に関する詳細な論文を毎日更新し、解釈と産業向けの成熟したソリューションを提供します。編集者の WeChat アカウント cv_huber を追加することを歓迎します。「CSDN」とコメントし、CVHub の公式学術および技術交流グループに参加して、より興味深いトピックについて一緒に議論してください。