CVPR2023 生体検出顔アンチスプーフィングのためのインスタンス認識ドメインの一般化研究ノート

論文リンク: https://arxiv.org/pdf/2304.05640.pdf

コードリンク: GitHub - qianyuzqy/IADG: (CVPR 2023) 顔のアンチスプーフィングのためのインスタンス認識ドメインの一般化(未公開)

研究動機

  1. ドメイン一般化 (DG) に基づく以前の活性検出方法は、通常、ドメイン不変の特徴表現を学習するために、ドメイン ラベルに依存して各ドメインの分布を調整します。ただし、人間がラベルを付けたドメイン ラベルは粒度が粗く主観的なものであり、実際のドメイン分布を正確に反映することはできません。
  2. ドメイン認識ベースの手法はドメイン レベルの調整に焦点を当てており、これらの手法は、学習された特徴表現がドメインに依存しない (ドメインの感度低下を伴う) ことを保証できるほど十分に細分化されていません。

研究革新

上記の欠点を解決するために、著者は、ドメインに依存しない機能とこれらの機能のきめ細かな調整を探求する新しい観点 (インスタンスアウェア) から DG ベースの活性検出方法 (インスタンスアウェア ドメイン一般化、IADG) を提案します。インスタンス レベルで (このメソッドはドメイン ラベルを使用する必要がありません)、目に見えないシーンでのモデルの一般化が向上します。具体的には、著者はまず、各インスタンスのドメイン依存の特徴相関を適応的に白色化することによって特徴の汎化能力を向上させる非対称インスタンス適応ホワイトニング (AIAW) を紹介します。ドメインに依存しない特徴を直接学習するのとは異なり、AIAW は、きめの細かいインスタンス レベルで高次の統計からの特徴の相関関係を弱めることを目的としています。さらに、著者は、Dynamic Kernel Generator (DKG) と Categorical Style Assembly (CSA) も提案しました。これら 2 つのモジュールは、AIAW の学習とドメインに依存しない機能に役立ちます。

関連作業

FAS関連の作品は紹介しません この作品は主にFeature CovarianceとInstance Whiteningを記録しています

「畳み込みニューラル ネットワークを使用したテクスチャ合成」と「畳み込みニューラル ネットワークを使用した画像スタイルの転送」では、特徴相関 (共分散行列など) が画像のドメイン固有のスタイルを保存することを指摘しています。「グループごとのディープ ホワイトニングとカラーリング変換による画像間の変換」、「特徴変換によるユニバーサル スタイル転送」、「深い表現学習のための切り替え可能なホワイトニング」などのホワイトニング変換により、特徴を削除し、相関関係を可能にすることができます。各特徴には単位分散があります。上記の理論的根拠に基づいて、画像変換、スタイル変換、ドメイン適応、セマンティック セグメンテーションの分野で、ホワイトニングによってドメイン固有のスタイルを効果的に除去できることが多くの研究で証明されています。したがって、インスタンスのホワイトニングは特徴の汎化能力を向上させることができますが、DG FAS では十分に検討されていません。これらの研究に触発され、本物の顔と偽の顔の間の非対称性を考慮して、著者らは、FAS モデルの汎化能力を向上させる AIAW 手法を提案します。

方法論

上の図は、インスタンス固有のスタイルに対するフィーチャの感度を弱めることで、インスタンス レベルでフィーチャを調整する IADG の全体的なフレームワークを示しています。IADG のコア モジュールは、DKGCSAAIAWです。これら 3 つのモジュールについては、以下で個別に紹介します。

DKG

異なるソース ドメインからのサンプル間の違いを考慮すると、静的フィルターを通じてインスタンスに適応する特徴を抽出することは困難ですしたがって、作成者はインスタンス適応フィルターを自動的に生成するように DKG を設計しました。これにより、インスタンス静的フィルターが包括的なインスタンス適応機能を学習できるようになります。

DKG は静的畳み込みブランチと動的カーネル ブランチで構成され、最初のブランチは固定パラメーターを持ち、2 番目のブランチのパラメーターは各インスタンスに依存します。モデルは、モデル パラメーターがサンプルごとに変化するかどうかに応じて、静的または動的として表されます。以下の図に示すように、DKG モジュールの i 番目のサンプルの入出力機能を表しますX^{i}F^{i}トレーニング段階では、両方のブランチが最適化されます。具体的には、著者らはまず、X^{i}チャネル次元に沿って 2 つの部分に分割し、それぞれ\hat{X}^{i}とで示します\チルダ{X}^{i}静的畳み込みブランチでは、\チルダ{X}^{i}静的畳み込みに送信されます。動的カーネル ブランチでは、\hat{X}^{i}グローバル平均プーリング レイヤーと畳み込みモジュールに送信されて、インスタンス適応カーネル (動的カーネル) が生成され、特定の特徴の抽出 (入力マスクの乗算に相当)W^{i}W^{i}使用されます。\hat{X}^{i}2 つのブランチの出力の計算式は次のとおりです。

DKG モジュールの出力計算式は次のとおりです。

CSA

このモジュールは、さまざまなスタイルのサンプルを生成するために使用されます。具体的には、作成者は最遠点サンプリング (FPS) 技術を使用して、すべてのサンプルからカテゴリごとに L 個のスタイルを繰り返し選択します。これにより、FPS によって取得された基本スタイルがスタイル空間全体を最大限に表現できます。基本スタイルはエポックごとに動的に更新されます。基本スタイルのカテゴリごとに、その平均と分散を計算し、\mu _{ベース}^{r}それぞれ\mu _{ベース}^{s}実際の人物と義肢の基本スタイルの平均を表します。

本物の顔の内容を偽の顔のスタイルと再結合すると、本物の顔の生き生きとした特徴に影響を与える可能性があることを考慮して、著者らは特徴強調においてそれらを異なる方法で扱います。スタイルの拡張は、コンテンツ フィーチャとスタイル フィーチャが同じクラス ラベルを持つ場合にのみ実行されます。c著者らは、カテゴリごとに、次のように計算されたディリクレ分布からB([\alpha _{1},...,\alpha _{L}])結合された重みを抽出します。W^{c}=[w_{1},...,w_{L}]

各インスタンスF_{組織}のコンテンツ機能について、F_{組織}同じカテゴリの新しい基本スタイルがスタイルのアセンブリに使用され、ラベルの変更が回避され、様式化されたサンプルがより現実的になります。

AIAW

各サンプルをより細かい粒度で調整するために、特徴チャネル間の相関をインスタンス適応型一般化の明示的な制約として考慮します。ホワイトニングは特定のスタイルを除去するのに効果的であることが示されているため、これにより DG-FAS 特徴の一般化能力が向上する可能性があります。ただし、これらのインスタンスのホワイトニングを直接適用すると、FAS 分類を区別するドメイン不変の特徴が同時に削除され、最適なパフォーマンスが得られません。したがって、著者らは、FAS 用の新しいホワイトニング損失のインスタンスを設計しました。この損失は、感度の共分散を選択的に抑制しながら、非感度の共分散を強化することを目的としています。具体的には、FAS タスクの背景を考慮して、著者はインスタンス ホワイトニングにおける本物と偽物の顔の非対称性のアイデアを導入します (本物の顔の特徴はよりコンパクトである必要があり、一方、偽の顔の特徴は特徴空間内で分離できる)。したがって、白色化プロセス中に、本物の顔と偽の顔の感度の共分散を抑制するために、異なる選択比が使用されます。

AIAWの計算方法:

1. サンプルの特徴マップを IN 層に入力して、対応する標準化された特徴 F を取得します。

2. 特徴 F の共分散行列は、次の式を使用して計算されます。

3. 共分散行列の選択マスクを推定します。計算式は次のとおりです。

4. AIAW には選択マスクを使用します。インスタンスの白色化損失の計算式は次のとおりです。

全体的なトレーニングと最適化

目に見えない領域で強力な一般化を示すために、バイナリ分類損失を使用して特徴のF_{組織}^{i}合計を監視しF_{8月}^{i}、特徴抽出プログラムがタスク関連の特徴を確実に抽出できるようにします。

さらに、著者は深度推定器 Dep を使用して、実際の顔の深度マップを推定します (補綴物の深度マップはすべて 0 特徴マップです) この部分の損失計算式は次のとおりです。

全体的なトレーニング損失は次のとおりです。

トレーニング フェーズでは、元のブランチと拡張ブランチが同時に最適化されます。テスト段階では、元のブランチのみが推論に使用されます。

実験結果

結果から、IADG はさまざまなテスト プロトコルで良好な結果が得られ、アブレーション実験により、各モジュールがモデルのパフォーマンスを向上できることが証明されました。作者のオープンソースコードに期待してください。

おすすめ

転載: blog.csdn.net/qq_38964360/article/details/130264982