2D キー ポイント検出用の SCNet: 自己調整された畳み込みによる畳み込みネットワークの改善

画像.png

論文リンク: Improving Convolutional Networks With Self-Calibrated Convolutions
時期: 2020 CVPR2020
著者チーム: Jiang-Jiang Liu、Qibin Hou、Ming-Ming Cheng、Changhu Wang、Jiashi Feng
カテゴリー: コンピューター ビジョン – ヒューマン キー ポイント検出 – 2D topdown_heatmap

目次:

1.SCNetの背景
2.SCNetジェスチャ認識
3.SCNetネットワークアーキテクチャ図
4. 引用

1. 主に学習記録用です 違反がある場合はプライベートメッセージを送って修正してください
2. レベルに制限があります 不備があればご指摘いただきありがとうございます


1.SCNetの背景

  畳み込みニューラル ネットワークのほとんどの改善は、主にネットワーク モデルのアーキテクチャを調整して、豊富な有限要素解析を生成することに重点を置いています。
  CNN の進歩は主に、より複雑な構造を設計することに重点が置かれており、これにより学習を表現する能力が強化されています。
  この論文はアーキテクチャには焦点を当てず、基本的な畳み込みモジュールを改良することによってネットワーク全体のパフォーマンスを向上させるだけであり、提案された自己校正畳み込み SC は、ターゲットオブジェクトをより完全かつ正確に位置特定することができます。
  以下の図は、さまざまな畳み込み手法を使用して resnet を視覚化することで生成された機能アクティベーション マップです。自己キャリブレーション畳み込みを使用した Resnet は、ターゲット オブジェクトをより正確に見つけることができます。
画像.png


2.SCNetジェスチャ認識

  本稿では、基本的な畳み込み構造を置き換える複数の畳み込みアテンションで構成された自己校正モジュールを提案し、追加のパラメータや計算を追加することなく大域的な受容野を生成することができます。標準の畳み込みと比較して、このモジュールによって生成される特徴マップはより識別力が高くなります。
 このモジュールの利点は次のとおりです。
  1. 従来の畳み込みは狭い領域でのみ畳み込み演算を実行できますが、自己校正畳み込みモジュールでは、各空間位置で長距離領域からの関連情報を適応的にエンコードできます。
  2. 自己調整された畳み込みは普遍的に適用でき、パラメータや複雑なヘッダーを導入したり、ハイパーパラメータを変更したりすることなく、標準の畳み込み層に簡単に適用できます。

  1. ネットワーク構造部分:
      従来の畳み込み:
     入力 x、畳み込みカーネル k、出力 z があり、その後、従来の畳み込み演算の公式:
    yi = ki ∗ X = ∑ j = 1 kij ∗ xj 、 \begin{aligned} \\ \text {y}_i=\text{k}_i*\textbf{X} =\sum\limits_{j=1}\mathbf{k}_i^j*\mathbf{x}_j, \end{aligned}y私は=k私はバツ=j = 1kjバツj
     問題点: 抽出された特徴マップはあまり区別できません
      1. 各出力特徴マップはすべてのチャネルを合計することによって計算され、すべての特徴マップは同じ式を繰り返すことによって取得されます。
      2. 各空間位置の受容野は主に、事前定義されたコンボリューション カーネル サイズによって制御されます。
      SC セルフキャリブレーション畳み込み:
    画像.png
      上は SC モジュールのアーキテクチャ図です。X は入力特徴マップ、Y は出力特徴マップ、F は異なるカーネル サイズの畳み込み層、K は対応するカーネルのサイズです。
      各空間位置について有用なグローバル情報を効果的に取得するために、この論文では、2 つの異なる空間で畳み込み特徴変換を実行することを提案しています: 1 つは初期
      スケール空間で、特徴マップは入力データと同じ解像度を持ち、もう 1 つはダウンサンプリングされた空間です。小さな隠れた空間。小さな潜在空間は変換後により大きな受容野を持つため、初期特徴空間の特徴変換プロセスをガイドするための参照情報として使用できます。
      1. 入力特徴マップ X を 2 つの部分 X1 と X2 に分割します。
      2. X1 は自己校正操作を通じて Y1 を取得し、X2 は単純な畳み込み操作を通じて Y2 を取得し、最後に出力特徴マップ Y は Y1 と Y2 を結合することによって取得されます。
    Y1 の具体的な演算
     プロセス: 与えられた入力 X、フィルター サイズを rxr とし、ステップ サイズを使用して平均プーリングを実行します。式は次のとおりです: T 1 =
    A vg P oolr ( \mathrm{AvgPool}_r(\mathbf) {X}_1)。T1=平均プールr( X1) .
    T には  畳み込みカーネル グループK 2 {K}_2 をK2特徴量変換を実行します: \mathcal{F}}_{2}(\mathbf{T}_{1}))=\operatorname{Up}(\mathbf{T}_{1}*\mathbf{K}_{ 2})バツ1=( F2( T1))=T)1K2)
     ここで、上 ( ⋅ ) \text{上}(\cdot)Up ( )は、小スケール空間から元の特徴空間への中間基準量のマッピングを取得するための線形補間演算を表します。自己校正演算は、次のように表すことができます:Y 1 ' = F 3 ( X 1 ) ⋅ σ ( X 1 + X 1 ' ) \mathbf{Y}_1'=\mathcal{F}_3(\mathbf{X}_1)\cdot\sigma(\mathbf{X}_1+\mathbf{X}_1')Y1=F3( X1)s ( X1+バツ1)
     ここで、F ⁡ 3 ( X 1 ) = X 1 ∗ K 3 \operatorname{F}_3(\mathrm X_1)=\mathrm X_1\ast\mathrm K_3F3( X1)=バツ1K3σ \シグマσはシグモイド関数を表し、記号「.」は要素ごとの乗算演算を表し、X' は自己校正の重みを確立するための残差項として使用されます。自己校正後の最終出力は次のように記述できます: Y 1 = F 4 ( Y 1 ' ) = Y 1 ' ∗ K 4 \mathbf{Y}_1=\mathcal{F}_4(\mathbf{Y}_1' )=\ mathbf{Y}_1'*\mathbf{K}_4Y1=F4( Y1)=Y1K4

  2. 概要
      従来の畳み込みと比較して、キャリブレーション操作を採用することにより、各空間位置は、周囲の情報環境を潜在空間からの埋め込みとして、元のスケール空間からの応答のスカラーとして適応的に見ることができるだけでなく、モデル相互作用も考慮することができます。 -チャネルの依存関係。自己調整機能を備えた畳み込み層の視野を効果的に拡大できます。示されているように、自己キャリブレーションを備えた畳み込み層は、より大きくてもより正確な識別領域をエンコードします。
    画像.png
      自己調整操作では、グローバル コンテキストは収集されませんが、各空間位置の周囲のコンテキストのみが考慮され、無関係な領域からの特定の汚染情報がある程度回避されます。図からわかるように、セルフキャリブレーション機能を備えたコンボリューションにより、最終スコアレイヤーを視覚化するときにターゲットオブジェクトを正確に配置できます。
    画像.png

  3. 結果は、
      SC と通常の畳み込みとの比較を評価した
     もので、トレーニング プロセス中に SC モジュールを追加した後、損失がより早く低下し、エラー率が低くなりました。
    画像.png
      ImageNet-1K データセットの評価結果
    画像.png
      SCNet が設計したアブレーション実験
    画像.png
      ImageNet でのアテンションメカニズム手法の使用比較
    画像.png
      coco minival データセットでの最適手法によるターゲット検出の比較
    画像.png
      COCO val2017 データセットでのキーポイント検出の比較
    画像.png


3.SCNetネットワークアーキテクチャ図

ここに画像の説明を挿入します


4. 引用

引用 1
引用 2
引用 3

おすすめ

転載: blog.csdn.net/qq_54793880/article/details/131489127