2D キーポイント検出のための IPR: Integral Human Pose Regression

ここに画像の説明を挿入します

論文リンク: Integral Human Pose Regression
時間: 2018.09 ECCV'2018
著者チーム: Xiao Sun、Bin Xiao、Fangyin Wei、Shuang Liang、および Yichen Wei
分類: コンピューター ビジョン – ヒューマン キー ポイント検出 – 2D トップダウン

目次:

1.IPRの背景
2.IPRジェスチャー認識
3.IPRネットワークアーキテクチャ図
4. 引用

1. 主に学習記録用です 違反がある場合はプライベートメッセージを送って修正してください
2. レベルに制限があります 不備があればご指摘いただきありがとうございます


1.IPRの背景

  人間の姿勢推定タスクには、深層学習に基づく 2 つの主な方法があります。

  1. 回帰法に基づいて、各キーポイントの位置座標が直接予測されます。
  2. ヒートマップ手法に基づいて、キーポイントごとにヒートマップを予測し、各ポジションのスコアを予測します。

  「畳み込みニューラル ネットワークによる数値座標回帰」という論文では、ヒートマップ ベースと回帰ベースの 2 つのカテゴリに分類できます。IPR は、回帰法による回帰予測キーポイント座標とヒートマップ法による復号予測の両方を備えています。

  IPR は主にヒートマップではなくネットワークを通じて関節座標を生成します。これは関節座標の生成の重要性を証明しています。ヒートマップ上では、元の最大値が期待値に変更されます。この方法では、ヒートマップでソフトマックス正規化を使用し、確率積分回帰を実行します。


2.IPRジェスチャー認識

  モデル構造は、ディープ畳み込みバックボーン ネットワークとシャロー ヘッド ネットワークから構成され、前者は入力画像から畳み込み特徴を抽出するために使用され、後者は特徴からターゲット出力 (ヒート マップまたはジョイント) を推定するために使用されます。この記事で設計された実験的なネットワーク設計アーキテクチャは次のとおりです。
ここに画像の説明を挿入します

  1. デコード方法
      ディープニューラルネットワークのダウンサンプリングステップにおけるヒートマップの解像度は入力画像の解像度より低いため、量子化誤差が避けられません。高解像度の画像とヒート マップを使用すると精度が向上しますが、計算とストレージが必要になります。回帰手法はエンドツーエンドの学習を実行し、継続的な出力を生成して、上記の問題を回避します。
      IPR は、ヒート マップ表現と結合回帰を関連付けて統合し、「期待値を取得する」ために「最大値」操作を変更します。Soft-Argmax デコードを使用すると、まず Softmax を使用して確率ヒート マップを正規化し、次に期待値法を使用して予測座標を取得します。2D 座標は次の式で求められます。
      Ω ΩΩはドメイン、pppはドメイン内のすべての座標H k ~ ( p ) \tilde{\mathbf{H}_k}(\mathbf{p})H~( p )は確率の重みで、ヒートマップのソフトマックス正規化によって取得されます。
    J k = ∫ p ∈ Ω p ⋅ H ~ k ( p ) \mathbf{J}_k=\int_{\mathbf{p}\in\Omega}\mathbf{p}\cdot\tilde{\mathbf{H} }_k(\mathbf{p})J=p ΩpH( p )
    H ~ k ( p ) = e H k ( p ) ∫ q ∈ Ω e H k ( q ) \tilde{\mathbf{H}}_k(\mathbf{p})=\frac{e^{ \mathbf{H}_k(\mathbf{p})}}{\int_{\mathbf{q}\in\Omega}e^{\mathbf{H}_k(\mathbf{q})}}H( p )=q ΩeH( q )eH( p )


  2.   教師あり法における関節座標損失について、この記事では、実験の損失関数として、予測された関節と地上の実際の関節の間の L1 距離と L2 距離を使用します。L1loss は常に L2loss よりも優れていることがわかります。この記事では L1loss を使用します
    L re = ∣ ∣ J gt − J ^ re ∣ ∣ 1 = ( ∣ J ^ x − J x ∣ + ∣ J ^ y − J y ∣ ) L_{re}=||J_{gt}-\hat{J }_{re}||_1=(|\hat{J}_x-J_x|+|\hat{J}_y-J_y|)L=∣∣ Jgt _J^1=( J^×J×+J^はいJはい)

  3. 結果評価
      MPII データセット、ヒートマップを使用した直接回帰と積分回帰法の比較、バックボーンは ResNet-50 です。すべての積分回帰手法 (I1、I2、I3) は、ヒートマップベースの対応する手法 (H1、H2、H3) よりも大幅に優れています。キー ポイント ヒートマップとキー ポイント座標回帰手法を組み合わせると、最も効果的です。
    ここに画像の説明を挿入します
      さまざまなバックボーン ネットワーク (ResNet と砂時計) での実験では、座標回帰を使用する方法の方が優れていることがわかりました。ResNet18 は座標回帰を使用しており、ヒートマップ回帰を使用すると ResNet101 の高さに達する可能性があります。小規模なネットワークを使用する必要がある場合は、座標回帰の方が良い選択です。
    ここに画像の説明を挿入します
      多段ネットワークで座標回帰法を使用した場合と使用しない場合の実験比較。
    ここに画像の説明を挿入します
      COCO データセットと当時の他の最先端の手法との比較:
    ここに画像の説明を挿入します

  4. 要約する

可微的,允许端到端训练,快速、非参数化(运算开销小)。
可以很容易地与任何基于热图的方法相结合,潜在的热图表示使其易于训练。
具有连续输出,不存在量化问题

3.IPRネットワークアーキテクチャ図

クラウドポーズ.onnx.png


4. 引用

引用 1
引用 2
引用 3

おすすめ

転載: blog.csdn.net/qq_54793880/article/details/131116685