論文リンク: Integral Human Pose Regression
時間: 2018.09 ECCV'2018
著者チーム: Xiao Sun、Bin Xiao、Fangyin Wei、Shuang Liang、および Yichen Wei
分類: コンピューター ビジョン – ヒューマン キー ポイント検出 – 2D トップダウン
目次:
1.IPRの背景
2.IPRジェスチャー認識
3.IPRネットワークアーキテクチャ図
4. 引用
1. 主に学習記録用です 違反がある場合はプライベートメッセージを送って修正してください
2. レベルに制限があります 不備があればご指摘いただきありがとうございます
1.IPRの背景
人間の姿勢推定タスクには、深層学習に基づく 2 つの主な方法があります。
- 回帰法に基づいて、各キーポイントの位置座標が直接予測されます。
- ヒートマップ手法に基づいて、キーポイントごとにヒートマップを予測し、各ポジションのスコアを予測します。
「畳み込みニューラル ネットワークによる数値座標回帰」という論文では、ヒートマップ ベースと回帰ベースの 2 つのカテゴリに分類できます。IPR は、回帰法による回帰予測キーポイント座標とヒートマップ法による復号予測の両方を備えています。
IPR は主にヒートマップではなくネットワークを通じて関節座標を生成します。これは関節座標の生成の重要性を証明しています。ヒートマップ上では、元の最大値が期待値に変更されます。この方法では、ヒートマップでソフトマックス正規化を使用し、確率積分回帰を実行します。
2.IPRジェスチャー認識
モデル構造は、ディープ畳み込みバックボーン ネットワークとシャロー ヘッド ネットワークから構成され、前者は入力画像から畳み込み特徴を抽出するために使用され、後者は特徴からターゲット出力 (ヒート マップまたはジョイント) を推定するために使用されます。この記事で設計された実験的なネットワーク設計アーキテクチャは次のとおりです。
-
デコード方法
ディープニューラルネットワークのダウンサンプリングステップにおけるヒートマップの解像度は入力画像の解像度より低いため、量子化誤差が避けられません。高解像度の画像とヒート マップを使用すると精度が向上しますが、計算とストレージが必要になります。回帰手法はエンドツーエンドの学習を実行し、継続的な出力を生成して、上記の問題を回避します。
IPR は、ヒート マップ表現と結合回帰を関連付けて統合し、「期待値を取得する」ために「最大値」操作を変更します。Soft-Argmax デコードを使用すると、まず Softmax を使用して確率ヒート マップを正規化し、次に期待値法を使用して予測座標を取得します。2D 座標は次の式で求められます。
Ω ΩΩはドメイン、pppはドメイン内のすべての座標H k ~ ( p ) \tilde{\mathbf{H}_k}(\mathbf{p})Hk~( p )は確率の重みで、ヒートマップのソフトマックス正規化によって取得されます。
J k = ∫ p ∈ Ω p ⋅ H ~ k ( p ) \mathbf{J}_k=\int_{\mathbf{p}\in\Omega}\mathbf{p}\cdot\tilde{\mathbf{H} }_k(\mathbf{p})Jk=∫p ∈ Ωp⋅H~k( p )
H ~ k ( p ) = e H k ( p ) ∫ q ∈ Ω e H k ( q ) \tilde{\mathbf{H}}_k(\mathbf{p})=\frac{e^{ \mathbf{H}_k(\mathbf{p})}}{\int_{\mathbf{q}\in\Omega}e^{\mathbf{H}_k(\mathbf{q})}}H~k( p )=∫q ∈ ΩeHk( q )eHk( p ) -
教師あり法における関節座標損失について、この記事では、実験の損失関数として、予測された関節と地上の実際の関節の間の L1 距離と L2 距離を使用します。L1loss は常に L2loss よりも優れていることがわかります。この記事では L1loss を使用します。
L re = ∣ ∣ J gt − J ^ re ∣ ∣ 1 = ( ∣ J ^ x − J x ∣ + ∣ J ^ y − J y ∣ ) L_{re}=||J_{gt}-\hat{J }_{re}||_1=(|\hat{J}_x-J_x|+|\hat{J}_y-J_y|)L再=∣∣ Jgt _−J^再∣ ∣1=( ∣J^×−J×∣+∣J^はい−Jはい∣ ) -
結果評価
MPII データセット、ヒートマップを使用した直接回帰と積分回帰法の比較、バックボーンは ResNet-50 です。すべての積分回帰手法 (I1、I2、I3) は、ヒートマップベースの対応する手法 (H1、H2、H3) よりも大幅に優れています。キー ポイント ヒートマップとキー ポイント座標回帰手法を組み合わせると、最も効果的です。
さまざまなバックボーン ネットワーク (ResNet と砂時計) での実験では、座標回帰を使用する方法の方が優れていることがわかりました。ResNet18 は座標回帰を使用しており、ヒートマップ回帰を使用すると ResNet101 の高さに達する可能性があります。小規模なネットワークを使用する必要がある場合は、座標回帰の方が良い選択です。
多段ネットワークで座標回帰法を使用した場合と使用しない場合の実験比較。
COCO データセットと当時の他の最先端の手法との比較:
-
要約する
可微的,允许端到端训练,快速、非参数化(运算开销小)。
可以很容易地与任何基于热图的方法相结合,潜在的热图表示使其易于训练。
具有连续输出,不存在量化问题