[学習資料]この記事では、Integral Pose Regression メソッドのすべての側面を要約しています - Zhihu (要約が配置されているため、必ずお読みください)
1. 2 つの基本的な方法の比較
1. デコード方法
softmax と argmax の違い:
ディープ ニューラル ネットワークのダウンサンプリング ステップにより、ヒートマップの解像度は入力画像の解像度よりも低くなります。これにより、「最大」操作を「期待値を取る」ように変更する不可避の量子化エラーが発生します。ジョイントは、ヒートマップ内のすべての位置の積分として推定され、確率に従って重み付けされます (尤度から正規化されます)。このアプローチを積分回帰と呼びます。
2.
監視に関する検出ベースの方法は、ガウス ヒート マップを手動でレンダリングし、ネットワークの出力をピクセル
ごとに監視します. IPR は座標値を直接監視します.
3. パフォーマンスの
結論: 積分回帰は「ハード サンプル」
検出でより適切に機能します。回帰ベースの方法は、テクスチャ情報の影響を大きく受けるため、重度のオクルージョンに遭遇すると、応答領域が失われたり移動したりしやすくなりますが、回帰ベースの方法は、キー ポイント間の相対的な位置関係をよりよく記憶できます。
2.知的財産権法
2.1 地域性
応答値が局所に集中し、それ以外の場所の応答はほぼ0 応答値が最大の場所が対象点 実位置を中心とした確率分布 距離が遠いほど低い人にマークされる確率、ここでは「局所性」と呼ぼう。
2.1.1 IPR 手法がより局所化されているのはなぜですか?
教師ありの場合、暗黙のうちにラプラス分布を学習しています。
COCO データセット上のキー ポイントの実際の分布は、実際にはラプラシアン分布とガウス分布の間にあり、エッジはガウス分布よりも鋭く、ラプラシアン分布よりも滑らかです。
2.2 形状の制約
2.2.1 なぜ形状を拘束する必要があるのか
Soft-Argmax 計算プロセスは、出力フィーチャ マップに対して Softmax 正規化を実行し、座標値として期待値を見つけ、座標値を通じて直接監視することです。期待値が正しい限り、つまり、分布が予想される要件を満たしている場合、それがどのように見えても、損失が減少するため、予測されたヒートマップは「マルチピーク」、「フラット」、および最大応答値ポイント オフセットのように見える場合があります。
2.2.2 形状の解決
非常に極端なケースとケースでのパフォーマンスの低下に加えて、他のケースではパフォーマンスが改善されており、形状制約を追加することが効果的であることがわかります。
2.3 教師法と勾配差
勾配形式の違いにより、IPR のトレーニング プロセスは、検出ベースの方法よりもはるかに難しくなります。
2.4 まとめ
Integral Pose Regression メソッドのパフォーマンス上の欠点は、主に次の 4 つの側面から生じます。
- Softmax プロパティによって導入されたバイアス
- データの実際の分布と人間が事前に定義した単純な分布には違いがあります
- 確率分布の性質に関する制約がないため、学習目標が不明確
- 不安定な勾配フォームは非効率的な学習につながります