2D キーポイント検出のためのシンプルなベースライン: 人間の姿勢推定と追跡のためのシンプルなベースライン

画像.png
論文リンク:人間の姿勢推定と追跡のための単純なベースライン
時間: 2018.04.17 ECCV 2018
著者チーム: Bin Xiao、Haiping Wu、および Yichen Wei
カテゴリー: コンピューター ビジョン – 人間のキー ポイント検出 – 2D トップダウン

目次:

1.Simple Baseline背景
2.シンプルなベースラインジェスチャ認識
3.シンプルなベースライン軌道追跡
4. 単純なベースライン ネットワーク アーキテクチャ図
5. 引用

1. 主に学習記録用です 違反がある場合はプライベートメッセージを送って修正してください
2. レベルに制限があります 不備があればご指摘いただきありがとうございます


1.Simple Baseline背景

  coco2018 キーポイント検出プロジェクトの準優勝ソリューションで、方法はシンプルで明確ですが、効果は驚くべきものです。
  著者は、砂時計、オープンポーズ、cpn など、現在の姿勢推定方法は複雑すぎて大きな違いがあると考えています。これらの研究の違いを比較すると、それらの違いは情報レベルではなくシステム レベルに反映されます。
  この記事では、著者は、正確 (SOTA レベル) かつシンプル (ネットワーク構造は非常にシンプルです。以下を参照) の両方を備えた姿勢推定手法を提案します。ベースラインとして、いくつかの新しいアイデアと簡略化された評価手法をインスピレーションにしたいと考えています。


2.シンプルなベースラインジェスチャ認識
  1. ネットワーク構造部分
      は通常のバックボーン (resnet50 が良い) にいくつかの転置畳み込み層 (ヘッド ネットワークとして) を加えたものです 特徴を転送するためのスキップ接続や特徴融合はありません ネットワーク構造は非常にシンプルです Hourglass や CPN との比較唯一の目新しい点は、アップサンプリングとコンボリューションで構成される構造を置き換えるデコンボリューションの導入です。著者は、これがヒートマップを取得する最も簡単な方法であると考えており、深いところから浅いところまでの特徴が含まれています。
    画像.png
      バックボーンの後にいくつかの deconv 層を追加します。各 deconv の後には BN 層と ReLU が続きます。各 deconv のチャネル数は 256、kernel_size は 4、stride は 2 です。最後に、予測レイヤーで 1*1 conv が使用され、対応するチャネルのヒートマップが取得されます。
      通常の L2 損失は、最終出力の損失のみを計算し、リレーの監視は行いません。
  2. 結果評価:
      COCOキーポイント検出のタスクにおいて本記事の手法はCPNやHourglassよりも高いAPを達成:
    画像.png
    画像.png
      アブレーション実験:
      ヒートマップサイズ、デコンボリューションカーネルサイズ、バックボーン構造、入力画像サイズなどの4つの観点から比較。ヒートマップのサイズは 64*48 が好ましく、3 層のデコンバージョン、カーネル サイズは 4 が好ましい。バックボーンが大きいほど良い。画像サイズは大きいほど良いが、後の 2 つは計算量と計算量が大幅に増加する。ビデオメモリ。精度と速度のバランスを適切に保つ必要があります。
    画像.png

3.シンプルなベースライン軌道追跡

  1. Pose Track は基本的に境界と ID を追跡します。2 つのフレームで予測されたバウンディング ボックス IoU の貪欲マッチングと比較すると、この記事で使用されている追跡パイプラインには 2 つの違いがあります。複数人の軌跡追跡を解決するための元のアルゴリズムは、ビデオの最初のフレームで検出された各人物に ID を与えることです。各フレームで検出された人物と、前のフレームで検出された人物の類似度を一定の測定方法(IOU)で計算し、最も類似したものには同じIDが割り当てられ、一致しなかったものにはIDが割り当てられます。新しいIDが割り当てられました。
  改善点: (1) オプティカルフロー方式を使用して一部の検出フレームを補完し、検出ネットワークでの検出漏れの問題を解決します。(2) 検出フレームの IOU の代わりにオブジェクト キーポイント類似度 (OKS) を使用して類似度を計算します。人々が急速に移動する場合、借用書を使用するのは合理的ではない可能性があるためです。
  OKS計算式:
画像.png
  オプティカルフロー法を用いて、あるフレームのキーポイントが別のフレームに現れる位置を計算し、予測前後のキーポイントを用いて、両者間の異なる人物の類似度値としてOKSを計算します。フレーム。
2. 結果の評価
画像.png


4. 単純なベースライン ネットワーク アーキテクチャ図

クラウドポーズ.onnx.png


5. 引用

引用 1
引用 2
引用 3
引用 4

おすすめ

転載: blog.csdn.net/qq_54793880/article/details/131043617