歩行者の再認識-姿勢検出

歩行者の再認識-姿勢検出

序文

分類のための画像特徴の抽出から、歩行者の再識別の方法は、グローバル特徴ローカル特徴に基づく方法に分けることができます。グローバル特徴は比較的単純であるため、ネットワークは画像全体から特徴を抽出します。この特徴一部のローカル情報は考慮されません。通常の畳み込みネットワークは、グローバルな特徴を抽出します。
ただし、歩行者データセットがますます複雑になるにつれて、グローバル機能の使用のみがパフォーマンス要件を満たすことができないため、より複雑なローカル機能の抽出が研究のホットスポットになりました。
ローカル機能は手動または自動で参照し、ネットワークが集中できるようにします。主要なローカル領域を抽出してから、これらの領域のローカル特徴を抽出します。ローカル特徴を抽出するために一般的に使用されるアイデアには、主に画像のダイシングスケルトンのキーポイントの配置の使用歩行者の前景のセグメンテーションなどがあります。

グローバルな特徴

各歩行者画像のグローバル情報の特徴が抽出され、このグローバル特徴には空間情報がありません
ここに画像の説明を挿入単純な畳み込みニューラルネットワークを介して、画像に関する特徴が得られます。この特徴はグローバル特徴と呼ばれますが、この方法には、グローバル特徴に大きな干渉を引き起こす可能性のあるノイズ領域などのいくつかの欠陥があり、姿勢はそうではありません。また、グローバル機能を比類のないものにします。

局所的な特徴に基づく検出方法

ローカル特徴とは、画像内の特定の領域の特徴抽出を指し、最後に複数のローカル特徴が最終的な特徴としてマージされます。
ここに画像の説明を挿入

ローカル機能-姿勢検出

人間のポーズの要点を使用してローカルの特徴を揃えるのが一般的な方法です。現在の論文の中には、歩行者を整列させるためにいくつかの事前知識(前処理された人間のポーズとスケルトンのキーポイントモデル)を主に使用し、次に局所的な特徴を検出して判断するものがあります。
ここに画像の説明を挿入通常、歩行者は14のポーズポイント(ポーズ/キーポイント)を定義し、2つの隣接するポーズポイントが接続されてスケルトン(スケルトン)を形成します。
一般的に使用されるポーズポイント推定モデルには、砂時計、OpenPose、CPM、AlphaPoseが含まれます。

関連するアルゴリズム

1.PIE

深い人物の再識別
ためのポーズ不変埋め込み上記の記事は、ポーズ検出に関する初期の記事です。主な作業は、おおまかに次のとおりです
ここに画像の説明を挿入。CPMはキーポイントの収集に使用されます。CPMは、頭、首、左右の肩、左右の肘、左右の肘、右手首、左右の腰、左右の膝、そしてそこにある14の体の関節を検出できるシーケンシャルコンボリューションアーキテクチャです。上の写真の最初の列から2番目の列に示されているように、は左右の足首です。
ここに画像の説明を挿入画像をいくつかの部分に分割し、アフィン変換を実行して長方形の領域を取得します。これにより、上の図の3列目と4列目に示すように、異なる画像内の同じ部分の異なるサイズとポーズの問題を解決できます。
ここに画像の説明を挿入元の画像とアフィン画像の融合機能とID損失を使用したネットワークのトレーニング:
ここに画像の説明を挿入上記のように、元の画像とposeBoxは、重みを共有しない2つの畳み込みニューラルネットワークを最初に通過してそれぞれの特徴を取得し、次にPIEネットワークへの14次元ポーズ信頼スコア、対応する機能の融合、および上から下に取得された最後の3つの損失は、グローバル損失、融合損失、およびローカル損失です。

2.スピンドルネット

スピンドルネット:人体領域を使用した人の再識別
GuidedFeature分解と融合これは、古典的なジェスチャ認識ポイントを使用した比較です。以下に示すように、歩行者ウェイトペーパーは、ネットワークバックボーンのキーポイントによって最初に抽出されます。 。これらのキーポイントは、頭、上半身、下半身、左腕、右腕、左脚、右脚に対応する人体構造の7つのROIを抽出します。
ここに画像の説明を挿入次に、7つのROI領域と元の画像を同じCNNネットワークに入力して特徴を抽出します。元の画像は、完全なCNNネットワークを通過してグローバルな特徴を取得し、3つの大きな領域はFEN-C2とFEN-C3を通過します。サブネットワークを使用して3つのローカル特徴を取得します.4つの肢領域がFEN-C3サブネットワークを通過して、4つのローカル特徴を取得します。次に、これらの8つの特徴を図に従って異なるスケールで接続し、最後に、複数のスケールのグローバル特徴とローカル特徴を組み合わせた歩行者再認識特徴を取得します。

ここに画像の説明を挿入

3.PDC

人の再識別のためのポーズ駆動型深層畳み込みモデルは
、上記の栗とは異なります。PDCの作成者は、歩行者のキーポイントを抽出するときに、14のキーポイントも抽出しますが、歩行者を6つの部分に分割しここに画像の説明を挿入、改良されたものを採用します。 。PTNネットワークはアフィン変換のパラメータを学習し、それらを図の特定の位置に自動的に配置します。ここでは、異なるパーツ間のギャップが許可されます。
ここに画像の説明を挿入部分画像が取得された後、元の画像と姿勢画像を別々に実行できます。抽出、ネットワークの浅い共有、深い非共有、ネットワークのトレーニング、そして最終的には上記と同様の効果、グローバル損失、ローカル損失、フュージョン損失を取得します。

ここに画像の説明を挿入

4.GLAD

GLAD:歩行者検索用のグローバル-ローカル-アライメント記述子
GLADは、人体を頭、上半身、下半身の3つの部分に分割し、ここに画像の説明を挿入重みを共有できるネットワークを介して損失を計算し、最後に取得した特徴をステッチして次のようにします。ここに画像の説明を挿入

ここに画像の説明を挿入

5.PABP

人の再識別のための部分整列双線形表現は
、ピクセルレベルから問題を議論し、ReIDネットワークを使用して特徴マップAを抽出し、openposeを使用して特徴マップPを抽出します。AとPの対応する各ピクセル位置のベクトルは次のとおりです。外側の製品とベクトル化。ここに画像の説明を挿入

総括する

  • ポーズ推定モデルを使用して、歩行者(14)の主要なポーズポイントを取得します
  • ポスチャポイントに応じたセマンティック情報を含むパーツ領域を取得します
  • 各パーツ領域のローカル特徴を抽出します
  • ローカル機能とグローバル機能を組み合わせると、多くの場合、より良い結果が得られます

おすすめ

転載: blog.csdn.net/qq_37747189/article/details/109670946