遮蔽物検出の継続的な概要

遮蔽物検出の継続的な概要

オクルージョンは、多くの場合、ターゲットとターゲットの間のオクルージョン (群集)、ターゲットと背景の間のオクルージョン (オクルージョン) に分けられます。

群衆の中で人を検出するためのダブル アンカー R-CNN

要約: オクルージョン パターンが不確実であるため、群衆の中で人間を検出することは困難な問題です。本稿では、頭部を活用して人物検出におけるクラウドオクルージョン問題を扱うことを提案します。ダブルアンカーRPNは、胴体部と頭部をペアで捕捉するために開発されました。トレーニングの強化として、両方の部分に対して高品質の提案を生成するために、提案クロスオーバー戦略が導入されています。結合された提案の特徴は、固有の関係を活用するために効率的に集約されます。最後に、堅牢な後処理のためにジョイント NMS モジュールが開発されています。ダブルアンカー R-CNN と呼ばれる提案されたフレームワークは、混雑したシナリオで各人の体と頭を同時に検出できます。困難な人物検出データセットに関する最先端の結果が報告されています。私たちのモデルでは、対数平均ミス率 (MR) が CrowdHuman で 51.79 pp、COCOpersons (混雑したサブデータセット) で 55.01 pp、CrowdPose (混雑したサブデータセット) で 40.02 pp となり、以前のベースライン検出器を 3.57 pp、3.82 pp 上回りました。 、4.24pp、それぞれ。

画像-20220517100043416

モチベーション:

  1. 密集したターゲット シーンでは、スケール、スケール、および姿勢の変形が多数存在します。検出をより堅牢にする方法
  2. 歩行者の重なりが大きい場合、異なるインスタンス間の意味的特徴も相互に影響し、検出器がターゲットをフレーム化することが困難になるため、検出器は群衆全体としてターゲットを考慮するか、BBOX を群衆から遠ざけるように移動します。間違ったターゲット
  3. オブジェクト検出器はオブジェクトを非常にうまく検出できますが、NMS の後処理により、NMS のしきい値が高いため、重複するインスタンスがより多くの誤検知 (FP、誤検知) を引き起こします。

遮蔽されたシーン内のインスタンスの一部に焦点を当てるのが一般的であり、遮蔽された歩行者の全身を検出できない場合、その可視部分が高いスコアを与え、検出器をガイドすることができます。

革新:

  1. 人間検出におけるクラウドオクルージョン問題に頭を使うことを提案

方法:

  1. FasterRCNN 構造に基づいて、RPN 構造で Body オフセットと Head オフセットを同時に出力し、Body と Head の 2 つの検出対象を追加します
  2. 後続の予測ヘッドと非最大値の抑制により、これはそれに応じて改善されます。

歩行者検出とオクルージョン推定のためのバイボックス回帰

要約: オクルージョンは、実際のアプリケーションにおいて歩行者検出にとって大きな課題となります。この論文では、2 つの境界ボックスを回帰して歩行者の全身と可視部分をそれぞれ位置特定することにより、歩行者の検出とオクルージョン推定を同時に行う新しいアプローチを提案します。この目的のために、全身推定用と可視部分推定用の 2 つのブランチで構成されるディープ畳み込みニューラル ネットワーク (CNN) を学習します。2 つのブランチはトレーニング中に異なる方法で処理され、検出パフォーマンスを向上させるためにさらに融合できる相補的な出力を生成するように学習されます。全身推定ブランチは、肯定的な歩行者提案について全身領域を回帰するようにトレーニングされ、可視部分推定ブランチは、肯定的な歩行者提案と否定的な歩行者提案の両方について可視部分領域を回帰するようにトレーニングされます。ネガティブな歩行者提案の可視部分領域は、その中心まで強制的に縮小されます。さらに、ポジティブなトレーニング例を選択するための新しい基準を導入します。これは、大きく遮蔽された歩行者の検出に大きく貢献します。Caltech および CityPeoples データセットに対する、提案されたバイボックス回帰アプローチの有効性を検証します。実験結果は、私たちのアプローチが、遮蔽されていない歩行者と遮蔽された歩行者の両方、特に重度に遮蔽された歩行者の検出において有望なパフォーマンスを達成することを示しています。

画像-20220517105226782

革新:

身体の可視部分と不可視部分を予測するための検出器が提案されており、記事で提案されている可視部分と不可視部分を予測する出発点を目指して、トレーニング戦略と損失関数が提案されています。

方法:

  1. FasterRCNN 構造に基づいて、予測頭部部分に 2 つの分岐が追加され、1 つの分岐は目に見える部分の予測に使用され、もう 1 つの分岐は全身の予測に使用されます。
  2. トレーニング戦略を改善します。目に見える部分と目に見えない部分を予測する必要があるため、トレーニング中に 2 つの部分を別々にトレーニングします。
  3. このネットワーク構造に適応するための新しい損失関数が提案されています

混雑したシーンでの検出: 1 つの提案、複数の予測

要約: 混雑したシーンで高度に重なり合うインスタンスを検出することを目的として、シンプルかつ効果的な提案ベースのオブジェクト検出器を提案します私たちのアプローチの鍵は、以前の提案ベースのフレームワークにおける単一のインスタンスではなく、各提案で相関関係のあるインスタンスのセットを予測させることです。EMD 損失や Set NMS などの新しい技術を備えた当社の検出器は、高度に重なり合ったオブジェクトを検出するという困難を効果的に処理できます。FPN-Res50 ベースラインでは、当社の検出器は、付加機能なしで、困難な CrowdHuman データセットで 4.9% の AP ゲイン、CityPeoples データセットで 1.0% の MR-2 改善を得ることができます。さらに、COCO のような混雑の少ないデータセットでは、私たちのアプローチは依然として適度な改善を達成でき、提案された方法が混雑に対して堅牢であることを示唆しています。

画像-20220517110320810

革新:

従来のターゲット検出アルゴリズムでは、グリッドまたは提案されたフレームに対して 1 つのターゲットのみが予測されていましたが、2 つのターゲットのサイズが類似していて重なりが大きい場合、検出器は検出できないか、検出器は検出できても NMS を除外する必要がありました。したがって、[高度に重複するターゲットから開始] を選択すると、各位置で最大 k 個のターゲットを予測でき、それに対応して NMS と損失関数を改善できます。

方法:

  1. 各提案ボックスについて、{b_i} を指定します。b私は、集合G ( bi ) G(b_i)を予測します。G ( b私は)単一のターゲットの代わりに
  2. 複数のターゲット提案ボックスを予測するには、EMD 損失が使用されます
  3. 提案セット NMS は、同じグリッドによって予測された複数のターゲットに対して、それらを抑制しません

適応型 NMS: 群衆内の歩行者検出を改良する

要約: 群衆の中での歩行者の検出は非常に困難な問題です。この論文では、新しい非最大抑制 (NMS) アルゴリズムによってこの問題に対処し、検出器によって与えられる境界ボックスをより適切に調整します。貢献は 3 つあります。(1) ターゲット密度に応じて動的抑制しきい値をインスタンスに適用する適応 NMS を提案します。(2) 密度スコアを学習するための効率的なサブネットワークを設計します。これは、1 段階検出器と 2 段階検出器の両方に便利に組み込むことができます。(3) CityPeoples および CrowdHuman ベンチマークで最先端の結果を達成しました。

革新:

Soft-NMS に基づいて、soft-NMS は混雑した場所での歩行者検出シナリオに最適化されています。つまり、密集したシーンの歩行者はどこでも混雑しているわけではありません。また、混雑した場所では NMS しきい値をより大きく設定し、混雑した場所では NMS しきい値を大きく設定することが望まれます。人口の少ない場所は高くなります。

方法:

  1. 筆者はSoft-NMSに密度推定機能を追加し、密度の度合いに応じてNMSの閾値を設定し、密度が高い場合は閾値を高くし、密度が低い場合は通常の閾値とする。

ソフト nms しきい値メソッド
KaTeX 解析エラー: 不明な列アライメント: * 位置 28: … \begin{array}{*̲*lr**} s_i, \qu… where
N t N_tN設定された閾値を示します

適応型 NMS 閾値法
N m : = max ( N t , d M ) N_m:=max(N_t,d_M)Nメートル:=マックス( N _ _dM)

KaTeX 解析エラー: 不明な列配置: * 位置 27: …{\begin{array}{*̲*lr**}s_i, \qua…

ここでNM N_MNM設定された閾値を示します。これは共通閾値ですN t N_tNと密度推定値d M d_MdM以下の最大値を選択してください

  1. 密度推定は、次の図に示すように CNN によって生成されます。これは、2 段階アルゴリズムと 1 段階アルゴリズムを組み合わせた統合ターゲット検出アルゴリズムです。

画像-20220517164432362

代表地域別NMS:提案ペアリングによる混雑歩行者の検知に向けて

要約: 最近、歩行者の検出は大幅に進歩しましたが、混雑したシーンでの歩行者の検出は依然として困難です。歩行者間の重度のオクルージョンは、標準の非最大抑制 (NMS) に大きな課題を課します。交差点オーバーユニオン(IoU)のしきい値が比較的低いと、高度に重なり合った歩行者を見逃すことになり、しきい値が高いと誤検知が多く発生します。このようなジレンマを回避するために、この論文では、あまり隠されていない可視部分を活用し、多くの誤検知をもたらすことなく冗長なボックスを効果的に削除する、新しい代表領域 NMS (R2NMS) アプローチを提案します。可視部分を取得するために、歩行者の完全なボックスと可視ボックスを同時に予測する新しいペアボックス モデル (PBM) が提案されています。完全な可視ボックスはモデルのサンプル単位として機能するペアを構成し、検出パイプライン全体で 2 つのボックス間の強力な対応が保証されます。さらに、2 つのボックスの便利な機能統合により、完全な歩行者検出タスクと可視の歩行者検出タスクの両方でパフォーマンスが向上します。困難な CrowdHuman [20] および Citypersons [25] ベンチマークでの実験により、混雑した状況での歩行者検出に対する提案されたアプローチの有効性が十分に検証されています。

画像-20220517171223709

革新:

Bi-box 回帰の作業に基づいて、検出器は可視部分と不可視部分を出力し、R 2 NMSR^2NMSと名付けられた NMS メソッドが改良されました。R2NMS ___

方法:

記事の中で、可視領域内の BBOX 間の IOU は、 2 つの全身 BBOX が同じ歩行者に属しているかどうかを示すより良い基準であると述べられています。可視領域が非常に小さい場合、2 つの BBOX のサイズは非常に大きくなります。異なり、NMS は 2 つの BBOX を保持します。2 人が前後でブロックされ、全身 BBOX が NMS に使用される場合、2 つの BBOX はサイズが類似しており、IOU の重複が高くなります。 IOU が大きすぎる場合は除外されます。

一般的な NMS 方法ですが、NMS の入力が可視領域の BBOX であり、最終的に可視領域 BBOX に対応する全身 BBOX が出力結果として使用される点が異なります。

オクルージョン認識 R-CNN: 群衆の中の歩行者を検出

要約: 歩行者はしばしば集まって互いに遮蔽するため、混雑したシーンでの歩行者の検出は困難な問題です。本稿では、群集の中での検出精​​度を向上させるための新しいオクルージョン認識 R-CNN (OR-CNN) を提案します。具体的には、新しい集約損失を設計して、提案が対応するオブジェクトに近く、コンパクトに配置されるように強制します。一方、人体の事前構造情報と可視性予測をネットワークに統合してオクルージョンを処理するために、RoI プーリング層を置き換える新しいパーツ オクルージョン認識関心領域 (PORoI) プーリング ユニットを使用します。当社の検出器はエンドツーエンド方式でトレーニングされており、CityPeople、ETH、INRIA という 3 つの歩行者検出データセットで最先端の結果を達成し、最先端の歩行者検出データセットとペアで実行します。 -カリフォルニア工科大学の芸術。

画像-20220518101822351

画像-20220518101836377

革新:

  1. オクルージョン問題の解決において、身体の集約損失と複数の部分の可視性予測が提案されています。

方法:

  1. 人体を 5 つの部分に分割し、各部分の咬合を予測します。咬合比が 0.5 より大きい場合、GT は 1 に設定され、それ以外の場合は 0 に設定されます。
  2. パーツごとに個別の ROI プーリングを実行して、パーツの可視性を予測します
  3. 集約損失は、同じターゲットの提案へのアンカー割り当てを可能な限り近づけるために提案されます。

PSC-Net: 遮蔽された歩行者検出のための学習部分の空間的共起

要約: 特に重度のオクルージョン下での歩行者の検出は、現実世界の数多くのアプリケーションにとって、コンピュータ ビジョンにおける困難な問題です。この論文では、遮蔽された歩行者を検出するための PSC-Net と呼ばれる新しいアプローチを紹介します。提案された PSC-Net には、グラフ畳み込みネットワーク (GCN) を通じて、さまざまな歩行者の身体部位の内部および部位内の両方の共起情報を明示的に取得するように設計された専用モジュールが含まれています。パーツ間およびパーツ内の共起情報は両方とも、部分的なオクルージョンから重度のオクルージョンに至るまで、さまざまなレベルのオクルージョンを処理するための特徴表現の改善に貢献します。当社の PSC-Net は歩行者のトポロジ構造を利用しており、部分の空間的共起を学習するために部分ベースの注釈や追加の可視境界ボックス (VBB) 情報を必要としません。CityPeoples データセットと Caltech データセットという 2 つの困難なデータセットに対して包括的な実験が実行されます。提案された PSC-Net は、両方で最先端の検出パフォーマンスを実現します。CityPerosns テスト セットの重閉塞 (HO) セットでは、当社の PSC-Net は、同じバックボーン、入力スケールを使用した場合と使用しない場合の最先端技術 [34] と比較して、対数平均ミス率に関して 4.0% の絶対ゲインを獲得しました。追加の VBB 監視を使用します。さらに、PSC-Net は、Caltech (HO) テスト セットの対数平均ミス率に関して、最先端技術 [54] を 37.9 から 34.8 に改善しました。同じバックボーン、入力スケールで、追加の VBB 監視を使用しない場合、対数平均ミス率に関しては、最先端技術 [34] を上回って 0% です。さらに、PSC-Net は、Caltech (HO) テスト セットの対数平均ミス率に関して、最先端技術 [54] を 37.9 から 34.8 に改善しました。同じバックボーン、入力スケールで、追加の VBB 監視を使用しない場合、対数平均ミス率に関しては、最先端技術 [34] を上回って 0% です。さらに、PSC-Net は、Caltech (HO) テスト セットの対数平均ミス率に関して、最先端技術 [54] を 37.9 から 34.8 に改善しました。

画像-20220518103009918

ネットワーク構造

画像-20220518103119448

PSCモジュール

革新

  1. OARCNN に基づいて、GCN グラフ ニューラル ネットワークが追加され、5 つの部分間および内部での情報の共有が強化されます。

方法:

  1. グラフ ニューラル ネットワークを 5 つの部分でモデル化し、ピクセルを 1 つの部分内のグラフ ネットワークとしてモデル化し、5 つの大きな部分もグラフ ネットワーク構造になります

  2. 部品内共起 (部品内情報):

    1. 部位ごとにFm F_mFメートル内部的には、特徴マップ点に関する重み付き隣接行列は次のように取得されます。

    画像-20220518103937087

    1. 次に、GCN を使用して特徴の融合を行います。融合の式はF ^ m = σ ( A s F m W s ) \hat{F}_m=\sigma(A_s F_m W_s) です。F^メートル=s ( AsFメートルWs)
  3. パート間の共起 (パート間情報):

    1. 隣接行列は PSC モジュールに表示され、接続されていない場合は 0、接続されている場合はセルフ アテンション メカニズムを通じてエッジの重みが計算されます。
    2. 次に、GCN を使用して特徴融合を行います。融合公式はF ^ e = σ ( ( I − A p ) F e W p ) \hat{F}_e=\sigma((I-A_p)F_e W_p) です。F^=s ( (p) FWp)

反発力の損失: 群衆の中の歩行者の検出

現実のシナリオでは歩行者が集まって互いに遮蔽し合うことが多いため、群衆の中で個々の歩行者を検出することは依然として困難な問題です。この論文では、まず最先端の歩行者検知器がクラウド オクルージョンによってどのように悪影響を受けるかを実験によって調査し、クラウド オクルージョンの問題についての洞察を提供します。次に、群集シーン用に特別に設計された、反発損失と呼ばれる新しいバウンディング ボックス回帰損失を提案します。この損失は、ターゲットによる引力と他の周囲の物体による反発という 2 つの動機によって引き起こされます。反発項は、提案が周囲のオブジェクトに移動するのを防ぎ、より群衆に強いローカリゼーションにつながります。反発損失によってトレーニングされた当社の検出器は、閉塞の場合に大幅な改善が見られ、最先端の方法よりも優れた性能を発揮します。

画像-20220518105403956

革新:

  1. 歩行者の密集したシーンでは、歩行者の GT も密集して接近します. 予測フレームがターゲット A を予測すると、ターゲット B によっても偏ることになります. この場合、論文では、この問題を解決するために反発損失を提案します。 、トレーニング 反発損失を使用して、予測フレームを予測ターゲットに近づけ、周囲の実フレームから遠ざける場合

方法:

  1. 反発損失は以下の通りです

L = LA ttr + α LR ep GT + β LR ep BO x L = L_{Attr}+\alpha L_{RepGT} + \beta L_{RepBOx}L=Lああ_ _ _+αL _担当_ _ _+βL _レップボックス_ _ _ _

  1. LA ttr L_{Attr}Lああ_ _ _

LA ttr L_{Attr}Lああ_ _ _目的は、予測フレームとそのターゲット フレームを
LA に近づけることです。 ttr = ∑ P ∈ P + S 歯 L 1 ( BP , GA ttrp ) ∣ P + ∣ L_{Attr} = \cfrac{\sum_{P\in P_+ }スムーズ_{L1}(B^P,G_{属性}^p)}{|P_+|}Lああ_ _ _=∣P _+P P+滑らか_ _ _ _ _L1 _( BPGあっとぅー_ _ _p)

  1. LR ep GT L_{RepGT}L担当_ _ _

LR ep GT {L_{RepGT}}L担当_ _ _予測フレームとその対象フレームの周囲のフレームをできるだけ遠ざけることが目的であり、周囲のフレームは対象フレーム以外の最大IOUを持つフレームから選択されます GR ep P G_{Rep }^ PG担当_P
LR ep GT = ∑ P ∈ P + S moothln ( IOG ( BP , GR epp ) ) ∣ P + ∣ L_{RepGT} = \cfrac{\sum_{P\in P_+}Smooth_{ln}(IOG(B^ P,G_{代表者}^p))}{|P_+|}L担当_ _ _=∣P _+P P+滑らか_ _ _ _ _l n( I O G ( BPG担当_p) )
このうち IOG は予測フレームと周囲フレームの交点であり、最大周囲フレーム面積 ( B ∩ G ) area ( G ) \frac{Intersection}{最大周囲フレーム}\quad \frac{area(B \cap G)}{エリア(G)}最大周囲フレーム交差点面積( G ) _ _ _面積( B G ) _ _ _割合

  1. LR ep ボックス L_{RepBox}Lリプボックス_ _ _ _
    LR ep Box = ∑ i ≠ j S moothln ( IOU ( BP i , BP j ) ) ∑ i ≠ j 1 [ IOU ( BP i , BP j ) > 0 ] + ε L_{RepBox} = \cfrac{\sum_ ; {i \neq j } Smooth_{ln}(IOU(B^{P_i}, B^{P_j}))}{\sum_{i\neq j} \mathbb 1[IOU(B^{P_i}, B ^ {P_j}) > 0] + \valuepsilon}Lリプボックス_ _ _ _== j1 [ I O U ( BP私はBPj)>0 ]+e= j滑らか_ _ _ _ _l n( I O U ( BP私はBPj) )

LR ep ボックス L_{RepBox}Lリプボックス_ _ _ _目的は、予測ボックスと予測ボックスの間の距離をできるだけ遠くにすることです。

密集した混雑時の歩行者の頭部の追跡

混雑したビデオ シーケンスの中で人間を追跡することは、視覚的なシーンを理解するための重要な要素です。群集密度の増加により人間の視認性が低下し、既存の歩行者追跡装置のより高い群集密度に対する拡張性が制限されます。そのため、私たちは、2,276,838 を超える頭部と、さまざまなシーンで注釈が付けられた 5,230 トラックを含む 11,463 フレームの 9 シーケンスで構成される Crowd of Heads Dataset (CroHD) を使用して頭部追跡を活性化することを提案します。評価のために、画像座標空間の最長区間の一意のアイデンティティを保存するアルゴリズムの有効性を測定するための新しい指標 IDEucl を提案しました。これにより、歩行者の群衆の動きと追跡アルゴリズムのパフォーマンスの間の対応関係が構築されます。さらに、混雑したシーンでの小さな頭部検出のために設計された新しい頭部検出器 HeadHunter も提案します。粒子フィルターと頭部追跡用のカラー ヒストグラム ベースの再識別モジュールを使用して HeadHunter を拡張します。これを強力なベースラインとして確立するために、当社のトラッカーを CroHD 上の既存の最先端の歩行者トラッカーと比較し、特にアイデンティティを保持する追跡メトリクスにおいて優れていることを実証します。軽量の頭部検出器と身元保持に効果的なトラッカーにより、私たちの貢献は密集した群衆における歩行者の追跡の進歩に役立つと信じています。データセット、コード、モデルは https://project.inria.fr/crowdscience/project/dense-crowd-head-tracking/ で公開しています。私たちは、CroHD 上の既存の最先端の歩行者トラッカーと当社のトラッカーを比較し、特にアイデンティティを保持する追跡メトリクスにおいて優れていることを実証しました。軽量の頭部検出器と身元保持に効果的なトラッカーにより、私たちの貢献は密集した群衆における歩行者の追跡の進歩に役立つと信じています。データセット、コード、モデルは https://project.inria.fr/crowdscience/project/dense-crowd-head-tracking/ で公開しています。私たちは、CroHD 上の既存の最先端の歩行者トラッカーと当社のトラッカーを比較し、特にアイデンティティを保持する追跡メトリクスにおいて優れていることを実証しました。軽量の頭部検出器と身元保持に効果的なトラッカーにより、私たちの貢献は密集した群衆における歩行者の追跡の進歩に役立つと信じています。データセット、コード、モデルは https://project.inria.fr/crowdscience/project/dense-crowd-head-tracking/ で公開しています。

画像-20220518113624649

革新:

  1. 頭部検出器を作りました
  2. パーティクルフィルターに基づいて構築されたヘッドトラッカー
  3. 軌跡一致率を用いた追跡評価指標を提案する

方法:

  1. ネットワーク構造は図に示されています。ResNet50 の後に FPN が続き、FPN 機能層の各層は CPM モジュールに接続され、その後転置畳み込みにより解像度が向上し、RPN に接続されて予測結果が出力されます。
  2. トラッキングはパーティクルフィルターを採用し、基本的にTracktor方式に基づいて、前のフレームの位置を微調整します

おすすめ

転載: blog.csdn.net/weixin_43913124/article/details/124849137