1. 咬合の種類
- クラス内オクルージョン。オブジェクトは同じクラスのオブジェクトによって遮られます。
- クラス間オクルージョン。オブジェクトが他のクラスのオブジェクトによってオクルージョンされます。
2、解決策
データの注釈
遮られたオブジェクトの GT バウンディング ボックスを微調整する
データ増強
- カットアウト: トレーニング中に、オクルージョンに対処するモデルの能力を向上させるために、ランダムなマスク ターゲットが使用されます。
- モザイク: 複数の画像を一定の比率に従って融合するもので、遮蔽されたシーンをシミュレートすることに相当します。
ネットワーク構造
- アテンション機構などを追加し、より特徴的なモデルを抽出できるようにする
- 歩行者の検出: 歩行者は 5 つの独立したエリアに分割され、これら 5 つのローカル エリアの可視性またはオクルージョンの程度を表す 0 から 1 の間のオクルージョン スコアがこれらの 5 つのローカル エリアに対して予測されます。これら 5 つの可視性スコアを使用して、対応するエリアのフィーチャを乗算し、追加して最終的なフィーチャを取得します (Zhang, S.、Wen, L.、Bian, X.、Lei, Z.、& Li, SZ (2018))。オクルージョン認識 R-CNN: 群衆の中の歩行者を検出)
ポジティブサンプルとネガティブサンプルのマッチングメカニズム
照合基準を IOU から GIOU、DIOU、CIOU などに変更します。
損失関数
RepLoss(Wang, X.、Xiao, T.、Jiang, Y.、Shao, S.、Sun, J.、Shen, C. (2017). 反発力損失:混雑時の歩行者検知)
損失関数は 2 つの部分で構成され、予測フレームが一致する GT フレーム (T) に近いことが必要ですが、予測フレームが他の GT フレームから遠く離れていることも必要です (B)。 NMS に対する検出器の感度が低下します。
全体の式は次のとおりです。最初の部分は引力損失、2 番目の部分は反発損失です (予測フレームとその他の GT フレームの損失、および予測フレームとその他のフレームの損失に分けることもできます)予測フレーム)
損失の最初の部分の式は次のとおりです。
機能: P と一致する GT フレームを互いに近づけます。
の、
: 少なくとも 1 つの GT を持つ IOU が 0.5 以上である、
: P の最大 IOU 値を持つ GT ボックス
損失の 2 番目の部分の式は次のとおりです。
RepGT
機能: P と P の間の IOU 値が 2 番目に大きい GT ボックスから P を遠ざけてください。
の、
: P と一致する GT に加えて、P と P の間で最大の IOU を持つ GT フレーム (つまり、P と P の間の IOU 値が 2 番目に大きい)
レップボックス
機能:異なる GT に一致する予測フレームを互いに遠く離れて (反発し)、NMS に対する検出器の感度を低下させます。
一致する GT ボックスのシリアル番号に応じて、GT ボックスの数を示す、などの異なるサブセットに分割されます。
【参考記事】
「ブロックしないで、Cポジションデビューしたいんです!」深層学習のターゲット検出におけるオクルージョン問題を語る - 知識