ターゲット検出アルゴリズムのパフォーマンスに対するネガティブ サンプル/ポジティブ サンプルの影響

最近、歩行者検出タスクを実行したときに、データをクリーンアップした後、空のラベルのサンプルがいくつかあったため、これらの空のラベルのサンプルがモデルのパフォーマンスにどのような影響を与えるかを検討したいと思いました。

1. 概念の定義

ネガティブ サンプル: ターゲット検出タスクでは、データ セット内の一部の画像にはターゲットがありません。これらの画像は通常、ネガティブ サンプルと呼ばれます。

ポジティブサンプル: ターゲットを含む画像を指します。

背景: 背景とは、画像全体のうちターゲットを含まない領域を指し、ネガ サンプルとは異なります。ネガティブ サンプルは画像全体のものであり、背景は境界ボックスのものです。

2. 思考

1. ターゲット検出タスクでは、データ セット内の一部の画像にターゲットが含まれていません (ネガティブ サンプルが多数あります)。除去するかしないかはモデルのパフォーマンスにどのような影響を及ぼしますか?

オブジェクト検出タスクでは、オブジェクトのない画像を削除すると、モデルのパフォーマンスに影響を与える可能性があります。具体的には、データセット内にターゲットのない画像が多数あり、これらの画像が削除されない場合、モデルが誤った特徴を学習し、ターゲット オブジェクトを正しく識別できない可能性があります。たとえば、ImageNet には多数のネガティブ サンプルがあり、一部のターゲットにはラベル付けエラーがありますが、大規模なモデルにはエラーを修正する機能があり、多くの学習を通じてこの問題を補うことができます。 : ImageNet ラベル エラーを削除すると、モデルのランキングが大幅に変わります

一方、ターゲットのないこれらの画像が削除されると、データセットのサイズが削減される可能性があり、モデルの汎化能力に影響を与える可能性があります。モデルの汎化能力とは、新しい未知のデータに遭遇したときにオブジェクトを正しく検出するモデルの能力を指します。データセットのサイズが小さくなると、モデルは十分な特徴を学習できなくなり、モデルの汎化能力が低下する可能性があります。

したがって、トレードオフと選択はケースバイケースで行う必要があります。データ セット内にオブジェクトのない画像が大部分を占める場合は、これらの画像を削除することを検討できます。オブジェクトのない画像の割合が比較的小さい場合は、これらの画像をデータセット内に保持し、他の方法 (データ拡張など) を使用してモデルの汎化能力を向上させることができます。

問題は、除去する必要があるおおよその割合はどれくらいかということです。一般に、データ セット全体に占める割合が小さい負のサンプルは保持できます。データ セット全体に占める割合が大きい負のサンプルは削除する必要があります。ただし、削除するとデータ サイズが減少するため、完全な削除ではありません。最適な解決策は、陽性サンプルと陰性サンプルのバランスを取る方法を使用することです。

詳細な分析は次のとおりです。

(1) ターゲットのない画像の割合が許容されるかどうかは、ケースバイケースで判断する必要があります。一般に、ターゲットのない画像の割合が比較的小さいということは、通常、データ セット全体におけるターゲットのない画像の割合が 10% 未満であることを意味します。この比率は厳密なルールではありませんが、ケースバイケースで検討する必要があります。データセットのサイズが小さい場合、またはターゲット オブジェクトの識別が難しい場合は、ターゲットのない画像の割合が高くなる可能性があります。

また、ターゲットのない画像の割合が少ない場合でも、それらの画像がモデルに与える影響に注意する必要があります。ターゲットが存在しない写真の中に、ターゲット オブジェクトに似た背景やシーンがある場合でも、これらの写真から何らかの有用な情報が得られる可能性があります。この場合、これらの画像を保持すると、モデルの一般化能力を向上させるのに役立つ可能性があります。

一般に、ターゲットのない画像を保持するかどうかを決定するには、データセットのサイズ、対象オブジェクトの難易度、ターゲットのない画像の類似性などの要素を総合的に考慮する必要があります。最終的な決定は、実験と実践の結果に基づいて行う必要があります。

(2) モデルのアプリケーション シナリオがテスト セットのシナリオと重複しており、テスト セット内のイメージの数が十分に大きい場合は、ターゲットなしでこれらのイメージを保持することを検討できます。この利点は、現実のシナリオにおけるモデルのパフォーマンスをより適切に評価できることです。ただし、テスト セットにオブジェクトのない画像が多すぎると、モデルのパフォーマンス評価に偏りが生じる可能性があります。これは、モデルはオブジェクトのある画像を認識することのみを学習し、オブジェクトのない画像を認識する方法を学習しないためです。データセット内にターゲットのない画像が多すぎると、モデルがターゲット オブジェクトにオーバーフィットして、モデルのパフォーマンスに影響を与える可能性があります。この場合、モデルの過剰適合のリスクを軽減するために、ターゲットのない画像の一部を削除することを検討できます。

一方、モデルの適用シナリオにテスト セットにターゲットが存在しない状況が含まれていない場合、またはテスト セットにターゲットのない画像の数が少なすぎる場合は、これらの画像を除外することもできます。 。これにより、モデルの学習の困難さが軽減され、モデルがターゲット オブジェクトの識別にさらに集中できるようになります。ただし、モデルは物体のない画像を認識する方法を学習しないため、これらの画像を除外すると評価結果に偏りが生じる可能性があることに注意することが重要です。

要約すると、テスト セットからターゲットのない画像を削除するかどうかは、特定のシナリオとニーズに基づいて決定する必要があり、決定を下すにはさまざまな要素を比較検討する必要があります。

2. テストセットのネガティブなサンプルを削除すると、評価指数が悪化します。

理論的分析:ターゲット検出タスクでは、テスト セットからターゲットのないサンプルを除外した後、テスト指標が悪化します。これは、これらのサンプルを除外した後のテスト セットの分布が実際のシーンの分布と異なるためである可能性があります。これはモデルの一般化につながり、化学的性能が低下します。

具体的には、テスト セット内にターゲットのないサンプルが多すぎて、実際のシーンの写真にもターゲットのないケースが多数ある場合、テスト セット内のターゲットのないサンプルを削除すると、テスト セットの分布が低下します。実際のシーンの分布と一致しないため、実際のシナリオではモデルのパフォーマンスが低下します。

さらに、テスト セットにターゲットがないサンプルを除外すると、テスト セット上のモデルのパフォーマンスに偏りが生じる可能性があります。モデルはトレーニング プロセス中にターゲットのない状況に対処する方法を学習しないため、テスト セット内のターゲットのないサンプルが除外されると、これらの状況でのモデルのパフォーマンスを正しく評価できなくなります。

したがって、テスト セット内にターゲットのないサンプルが多すぎる場合は、これらのサンプルを削除するのではなく、このような状況でモデルのパフォーマンスの問題を解決する方法を検討する必要があります。たとえば、モデルがこれらの状況の特性をよりよく学習できるように、データ拡張手法を使用してターゲットのないサンプルを追加することを検討できます。

指標分析:評価指標を整理した結果、ネガティブサンプルの除去により総撮影枚数が変化し、FPPI指標など総撮影枚数に関連する一部の計算指標に影響を与えることが分かりました。

3. 陽性サンプルと陰性サンプルのバランスをとる方法 

(1) リサンプリング: 少数派クラスのサンプルを増やすか、多数派クラスのサンプルを減らすことによって、陽性サンプルと陰性サンプルの数のバランスをとります。具体的には、アンダーサンプリングやオーバーサンプリングなどの手法を用いることができる。

(2) クラスの重み付け: モデルがトレーニング中にまれなカテゴリの学習により注意を払うように、異なるカテゴリのサンプルに異なる重みを割り当てます。具体的には、サンプル重み付け(Sample Weighting)や損失関数重み付け(Loss Weighting)などの手法を用いることができる。

(3) データ拡張: トレーニング セット内のサンプルに対してさまざまな変換 (回転、反転、スケーリング、トリミングなど) を実行してサンプル セットを拡張し、正のサンプルと負のサンプルの数とカテゴリの分布のバランスをとります。具体的には、ランダムスケーリング、ランダムクロッピング、ランダム回転などの手法を使用できます。

(4) 敵対的生成ネットワーク (GAN): いくつかの仮想少数クラスのサンプルを生成することにより、モデルは少数クラスの特性をより適切に学習できます。具体的には、Conditional GAN などの手法を使用できます。

(5) アルゴリズム レベルの調整: Faster R-CNN などの一部のアルゴリズムでは、RPN ネットワークのしきい値や nms のしきい値などのハイパーパラメータを調整して、正のサンプルと負のサンプルのバランスを調整できます。

メソッドの角度に注目してください。ここでの表示は完全ではありません。最初に簡単に見てみることができます (その後の更新は継続的に更新されます)。

Oksuzらは、ターゲット検出における不均衡問題をレビュー記事で詳細に紹介し、それを空間的不均衡、ターゲットの不均衡、カテゴリの不均衡、スケールの不均衡の4つのカテゴリに分類しました。空間的不均衡とオブジェクトの不均衡は主に境界ボックスと複数の損失関数の空間特性に焦点を当てますが、クラスの不均衡はトレーニング データ内の異なるクラス間の重大な不平等によって引き起こされます。Park, K.、Kim, S.、Sohn, K.: 確率的融合ネットワークに基づく統合マルチスペクトル歩行者検出パターン認識 80、143{155 (2018)

RetinaNet は、標準のクロスエントロピー損失を調整して、多数の単純な負のサンプルで検出器が過負荷になるのを避けることで、クラスの不均衡の問題に対処します。

AP-Loss と DR Loss は、カテゴリの不均衡の問題を解決するための損失関数を設計するためのアイデアも提供します。Chen, K.、Li, J.、Lin, W.、See, J.、Wang, J.、Duan, L.、Chen, Z.、He, C.、Zou, J.:正確な 1 段階を目指してap-loss による物体検出.In: Proceedings of the IEEE Con​​ference on Computer Vision and Pattern Recognition. pp. 5119{5127 (2019)

スケールの不均衡は、特定のサイズのオブジェクト境界ボックスがネットワーク内で過剰に表現される場合に発生します。たとえば、SSD は、さまざまなレイヤーの特徴から独立した予測を行います。レイヤーごとに情報抽象化のレベルが異なるため、バックボーンのさまざまなレイヤーからの直接の予測は信頼できません。FPN は、さまざまなスケールのフィーチャからバランスの取れたフィーチャの混合を取得するために、追加のトップダウン パスを利用します。FPN は、ピラミッド フィーチャ マップを統合および改良することでさらに強化できます。

さまざまなレイヤーのバランスをとることに加えて、さまざまなモダリティの機能を 2 ストリーム ネットワークでバランスのとれた方法で統合する必要があります。言い換えれば、バランスのとれたモダリティに最適化されたトレーニングのために、さまざまなモダリティの機能が完全に統合され、表現される必要があります。

個人的なつたない理解ですが、コメント欄でみんなで議論したり交流したりできます。

おすすめ

転載: blog.csdn.net/qq_37424778/article/details/129802859