バクル~

それも上司からのことです。自分で勉強してください。私が迷っていて怠けていても責めないでください。

BACL は、困難な LVIS ベンチマークで新たな最先端を達成し、標準の Faster R-CNN を上回り、全体で 5.8% の AP 改善、テール カテゴリで 16.1% の AP 改善、共通カテゴリで 7.0% の AP 改善を達成しました。

論文リンク: https://arxiv.org/pdf/2308.02213.pdf

コードリンク: https://github.com/Tianhao-Qi/BACL

TL;DR : この論文では、ロングテール オブジェクト検出問題に対する新しい解決策である BACL フレームワークを提案します。フォアグラウンド分類バランス損失と動的特徴幻覚モジュールを使用すると、BACL はロングテール分布の下での分類バイアスの問題を効果的に解決し、検出パフォーマンスを大幅に向上させることができます。この研究には実用的な意義があり、現実世界のロングテール分布における物体検出への応用の可能性があります。

問題点: 従来の検出器は、ほとんどのヘッド クラスを優先する傾向があるため、ロングテール データ(クラスの不均衡)を処理するときにパフォーマンスが低下することが知られています。この論文では、この学習バイアスは次の 2 つの要因から生じていると提案しています。

  1. フォアグラウンド クラスの分散における不均衡な競合

  2. テールカテゴリーサンプルの多様性の欠如

LVIS には、頭部とロングテール (自転車と三輪車) の両方に視覚的に類似したカテゴリが含まれています。 

図からわかるように、従来の方法では、識別能力が限られているため、三輪車を自転車として誤って分類することがよくありました。一方、このホワイトペーパーで提案されている BACL は、これらの交絡カテゴリーに焦点を当て、損失定式化への寄与を適応的に高めます。同時に、BACL は複数の特徴を合成してテール カテゴリの表現を強化できるため、検出器がすべてのカテゴリにわたってよりバランスの取れた状態を達成できるようになります。

解決策: この目的のために、著者は統一フレームワークを導入しBalanced Classification, BACL、分類器の学習ステータスをリアルタイムで監視するための長期指標と短期指標のペアを導入し、動的手法を使用してカテゴリ分布とカテゴリの差を改善します。サンプルの多様性を調整し、バイアス キャリブレーションを実行します。具体的には、次の 2 つのコンポーネントが提案されています。

  1. 前景分類のバランス損失:Foreground Classification Balance Loss, FCBL区別できないクラスに焦点を当て、ペアごとのクラス認識マージンと自動調整された重み付け項によってヘッド クラスの優位性を軽減

  2. 動的特徴幻覚モジュール:Dynamic Feature Hallucination module, FHM幻覚サンプルを合成することで特徴空間内のテール カテゴリの表現を拡張し、それによって追加のデータ変更を導入してテール カテゴリの特徴空間表現を拡張します。

最後に、BACLこれら 2 つのコンポーネントの相乗効果によって分類バイアスが除去され、クラス分布の違いによって生じる不平等が修正され、サンプルの多様性が強化されます。

実験結果:BACL挑戦的なLVISベンチマークで新たな最先端を達成し、Faster R-CNN全体で5.8 % 、テール カテゴリで 16.1% AP、共通カテゴリで 7.0% AP基準APを上回りました。

方法

この論文で提案された方法は、ロングテール物体検出問題の解決策の一部です。ロングテール分布は、少数派のクラスがサンプルの大部分を占め、多数派のクラスが少数のサンプルのみを占めることを意味します。この分布は、深層学習モデルのトレーニング、特に物体検出タスクのテール (少数派) カテゴリにとって大きな課題です。上で述べたように、この論文はロングテール物体検出のための新しいフレームワークを提案します。Sigmoidまず、表現学習段階では、分類器や拡張機能などの一連の革新的な手法を通じて、Copy-Pasteより堅牢な特徴表現が取得されます。次に、分類器の学習段階で、モデルが末尾カテゴリの検出により注意を払うように、長短指標ペアを導入することによって分類バイアスが調整されます。この微妙なアプローチは、ロングテール分布におけるテール カテゴリの検出パフォーマンスの向上に役立ち、現実世界のシナリオにおけるロングテール分布の問題に対する有益な解決策となります。以下では、著者はバランスの取れた分類フレームワークの中心的な内容を紹介します。

学習段階を示します

  • Sigmoid-based Classifier with an Objectness Branch: この論文では主に にSigmoid基づく分類子とターゲット ブランチを採用し、分布を調整するためのサンプル バランシング手法は使用しません。

  • Leverage the Simple Copy-Paste Augmentation: 従来のマルチスケール トレーニング戦略をCopy-Paste拡張戦略に置き換えることにより、より困難なトレーニング サンプルを作成し、その結果、より優れた特徴表現が得られます。

  • Other Feasible Attempts: 著者らは広範な実験を通じて、重み減衰係数を減らすと表現学習がわずかに改善されることを観察しました。さらに、NMS 操作後に保持されるプロポーザルの数を 1000 から 2000 に増やすことにより、フォアグラウンド プロポーザルの数が増加し、RoI 特徴抽出器の収束に役立ちます。

長期・短期インジケーターのペア 分類器の学習段階での分類バイアスの調整を支援するために、補完的な長期インジケーターと短期インジケーターのペアが導入されます。これらのメトリクスは、分類器の学習状態、特にさまざまな前景カテゴリの傾向と各カテゴリの分類の正確さを反映するのに役立ちます。

  • 長期指標: 静的統計、一次動的統計、二次動的統計を含み、前景カテゴリ間の優勢性と分類傾向を把握できます。

  • 短期メトリクス: 特に困難なカテゴリに焦点を当てて、分類結果の正確さを評価するために使用されます。

これらの長期指標と短期指標が合わせてこの方法の基礎を形成し、1 つの側面のみに焦点を当てた以前の研究の欠点を克服します。以下では、導入セクションで提案された 2 つの方法に焦点を当てます。

フォアグラウンド分類バランス損失FCBL は、ロングテール配信シナリオにおける複数のフォアグラウンド クラス間の遍在する不平等な競争に対処するために構築されています。この損失関数は前景の提案にのみ適用され、背景の提案の損失は別の式で計算されます。まず定義を見てください。 この自動的に調整される重み項の導入は、適切に分類されたクラスを無視しながら、混乱を招くクラスを優先することを目的としています。一言で言えば、FCBL は、カテゴリーを意識した適応マージンと自動的に調整される重み項を導入することにより、異なるフォアグラウンド カテゴリ間の不平等な競争の問題に効果的に対処します。適応マージンは、分類器がクラスの違いを認識し、抑制勾配の大きさを動的に調整するのに役立ちます。自動的に調整される重み項は、混乱したカテゴリと適切に分類されたカテゴリを区別するのに役立ちます。これら 2 つのコンポーネントを組み合わせることで、FCBL はロングテール分布シナリオにおけるフォアグラウンド カテゴリ間の不平等な競争を改善し、分類器の汎化能力を向上させることができます。

機能イリュージョンモジュール

FHM は、ロングテール カテゴリにおける過小評価に対処することを目指しています。FCBL は前景カテゴリ間の不平等な競争の問題を解決できますが、後景カテゴリのサンプル不足の問題は解決できません。たとえば、一部のカテゴリにはトレーニング サンプルが 1 つしかない場合があり、その場合、そのカテゴリの分類器の識別能力が大幅に制限されます。この問題に対処するために、FHM は幻覚特徴を合成することによって特徴空間の表現を強化し、特にテール カテゴリに対してそれによってデータの多様性を強化します。FHM の主要なコンポーネントは次のとおりです。

地域提案の生成

FHM は、まず各カテゴリの特徴分布をリアルタイムで取得し、次に長期的なメトリクスに基づいて、選択したカテゴリのトレーニング特徴を生成します。具体的には、学習不可能な境界ボックス ジェネレーターを使用して、グラウンド トゥルース境界ボックスと実質的に重複する領域提案を生成します。RPN とは異なり、バウンディング ボックス ジェネレーターは座標操作を使用して、画像内のグラウンド トゥルース バウンディング ボックスをポジティブな提案にランダムに変換します。

オンライン機能の配布

次に、RoIAlign レイヤーと RoI 特徴抽出器がこれらの提案を RoI 特徴にエンコードして、プロトタイプや差異を含むオンライン特徴分布を収集します。FHM は、 に現れる各クラスの特徴の平均と分散を計算し、指数移動平均関数を使用して対応するプロトタイプと分散を変更します。全体として、FHM 過小表現の問題は、特に末尾カテゴリのデータ多様性を動的に強化する新しい幻覚特徴を導入することによって軽減されます。FHM は、各カテゴリの特徴分布をキャプチャし、長期メトリクスのガイダンスに基づいて幻覚特徴を合成することにより、特徴空間における末尾カテゴリの表現を強化します。この直感的で効果的な方法では、サンプル数が増加するだけでなく、サンプル間の変動も増加するため、末尾カテゴリの分類パフォーマンスがさらに向上します。

アルゴリズムの擬似コード実験 の簡単な分析の下で。BACL フレームワークは、LVIS データセットの 2 つのバージョン (LVIS v0.5 および LVIS v1.0) で適切に動作し、現在の最先端の方法よりも大きな利点を実現します。特にバックボーンを使用した場合ResNet-50-FPNResNet-101-FPN総合BACLAPで優れたスコアを達成しました。ワオソフト アイオット http://143ai.com

  • レア カテゴリの検出: BACL はレア カテゴリの検出に特に優れており、エンドツーエンドのトレーニング方法を上回るだけでなく、分離トレーニング方法で 20% 以上の AP を達成します。

  • 共通カテゴリの検出: BACL は、まれなカテゴリで優れたパフォーマンスを発揮するだけでなく、一般的なカテゴリでも大幅な改善を達成します。

  • さまざまなバックボーン構造への適応性: 小型の ResNet-50-FPN バックボーンであっても、大型の ResNet-101-FPN バックボーンであっても、BACL は優れたパフォーマンスを示し、その広範な適用性と柔軟性を証明します。

実用化の可能性: BACL の利点は実験設定に限定されず、実際のシナリオでも高い実用性を示し、従来のクロスエントロピー損失と同等のパフォーマンスを発揮します。

要約すると、BACL はサンプルの多様性を強化することで、希少なクラスと一般的なクラスの両方の検出において大幅な改善を達成し、強力で柔軟で実用的な物体検出方法としての可能性を示しています。

下流のタスクに適用されるパフォーマンスも悪くありません。

要約する

今日は、ロングテール ターゲット検出タスク用の統合フレームワークである BACL を紹介しました。BACL は、分割統治戦略を採用することで、前景カテゴリ間の不平等な競争を緩和するために FCBL を導入し、後景カテゴリの多様性を強化するために FHM を導入しています。広範な実験により、BACL がさまざまなバックボーン ネットワークやアーキテクチャの下で、よりバランスのとれた正確な分類ブランチを検出器に提供できることが示されています。

ただし、BACL は分離されたトレーニング パイプラインに基づいて設計されているため、分類器の学習段階での特徴抽出器の改善が制限されます。将来の研究では、この欠点を修正し、より高度なメトリクスと手法を統合してサンプルの分散を増やし、さらなる改善を図る可能性があります。

さらに、BACL は一般的なカテゴリでは若干劣る場合がありますが、まれなカテゴリでは良好なパフォーマンスを発揮し、その広範な適応性と柔軟性を反映して、さまざまなサイズのバックボーン ネットワークで優れた結果を達成します。

全体として、BACL は革新的なソリューションとして、ロングテール分布におけるクラス表現のバランス、サンプルの多様性の強化、検出精度の向上において目覚ましい進歩を遂げました。提案された BACL は、タスク固有の変更を加えた後、他のロングテール認識タスクにも適用できると考えられます。

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/132288001