新しいターゲット検出フレームワーク | 改善されたワンショットに基づくターゲット検出

著者: Edison_G

物体検出の現在の進歩は、優れたパフォーマンスを得るために大規模なデータセットに依存しています。ただし、多くのシナリオでは常に十分なサンプルがあるとは限らず、現在の深層学習ベースの物体検出モデルのパフォーマンス低下につながります。

1. 概要

上記の問題を克服するために、一部の研究者は新しいワンショット条件付き検出フレームワーク (OSCD) を提案しました。サポート画像とターゲット オブジェクトを含むクエリ画像を入力として指定すると、OSCD はクエリ画像内のターゲット オブジェクト カテゴリに属する​​すべてのオブジェクトを検出できます。具体的には、OSCD はシャム ネットワークと 2 段階の検出モデルで構成されます。2 段階検出の各段階では、効果的な条件付き検出を行うために、特徴融合モジュールと学習可能メトリック モジュールがそれぞれ設計されています。一度トレーニングすると、OSCD は、それ以上のトレーニングを行わずに、可視クラスと未可視クラスの両方のオブジェクトを検出できます。これには、クラス認識、未可視クラスのトレーニング不要、壊滅的な忘却がないなどの利点もあります。実験では、この方法が Fashion-MNIST および Pascal VOC ベースのデータセットで最先端のパフォーマンスを達成することが示されています。

2. 背景

以下に示すように。[SK Biswas、P. Milanfar、ラプラシアン オブジェクトと高速行列コサイン類似性によるワン ショット検出、IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI)] で提案されている従来のワンショット検出フレームワーク、オンショット検出問題スライディング ウィンドウ スキームを使用した古典的な検出問題として扱われ、最適なウィンドウが選択されます。特に、古典的な分類器ではなく計量学習モジュールを使用して、サポート画像と新たに関心のあるクラスのクエリ画像からのラベル付きウィンドウ間の類似性を計算します。別の方法は図 (b) に示すとおりで、LSTD フレームワークは、新しい対象クラスからサポート サンプルを選択して、領域候補ネットワーク (RPN、従来のスライディング ウィンドウ スキームに代わる) と深層学習に基づく検出器を最適化します。検出ストリームは、限られた数のサポート サンプルで新しいクラスを適応的に識別できます。

2 つの方法の基本的な類似性により、サポート画像の新しいクラスを条件として扱うことにより、両方の方法を条件付きオブジェクト検出モデルと同等にできることが示されています。

そこで研究者らは、この検出問題を「ワンショット条件付きターゲット検出」というより適切な名前にすることを提案しました。そして、上記の (c) に示すように、学習可能なメトリクスと 2 段階の検出モデルに基づいて、一般的なワンショットの条件付き目標検出フレームワーク ( OSCD ) を設計しました。

条件付きオブジェクト検出とオブジェクト検出にはいくつかの違いがあります。

まず、彼らは異なる目標を持っています。条件付きオブジェクト検出の目的は、テスト イメージ内の特定の条件付きイメージに類似したオブジェクトを検出することです。したがって、条件付きオブジェクト検出では、目に見えないカテゴリに属する​​オブジェクトを検出できます。ターゲット検出は、トレーニング カテゴリに属する​​すべてのオブジェクトを検出することであり、目に見えないオブジェクトは検出できません。第 2 に、2 つの方法はトレーニング方法が異なります。条件付きオブジェクト検出は、サポート画像とクエリ画像のペアでトレーニングされます。ターゲット検出は標準的な教師あり学習であり、十分なトレーニング サンプルがあります。第三に、2 つの方法には異なる評価基準があり、条件付きターゲット検出モデルはさまざまなサポート画像とクエリ画像のペアで評価されますが、ターゲット検出モデルは評価が実行されます。多くの検出画像で。

3. 新しい枠組み

ワンショットの条件付きオブジェクト検出の設定では、データは通常、サポート イメージとクエリ イメージで構成されるペアで編成されます。通常、サポート画像には主要なターゲット オブジェクト (人間または馬) が含まれており、モデルはクエリ画像内のターゲット オブジェクト カテゴリに属する​​オブジェクトを検出できる必要があります。

物体検出の場合、対象のクラスに十分なサンプルが存在しないため、一般的な教師あり学習手法のパフォーマンスが低下すると想定されます。また、将来のタスクにどのカテゴリが存在するかがわからない可能性がありますさらに深刻な課題は、「ターゲット」が任意の関心のあるパターンになる可能性があることです。これらすべての問題により、従来の方法では物体検出タスクが非常に困難になります。したがって、上記の問題を解決するために、ワンショット条件付き物体検出方法が提案される。

以下に示すように。ワンショット条件付き検出の目的は、クエリ画像 (ターゲット オブジェクトの単一のサポート画像) 内の特定の条件に基づいてオブジェクトを検出することです。ワンショット条件付き検出の場合、強い事前分布を取得するために、クエリをサポートする可視クラスの多くの画像ペアでモデルがトレーニングされます。トレーニングが完了すると、モデルは単一のサポート イメージを使用して、目に見えないクラスからターゲット カテゴリに属する​​すべてのオブジェクトを検出できます。

Universal Object Detector (Faster R-CNN) と提案された OSCD。高速な R-CNN は、目に見えるクラス (人間) のオブジェクトを見つけて認識できますが、目に見えないクラス (馬) のオブジェクトを分類することはできません。対照的に、提案された OSCD は、条件付きオブジェクト検出のために C-RPN と C-Detector を実装し、サポートするクラスのオブジェクトにさらに注意を払い、他のクラスの無関係なオブジェクトを除外します。

上の(a) C-RPN: S 操作は、グローバル平均と最大プーリング サポート フィーチャを接続し、畳み込み層を通じて重要なサポート フィーチャを生成します。次に、T は、タイル化されたサポート フィーチャが同じになるように、強調表示されたサポート フィーチャをタイル化します。クエリ フィーチャとして F がタイル サポート フィーチャをクエリ フィーチャに接続できるようにするためのスペースのサイズ。C1 と C2 は 2 つの畳み込み層です。(b) C-Detector: C-RPN から候補領域のクエリ特徴を選択し、それらをサポート特徴と組み合わせます。R はサイズ変更操作を示し、F は深さの接続を示します。学習可能なメトリクス モジュールは、次元削減のための畳み込み層と、検出のための 2 つの全結合層で構成されます。

4. 実験と視覚化

(a) FashionOSCD データセット上のサポート クエリ画像ペアの生成プロセス。

(b) Fashion-OSCD データセットの例。緑色のボックスはグラウンド トゥルース境界ボックスを示します。各画像には、複数のスケールとアスペクト比を持つ最大 3 つのオブジェクトが含まれています。

5. 分析とまとめ

研究者らは、新しいワンショット条件付き物体検出フレームワークを提案しています。適切に設計された C-RPN と C-Detector が実装され、粗いから細かいまでの 2 段階の状態検出パイプラインが形成されています。これらの 2 段階で、モデルは、提案された機能融合モジュールと学習可能なメトリック モジュールを通じて、サポート クラス オブジェクトを認識し、ローカライズすることを学習します。2 つのデータセットでの実験により、新しい方法がワンショットの条件付き物体検出において最先端のパフォーマンスを達成することが実証されました。このモデルは良好な結果を達成していますが、依然としていくつかの制限があります。十分なトレーニング サンプルを備えたモデルと従来の教師あり学習検出器とのパフォーマンスの差は大きくモデルの計算オーバーヘッドは従来の教師あり学習検出器よりも大きくなります研究者は、三重項損失を使用してより表現力豊かな深い特徴を抽出し、より優れたシャム ネットワークを探索するなど、提案されたフレームワークを引き続き改善する必要があります。研究者らがこの研究を実施したとき、関連する OSCD 研究は不足していました。SiamFC と SiamRPN は、研究者が見つけた最も関連性の高い方法です。将来的には、新しい方法をより多くのワンショット物体検出方法と比較できるようになります。

コンピュータビジョン研究所研究会は皆様のご参加をお待ちしております!

コンピュータビジョン研究所は主にディープラーニングの分野に携わっており、顔検出、顔認識、複数ターゲット検出、ターゲット追跡、画像セグメンテーションなどの研究方向に主に取り組んでいます。研究機関は今後も最新の新しい論文アルゴリズムフレームワークを共有していきますが、今回の改革で異なるのは「研究」に重点を置く必要があることです。その後、該当分野の実践的なプロセスを共有することで、誰もが理論を取り除く実際の現場を実際に体験し、プログラミングと頭脳思考を愛する習慣を養います。

抜粋:新しいターゲット検出フレームワーク | 改良されたワンショットナレッジに基づくターゲット検出

おすすめ

転載: blog.csdn.net/asdcls/article/details/126885295