ディープラーニングにおける小さなターゲット検出の予備研究

この記事は最初に WeChat パブリック アカウント CVHub で公開されたものであり、いかなる形式でも複製または販売することはできず、違反者は責任を問われます。

ガイド

小さな物体の検出は、コンピュータ ビジョンの分野において非常に困難な問題です。ディープラーニングとコンピュータービジョンの継続的な開発により、小さなターゲットの正確な検出と認識を必要とするアプリケーションシナリオがますます増えています。この記事では、小型ターゲットの定義、意義、課題から始まり、小型ターゲット検出のためのさまざまなソリューションを包括的に紹介します。

このコラムでは、ターゲット検出をテーマとした内容を更新し続けることを考慮して、最新の研究の進捗状況と技術応用を共有します。したがって、私たちはターゲット検出セミナー グループを設立しました. 興味のあるパートナーは、WeChat アシスタント (cv_huber) を追加するか、記事の最後にある QR コードをスキャンして、「ターゲット検出コミュニケーション」と発言してグループに参加し、学習経験やエンジニアリングを交換することができますお互いに経験があります。このグループ チャットを通じて、誰もが物体検出のさまざまなソリューションをより深く理解し、同時に志を同じくする友人を作り、一緒に成長し、進歩できることを願っています。ぜひご参加ください。皆様のご参加をお待ちしております。

意味

小型物体検出とは、広義には画像内でサイズや面積が小さい物体を検出・認識することを指します。一般に、小さなターゲットの定義は特定のアプリケーション シナリオによって異なりますが、一般に、小さなターゲットとは32 × 32 32 \times 32より小さいサイズを指すと考えることができます。32×以下に示すように、COCO データセットで定義されている32ピクセルのオブジェクト。もちろん、小さなターゲットのサイズと面積の要件は、タスクや用途によって異なる場合があります。

COCO データセットでは、3 つの異なるサイズ (小、中、大) の画像に対して測定基準が提案されており、その画像には小さな物体 (面積 < 32×32) が約 41%、中程度の物体 (面積 < 32×32) が 34% 含まれています。 <96×96)、大きなオブジェクトの 24% (面積 >96×96)。中でも小型ターゲットのAPは伸びにくい!

意義

小さなターゲットの検出の重要性は、テクノロジーの適用範囲を向上させることができると同時に、誰もが画像の詳細をよりよく理解できるようになることです。また、小型物標の検出は、交通監視や医療画像解析、ドローン空撮など、私たちの日常生活のさまざまな分野で実際に広く活用されています。例えば:

  • 交通監視の分野では、小さな物体検出を使用して信号機やナンバー プレートなどを識別できます。
  • 医用画像解析の分野では、微小な標的検出を利用して微小な腫瘍細胞などを識別することができます。
  • 自動運転の分野では、小さなターゲット検出を使用して小さな障害物を識別し、ライダー検出の難しさを補うことができます。

チャレンジ

検出タスクを行ったことのある生徒は、これについてよく理解しているはずです。つまり、小さなターゲットの検出は常に非常に困難な問題であるということです。以下に、雰囲気を伝えるための小さな例をいくつか示します。

  1. 通常、小さなオブジェクトは画像内の小さな領域を占めており、従来の特徴抽出方法はもちろんのこと、深層学習アルゴリズムで効果的な情報を抽出することは実際には困難です。たとえば、屋内の会議シーンで、カメラが左上隅の上部エリアに設置されているとします。この時点で検出モデルをトレーニングして適用すると、対角線での検出効果が観察されます。カメラから遠いエリアは他のエリアよりも優れています。一般的に、エリアは非常に悪化し、特に見逃しや誤検出が発生しやすくなります。

  2. 小さなターゲットには、従来のサイズのターゲットのようなテクスチャや色などの詳細が豊富にないため、小さなターゲットの検出がより困難になり、モデルによって「ノイズ ポイント」と誤認されやすくなります。

  3. 小さなターゲットを定義するのは難しい場合があります。最も単純な歩行者と車両を例として考えてみましょう。下の図を見てください。

大きく分けると緑枠内のターゲット、主に赤枠内のターゲットが実はマークしやすいです。ターゲットピクセルの大部分は非常に小さな割合を占めており、マークされているわけでも、マークされていないわけでもありません。もちろん、ラベルを使用して損失を計算しないことも、単にignoreこの領域を削除することもできmaskますが、実際には、多くの場合、 、この「小さなターゲット」は実際には非常に大きいため、確率が失われる可能性があり、多すぎるとトレーニング カーブが簡単に「ジッター」する可能性があります。

解決

今日は、小さなターゲットの検出の問題を解決する方法に焦点を当てましょう。誰もが批判的思考を持ち、実際の状況に応じて適切な方法を採用する必要があります。

なお、RoI Pooling二段階ターゲット検出アルゴリズムではこのような演算が存在するため、小さなターゲットの特徴が拡大され、特徴の輪郭がより明確になり、通常は検出率が高くなります。ただし、この記事では主に、比較的成熟した単一段階のターゲット検出アルゴリズムに焦点を当てます。

入力画像の解像度を上げる

画像の解像度が最大の原因であり、画像の解像度が小さすぎる場合、理論的には 32 倍ダウンサンプリングすると仮定すると、このピクセルより小さいターゲット情報は完全に失われます。したがって、小さなターゲットの検出を扱う場合、ターゲット オブジェクトのサイズが小さいため、通常はターゲットの詳細をよりよく捕捉するために入力画像の解像度を上げる必要があります。入力画像の解像度を高めることにより、小さな物体の検出の精度と再現率が向上し、ターゲット オブジェクトの識別と追跡が向上します。もちろん、実際には、さまざまな理由(お金)により、えー、誰もが理解しています。

モデルの入力サイズを増やす

画像のスケーリングも、小さなオブジェクトの検出の精度を向上させることができるもう 1 つの一般的なソリューションです。一般的な方法は、「マルチスケール トレーニング」を直接有効にして、比較的大きなサイズ範囲を設定することです。ただし、モデルの入力サイズを増やすと、モデルの計算量が増加し、速度が低下する可能性があります。したがって、誰もがそれを使用する際に、精度と効率のバランスを取る必要があります。多くの場合、実際のニーズと利用可能なリソースに基づいて最適なモデル入力サイズを見つけるためにチューニングが必要になります。

同様に、推論中、特にゲームをプレイしている場合など、状況に応じてテスト中に強化をオンにすることもできますTest Time Augmentation, TTA

機能の融合

マルチスケール機能の融合

小さなオブジェクトのサイズが小さいため、その特徴情報は画像の複数のスケールに分散されることが多いため、小さなオブジェクトのモデルの認識を向上させるには、複数のスケールの特徴マップに情報を融合する必要があります。一般的なマルチスケール特徴融合方法にはFeature Pyramid Networks, FPNPath Aggregation Network, PANなどが含まれます。

小さな物体検出のための拡張機能ピラミッド ネットワーク

ロングホップ接続

ロング スキップ接続とは、さまざまなレベルで特徴マップを融合する方法を指します。これにより、モデルがさまざまなレベルで特徴情報をより適切に取得できるようになります。浅い特徴マップは詳細情報が豊富ですが、意味論的な情報が弱いのに対し、深い特徴マップはその逆であることがよく知られています。したがって、小さなオブジェクトの検出では、低レベルの特徴マップと高レベルの特徴マップを融合して、小さなオブジェクトの位置特定能力を高めることができます。

注意メカニズム

注意メカニズムは、モデルの注意を重要な領域に集中させることができる技術であり、特徴マップの重み付けを行うことで、小さなターゲットが存在する領域により多くの注意を集中させることができ、小さなターゲットの検出能力を向上させることができます。一般的なアテンション メカニズムにはSENet、 、SKNetなどが含まれます。

アテンションのさまざまな操作については、WeChat パブリック アカウント CVHub のバックグラウンドで「深層学習におけるあらゆる種類のアテンション メカニズムを確認できる記事」を直接検索するか、編集者の WeChat 友人 cv_huber を直接追加して電子メールを送信してください。あなたへのバージョン。

データ拡張

データ拡張とは、データ自体を変更しないという前提の下でデータをランダムに変換することにより、データ サンプルの数と多様性を増やし、モデルの一般化能力とロバスト性を向上させることです。小さなターゲット検出タスクの場合、データ拡張は次の方法で解決できます。

スケール変換

小さなオブジェクトの場合、そのサイズは小さいことが多いため、元の画像を拡大縮小または拡大することによって、データ サンプルのスケールの変化を大きくすることができます。たとえば、元の画像を縮小して、より小さいサイズの複数の画像サンプルを取得できます。

ランダムなトリミング

小さなオブジェクトを含む画像の場合、オブジェクトの位置を変更せずに、データの多様性を高めるためにランダムなトリミングによって複数の異なる画像サンプルを取得できます。さらに、多角形のトリミングなどの非長方形のトリミング方法を使用すると、小さなオブジェクトの不規則な形状にさらに適応できます。

高度な組み合わせ

この大物で最もよく知られているのは、YOLO のモザイク強化です。これは、複数の元の画像からステッチされ、各画像に小さなターゲットが含まれる可能性が高くなります。さらに、さまざまな小さなターゲットをコピー&ペーストなどの方法で完全に「コピー&ペースト」することもできるため、小さなターゲットの「露出」が増加し、検出される可能性が高まります。

データ強化のさまざまなコケティッシュな操作については、WeChat パブリック アカウント CVHub のバックグラウンドで「深層学習におけるあらゆる種類のデータ強化を確認できる記事」を直接検索するか、編集者の WeChat 友人 cv_huber を直接追加して送信してください。電子版をあなたに。

大規模な画像のセグメンテーション

タイリング

Tilingこれは、大きな画像をセグメント化する場合に効果的な前処理操作です。上の画像は、Roboflowプラットフォーム上のデモです。これtileにより、高速推論を実行するために必要な小さな入力解像度を維持しながら、物体検出ネットワークが小さな物体に効果的に焦点を合わせることができるようになります。ただし、推論中に入力の一貫性も維持する必要があることに注意してください。

実際

タイリングは古いテクノロジーです。現在、著者は、Slicing Aided Hyper Inference, SAHI小さなターゲット検出専用の推論フレームワークであるスライス支援超推論を強く推奨しています。理論的には、微調整することなく、あらゆるターゲット検出器に統合できます。YOLOv5この方法は、 、Detectron2など、多くの成熟したターゲット検出フレームワークおよびモデルに統合されていますMMDetection

損失関数

加重和

これは非常に理解しやすいです。つまり、小さなターゲットの検出サイズを自分で定義できます。GT があるため、損失を計算するときに小さなターゲットに人為的に大きな重みを適用できるため、ネットワークはこれにさらに注意を払うことができます。部。

ステッチャー

Stitcher数年前に発売された商品で、Stitcher: Feedback-driven Data Provider for Object Detection記事「 」から来ています。著者は、統計分析を通じて、小さなターゲットの検出パフォーマンスが低い理由は、トレーニング中の損失への寄与が非常に小さいためであることを観察しました(見逃したり見逃したり)。そこで、この記事では、トレーニング中の動的フィードバックに基づくメカニズム、つまり、計算された損失に応じて、画像スティッチングを実行するかどうかを自動的に決定するメカニズムを提案しています。

他の

以下は、いくつかの代表的な小型ターゲット検出に関する記事の概要です。

2023年

  • TinyDet: 軽量の汎用検出器による正確な小さな物体検出

  • YOLO-Drone: 高高度の視点から密集した小さなターゲットを空中でリアルタイム検出

2022年

  • 大規模な小物体の検出に向けて: 調査とベンチマーク

2020年

  • エンドツーエンドのエッジ強化 GAN と物体検出ネットワークによるリモート センシング画像内の微小物体検出

2019年

  • 微小物体検出の拡張

おすすめ

転載: blog.csdn.net/CVHub/article/details/131270568