リモートセンシング画像におけるターゲット検出に関する研究のレビュー

リモートセンシング画像の特殊性

  • スケールの多様性:航空リモートセンシング画像は、高さ数百メートルから1万メートル近くまで撮影でき、地上の同様の目標であっても、港に停泊している船は300メートルを超えるもの、わずか数十メートルほどの小ささです。
  • 視点の特殊性: 航空リモートセンシング画像の視点は基本的に高高度視点ですが、従来のデータセットの多くは地上視点からのものであるため、同じ対象物であってもパターンが異なります。空撮リモートセンシング映像では効果が劣る場合があります。
  • 小さなターゲットの問題: 航空リモート センシング画像のターゲットの多くは小さなターゲット (数十、さらには数ピクセル) であるため、ターゲット情報の量が少なくなります。CNN ベースのターゲット検出方法は、従来のターゲット検出データ セットよりも優れています。小さなターゲットの検出では、CNN のプーリング層により情報量がさらに削減されます。24*24 のターゲットは、4 層のプーリングの後でも約 1 ピクセルしかなく、次元が低いため識別が困難になります。
  • 多方向の問題: 航空リモートセンシング画像は上空から撮影され、ターゲットの方向は不確実です (従来のデータセットでは、歩行者や車両が基本的に立っているなど、ある程度の確実性があることがよくあります)。ターゲット検出器は、方向性を知って、しっかりしていてください。
  • 背景の複雑さの高さ: 航空リモート センシング画像は比較的広い視野 (通常は数平方キロメートルをカバー) を持ち、その視野にはさまざまな背景が含まれる可能性があり、ターゲットの検出に強い干渉を引き起こす可能性があります。

1. 標的検出研究の概要

1 はじめに

オブジェクト検出は、コンピューター ビジョンの分野で常に人気の研究スポットの 1 つであり、そのタスクは、指定された画像内の 1 つまたは複数の特定のオブジェクトのカテゴリと長方形の境界ボックスの座標を返すことです。物体検出タスクは非常に困難ですが、自動運転、顔認識、歩行者検出、医療検出など、より幅広い応用の可能性があります。同時に、ターゲット検出は、画像セグメンテーション、画像記述、ターゲット追跡、アクション認識など、より複雑なコンピューター ビジョン タスクの研究基盤としても使用できます。

  • 一般物体検出: 人間の視覚と認知をシミュレートするための統一フレームワークの下で、さまざまなタイプの物体を検出する方法を探ります。
  • 検出アプリケーション: 歩行者検出、顔検出、テキスト検出など、特定のアプリケーション シナリオでの検出。

2. 従来のターゲット検出

初期の物体検出アルゴリズムのほとんどは、手作りの特徴に基づいて構築されました。当時は効果的な画像表現がなかったため、限られたコンピューティング リソースを使い果たすために、複雑な特徴表現やさまざまな高速化技術を設計する以外に選択肢はありませんでした。

  1. Viola Jones 検出器
    18 年前、P.Viola と M.Jones は、制約 (肌の色のセグメンテーションなど) なしで初めて人間の顔のリアルタイム検出を達成しました。700MHz Pentium III CPU では、同じ検出精度であれば、検出器は他のアルゴリズムよりも数十倍、さらには数百倍高速です。この検出アルゴリズムは、後に "Viola-Jones" (VJ) 検出器として知られるようになりました。VJ 検出器は、最も直接的な検出方法を使用します。つまり、スライディング ウィンドウ: 画像内のすべての可能な位置とスケールを調べて、 VJ 検出器は、「統合画像」、「特徴選択」、「検出カスケード」という 3 つの重要なテクノロジーを組み合わせて、検出速度を大幅に向上させます。
  2. HOG Detector
    Histogram of Oriented Gradients (HOG) 特徴記述子は、2005 年に N. Dalal と B. Triggs によって最初に提案されました。HOG は、当時のスケール不変の特徴変換および形状コンテキストに対する重要な改良であると考えることができます。特徴の不変性 (移動、スケール、照明などを含む) と非線形性 (異なるオブジェクト クラスの区別) のバランスをとるために、HOG 記述子は等間隔のセルの密なグリッド上で計算されるように設計されており、重複するローカル コントラスト正規化 ( "ブロック") を使用して精度を向上させます。HOG はさまざまなオブジェクト クラスの検出に使用できますが、その主な目的は歩行者検出の問題です。異なるサイズのオブジェクトを検出するために、HOG 検出器は検出ウィンドウ サイズを変更せずに、入力画像を複数回再スケーリングします。長年にわたり、HOG 検出器は多くの物体検出器やさまざまなコンピューター ビジョン アプリケーションの重要な基盤となってきました。
  3. 変形可能パーツベース モデル (DPM)
    voco -07、-08、および -09 検出チャレンジの勝者である DPM は、従来のターゲット検出方法の頂点です。DPM は、もともと 2008 年に HOG 検出器の拡張として P.Felzenszwalb によって提案され、その後 R.Girshick によって改良されました。DPM は「分割統治」という検出の考え方に従っており、トレーニングは単純にオブジェクトの正しい分解方法を学習するものとみなすことができ、推論はオブジェクトのさまざまな部分の検出の集合とみなすことができます。一般的な DPM 検出器は、ルート フィルターといくつかの部分フィルターで構成されます。この方法では、パーツ フィルター構成 (サイズや位置など) を手動で指定する必要はありませんが、代わりに DPM で弱教師学習方法を開発し、すべてのパーツ フィルター構成を潜在変数として自動的に学習できます。R. Girshick は、このプロセスをマルチインスタンス学習の特殊なケースとしてさらに表現し、検出精度を向上させるために「ハード ネガティブ マイニング」、「バウンディング ボックス回帰」、「コンテキスト プライミング」などの重要なテクノロジも使用されています。検出を高速化するために、R.Girshick は検出モデルをより高速なモデルに「コンパイル」するテクノロジーを開発し、カスケード構造を実装し、精度を犠牲にすることなく 10 倍以上の高速化を達成しました。

3. ディープラーニングに基づくターゲット検出

手作り機能の性能は飽和傾向にあるため、2010 年以降、物体検出は安定したレベルに達しました。R.Girshick らは、2014 年に畳み込みニューラル ネットワークをターゲット検出に適用することを先導し、ターゲット検出のための CNN 特性を持つ領域 (RCNN) を提案しました。それ以来、物体検出は前例のない速度で発展してきました。
ターゲット検出アルゴリズムは主に、画像特徴抽出、候補領域生成、候補領域分類の 3 つのステップに分かれています。

R-CNNシリーズに代表される2段階アルゴリズム

まず、潜在的なターゲットが存在する可能性のある一連の候補領域がヒューリスティック手法または畳み込みニューラル ネットワークを通じて画像上に生成され、各候補領域に対して分類と境界回帰が順番に実行されます。

  1. R-CNNは、
    (1)選択的探索を使用して、潜在的なターゲットを含む可能性のある候補領域を生成します、(2)すべての候補領域を固定解像度でサンプリングした後、それらを1つずつ畳み込みニューラルネットワークに入力して、固定長の特徴ベクトルを抽出します。 (3) 複数のサポート ベクター マシンを使用してすべての特徴ベクトルを分類します; (4) 既知のカテゴリと抽出された特徴ベクトルに基づいて長方形のフレームに対して回帰補正を実行し、位置決めの精度をさらに向上させます。
    利点: 従来のアルゴリズムと比較して、R-CNN の最大の革新は、特徴演算子の手動設計が不要になったことです。代わりに、畳み込みニューラル ネットワークを導入して、特徴をより適切に抽出する方法を自動的に学習します。実験結果もこれが証明しています。より効率的、効果的。
    欠点: (1) 特徴ベクトルの抽出に CNN が使用されていますが、候補領域の生成に使用される選択的検索アルゴリズムは依然として基礎的な視覚的特徴に基づいているため、候補フレームの品質は高くありません。(2) の 3 つのモジュールアルゴリズムは互いに独立しているため、トレーニング プロセスが煩雑になり、エンドツーエンドのトレーニングを達成できなくなり、全体的な最適解を取得できなくなります。(3) 特徴ベクトルを抽出するとき、各候補領域は、ベクトルから個別に切り取られます。元の画像を取得し、ニューラル ネットワークに順番に入力します。これにより、多くのディスク領域が占有されるだけでなく、多くの繰り返し計算が発生し、トレーニングと推論の速度が非常に遅くなります。
  2. SPP-Net では、
    候補領域を順番に CNN に渡すのではなく、画像全体の特徴マップを直接計算し、各候補領域の特徴を分割します。全結合層の前に、特徴ベクトルの長さを統一するために、プーリング操作を通じてあらゆる入力を固定長の出力に変換する新しい SPP 層が追加されます。
    利点: トレーニングと推論のプロセスが大幅に高速化されます。
    短所: SPP-Net の精度は R-CNN の精度とそれほど変わりませんが、そのアルゴリズム プロセスは依然として複数の独立したモジュールであり、特徴ベクトルの保存には依然として多くのストレージ スペースが必要です。
  3. Fast R-CNN
    Fast R-CNNはSPP-Netの考え方を吸収し、画像全体に対して一度の特徴量計算を行う新たに提案されたRoIプーリング層であり、SPP層の簡易版に相当します。さらに、プロセスを簡素化するために、Fast R-CNN は分類にサポート ベクター マシンを使用せず、追加のリグレッサーも使用せず、代わりにマルチタスク損失関数を設計し、2 つの新しいネットワーク ブランチで CNN を直接トレーニングします。分類と回帰は別々に実行されます。
    メリット: 特徴抽出、分類、回帰がワンステップに統合されているため、特徴ベクトルを途中で保存する必要がなくなり、記憶容量の問題が解決され、学習中に全体の最適化が行えるため、より高い精度が得られます。
    欠点: (1) 候補フレームの生成は依然として完全に独立しています。選択的検索などの従来のアルゴリズムは、画像の基礎となる視覚的特徴に基づいて候補領域を直接生成するため、特定のデータセットに基づいて学習することはできません。(2) 選択的検索は非常に時間がかかります。CPU での画像処理には 2 秒かかります。
  4. より高速な R-CNN は、
    RPN 候補ボックス生成ネットワークを設計します。(1) RPN の入力は、既存の Fast R-CNN スケルトン ネットワークによって抽出された画像全体の特徴マップであり、この共通特徴設計により、CNN の特徴抽出機能を最大限に活用するだけでなく、操作の省力化も実現します。 ) アンカー ポイントの概念を提案しました。RPN は、事前に設定されたアンカー ポイントに基づいて分類 (前景または背景) と回帰を実行します。これにより、マルチスケールの候補フレームが確実に生成されるだけでなく、モデルが収束しやすくなります。RPN が候補領域を生成した後、アルゴリズムの残りの部分は Fast R-CNN と一致します。
    利点: RPN は選択的検索アルゴリズムを置き換え、Faster R-CNN はついに GPU 上で 5FPS の検出速度に達し、PASCAL VOC データセットの記録を破りました; 同時に、実際に実装された最初の検出アルゴリズムでもありますエンドツーエンドのトレーニング。2 段階検出器の正式な形成を示します。

Faster R-CNN の出現以来、ほとんどすべての新しい 2 段階検出器はこれに基づいています。Faster R-CNN の効率をさらに向上させるために、Dai らによって提案された R-FCN は、各ブランチの独立した計算という時間のかかる全結合層を削除し、位置に依存するスコア マップと位置-空間情報を保持するための機密性の高い RoI プーリング層により、推論の速度と精度が大幅に向上します。ネットワークの深い特徴には強力な意味情報があり、浅い特徴には強い空間情報があることを考慮して、Lin らは、マルチプル アップサンプリングを通じて深い特徴マップと浅い特徴マップを 1 つずつ組み合わせる FPN アーキテクチャを提案しました。レイヤー融合:最終的な特徴マップが出力され、これにより、さまざまなスケールのターゲットをより適切に検出できるようになり、マルチスケールのターゲット検出におけるマイルストーンとなります。He et al. が提案したマスク R-CNN は、RoI プーリング層を Faster R-CNN に基づく RoI アライメント層に置き換え、特徴マップと元の画像のピクセルをより正確に位置合わせし、新しいマスク ブランチを追加します。 。驚くべきことに、このアルゴリズムはインスタンス セグメンテーション タスクで優れたパフォーマンスを達成するだけでなく、分類、回帰、マスク ブランチのマルチタスク トレーニングを同時に実行することにより、ターゲット検出タスクのパフォーマンスも向上します。Qin らは、軽量の 2 段階検出器 ThunderNet を提案しました。検出タスク用にカスタマイズされた軽量のスケルトン ネットワーク SNet、RPN と検出ヘッドの圧縮、および CEM、SAM、およびその他のモジュールの導入を通じて、モデルの速度と速度が向上しました。精度の点では、多くの 1 段階検出器を上回ります。

YOLOやSSDに代表される1段階アルゴリズム

畳み込みニューラル ネットワークを 1 つだけ使用して、画像全体上のすべてのターゲットを直接位置特定して分類し、候補領域を生成するステップをスキップします。

  1. OverFeat
    (1) 完全結合層の代わりに畳み込み層を使用して完全畳み込みニューラル ネットワークを実装します。これは、入力として異なる解像度の画像に適応できます。これは、畳み込みを使用してスライディング ウィンドウ アルゴリズムを迅速に実装するのと同等です。(2) ) 同じ畳み込みニューラルネットワークを使用する 共有スケルトンネットワークとして、ネットワークヘッダーを変更することで分類、位置特定、検出タスクをそれぞれ実装します。
    利点: OverFeat は R-CNN よりも検出が 9 倍高速です。
    欠点: 精度は R-CNN ほど良くありません。
  2. YOLO は
    入力画像を 7*7 グリッドに分割します。各グリッドは、中心点がグリッド内にあるターゲットを予測し、グリッドに対する中心点の位置、ターゲットの長さ、幅、カテゴリを回帰します。 。YOLO の損失関数は、測位損失、信頼性損失、分類損失の 3 つの部分で構成されます。信頼性とは、ターゲットが存在するかどうかを指します。YOLO はエンドツーエンドのアルゴリズムであることがわかります。候補ボックスの概念はなく、画像が入力され、前景を検出しながら必要な属性が返されます。
    利点: YOLO アルゴリズムはリアルタイムのターゲット検出を真に実現しており、その検出速度は 45FPS に達することができ、高速 YOLO では 155FPS に達することもあり、これは 2 段階検出器よりも桁違いに高速です。さらに、YOLO は検出時により多くの背景情報を考慮するため、背景を前景と誤認する確率は FastR-CNN よりもはるかに低くなります。
    短所: (1) 各グリッドは 2 つのターゲットのみを検出し、それらは同じカテゴリとして指定されるため、アルゴリズムが密集したターゲットの検出を処理することが困難になります; (2) 精度は、特に高速 R-CNN よりも劣ります。主な理由は、後者は全体から局所部分まで 2 回の長方形ボックス回帰を経ているのに対し、YOLO は 1 回しか経っていないためです (3) 全結合層の存在により、解像度は入力画像のサイズが固定されている; (4) 単一の特徴内のみ グラフ上のターゲットを検出すると、アルゴリズムがマルチスケールのターゲットを検出することが困難になります。
  3. SSD
    (1) 異なる深さの複数の特徴レイヤー上で異なるスケールのターゲットを予測するようにネットワークをトレーニングし、最終的にそれらを統合します; (2) Faster R-CNN のアンカー ポイントの概念を導入してモデルを収束しやすくし、特性を保証しますグラフは、異なるスケールでのターゲット検出に適応します; (3) 完全畳み込みニューラル ネットワークを使用して、異なる解像度の画像入力に適応します; (4) 損失関数は位置損失と分類損失で構成され、 YOLO の前景信頼度の概念は、分類中に背景が直接カテゴリとみなされ、他のカテゴリと同時に予測されるためです。さらに、SSD は特徴マップ上に高密度のアンカー ポイントを配置し、ターゲットに効果的に一致するアンカー ポイントの数が非常に効果的であるため、すべてのサンプルを直接トレーニングに使用すると、ポジティブ サンプルとネガティブ サンプルの間に深刻な不均衡が生じます。そこで、SSDではこの問題を軽減するためにハードケースマイニングという手法を採用しています。
    利点: SSD の検出速度は YOLO に匹敵し、精度は Faster R-CNN に匹敵します。
    短所: Faster R-CNN と比較して、小さなターゲットの検出結果はあまり改善されていません。

新たに誕生した 1 段検出器シリーズは一般に絶対的な速度の利点がありますが、上位の 2 段検出器との間には無視できない精度の差もあります。Linらは、2つのタイプのアルゴリズムの最も本質的な違いは、後者は候補フレームをスクリーニングすることで第2段階のトレーニングサンプルの高品質とカテゴリーバランスを保証するのに対し、前者は画像上のすべてのスライディングウィンドウを予測する必要があることであると考えている。つまり、陽性サンプルと陰性サンプルの間には深刻な不均衡があり、難しいサンプルと簡単なサンプルの間には不均衡が存在します。したがって、彼らは 1 段検出器用の新しい損失関数 Focal Loss を設計しました。Focal Loss では、クロスエントロピー損失関数に基づく 2 つの新しいパラメーターが導入されています。1 つは負のサンプルの重みを軽減するために使用され、もう 1 つは単純なサンプルの重みを軽減するために使用され、モデルで多くの問題を回避できます。トレーニング中の第 1 段階のアルゴリズムが原因で発生します。ネガティブ サンプルと単純なサンプルは注意をそらします。実験テストでは、著者は ResNet と特徴ピラミッド ネットワーク アーキテクチャを使用して、シンプルな 1 段階検出器 RetinaNet を設計し、トレーニングに Focal Loss を適用しました。最終的には、MS COCO テスト セットで Faster R-CNN を上回る精度を示しました。特に小さなサンプルの検出において。YOLOv2 の後、Redmon らは再びそれをアップグレードし、YOLOv3 を提案しました。YOLOv3 には 3 つの主な改善点があります: (1) ソフトマックス分類器の代わりに複数のロジスティック回帰分類器が使用され、カテゴリ間の共通部分を持つ分類タスクにモデルを適用できます; (2) 最も深いレベルの処理を実行するために特徴ピラミッド ネットワーク アーキテクチャが導入されました。アップサンプリング上の特徴マップを 2 回アップサンプリングし、それぞれ浅い特徴と融合し、最後に 3 つの特徴レイヤーに異なるアンカー ポイントを設定して、異なるスケールでターゲットを予測する; (3) 残差ネットワークのアイデアを学習して、Darknet-53 は設計されました新しいスケルトン ネットワークの精度は Resnet-101 および ResNet152 に匹敵しますが、より高速です。YOLOv3 は、当時の速度と精度の間で最良のトレードオフを達成しており、現在、業界でターゲット検出に推奨されるアルゴリズムの 1 つです。

2. マルチスケール目標検出研究の概要

大規模なスパンのデータセットに直面したときに検出器のパフォーマンスが低下する根本的な理由は、畳み込みニューラル ネットワークが深化し続けるにつれて、抽象的な特徴を表現する能力がますます強くなる一方で、浅い空間情報も相対的に失われるためです。その結果、深い特徴マップではターゲットを正確に位置決めするためのきめの細かい空間情報を提供できなくなり、同時に小さなターゲットの意味情報がダウンサンプリング プロセス中に徐々に失われます。
大規模で詳細な特徴が豊富なターゲットを検出する場合は、分類の基礎としてより強力なセマンティック情報が必要ですが、スケールが小さく、偏差許容度が低いターゲットを検出する場合は、正確な位置決めを達成するためによりきめの細かい空間情報が必要です。
スケールの問題を解決するための一般的なアイデア: マルチスケール フィーチャ式の構築
ここに画像の説明を挿入します

1. 画像ピラミッドに基づくマルチスケールターゲット検出

トレーニング フェーズでは、異なるスケールの画像がランダムに入力されるため、ニューラル ネットワークは異なるスケールでのターゲット検出に適応することができます。テスト フェーズでは、同じ画像が異なるスケールで複数回検出され、最終的には最大値以外の画像が検出されます。抑制アルゴリズムを使用してすべての結果を統合し、検出器が可能な限り最大のスケール範囲内のターゲットをカバーできるようにします。
メリット: 全体的な精度がある程度向上します。
短所: 高解像度の画像を入力すると、メモリのオーバーヘッドが増加するだけでなく、計算時間も増加します。これにより、トレーニング中に大きなバッチ サイズを使用することが困難になり、モデルの精度に影響を与えるだけでなく、推論時間が指数関数的に増加するため、アルゴリズムを実際のアプリケーションに導入するためのしきい値がさらに上昇します。

スケール生成ネットワークに基づく画像ピラミッド

マルチスケール検出を実行する場合、ピラミッドの多くの層では実際には有効なターゲットが検出されません。これは、明らかにリソースの無駄が発生することを意味します。その理由は、各画像内のターゲットのスケール分布が大幅に異なるためです。一部の画像には 1 つのスケールのターゲットしか含まれていないため、ピラミッドの特定の層のみを検出する必要があります。一部の画像には、中程度のターゲットと大きなターゲットしか含まれていない場合があります。したがって、ピラミッド内の最も高い解像度レベルは実際には必要なく、たまたまそれが最も計算コストのかかるレベルになります。検出効率を向上させるために、ターゲットを正式に検出する前に画像内のターゲットのスケール分布を判断できれば、画像ピラミッド内の冗長なレイヤーを削除できると考えられています。検出はさらに最適化する必要があります。したがって、図に示すように、元のターゲット検出タスクをスケール推定と単一スケール ターゲット検出の 2 つのステップに分割するスケール生成ネットワークを設計しました。
ここに画像の説明を挿入します
スケール生成ネットワークは画像レベルの監視信号に基づいてトレーニングされ、スケール ヒストグラム ベクトルを出力し、平均フィルタリングと 1 次元の非最大値抑制操作を経て、離散ターゲット スケール分布が得られます。ターゲットのスケールが既知であるため、後続の検出器は単一スケールのターゲットのみを検出する必要があるため、RPN アンカー ポイントのサイズ数を 1 に減らすことができ、精度に影響を与えることなく検出速度をさらに向上させることができます。最後に、対象スケールに応じた解像度で画像を順次サンプリングして順番に検出し、最後に全ての結果をまとめることでマルチスケール対象の検出が完了します。

スケール正規化に基づく画像ピラミッド

MS COCO データセット内の多数の小さなターゲットによってもたらされる課題に対処するために、Singh らは、Scale Normalized Image Pyramid (SNIP) と呼ばれるトレーニング戦略を提案しました。画像ピラミッドはモデルのトレーニングに使用されますが、各レイヤーのみが使用されます。図に示すように、スケール範囲内で適切な監視信号を提供します。
ここに画像の説明を挿入します
この基本的な目的は、すべてのトレーニング データがピラミッド法を通じて学習できるようにしながら、モデルが特定の規模内のターゲットの検出に集中できるようにすることです。最後に、画像ピラミッドはモデルを検証するときにも使用されます。この戦略は Faster R-CNN の両方の段階に適用でき、あらゆる規模のターゲットの検出精度に全面的な向​​上をもたらします。SNIP は本質的に、CNN の固有の欠陥に基づく従来のマルチスケール トレーニング戦略を改良したものであり、そのメカニズムに画像ピラミッドを利用していると言えます。ただし、このトレーニング戦略では、画像ピラミッドのメモリと時間のオーバーヘッドの問題は解決されません。その後、Singh らは SNIP をSNIPERにアップグレードしました。トレーニング中の画像ピラミッドのメモリ制限を解決できるようにするために、SNIPER は完全な画像でトレーニングするのではなく、トレーニング ユニットとしてピラミッドの各レイヤーから 512x512 の固定解像度のフラグメントを切り出します。このうち、フラグメント サイズは異なるレイヤーのグリッド単位として使用され、そのスケールで有効なターゲットを含むグリッドがフラグメントとして選択され、トレーニング中のポジティブ サンプルとなります。検出器が背景をターゲットと誤って判断するのを防ぐために、著者らは、トレーニングに参加するための陰性サンプルとして、いくつかの偽陽性の例を含むフラグメントも使用しました。フラグメントの解像度が小さいため、画像ピラミッドのメモリ問題が効果的に解決され、トレーニング中により大きなバッチ サイズを使用できるため、トレーニングが高速化されるだけでなく、モデルの検出精度も向上します。ただし、実際にモデルを適用してターゲットを検出する場合、完全な画像ピラミッドにアクセスする必要があるため、推論に時間がかかるという計算時間の問題はまだ解決されていません。

注意メカニズムに基づく画像ピラミッド

深層学習のターゲット検出に増幅演算を最初に導入したのは、Lu らによって提案された AZ-Net でした。彼らは、RPN ネットワークのアンカー ポイント戦略は本質的に、固定スライディング ウィンドウ サイズを備えた網羅的なアルゴリズムであり、効率的でもなければマルチスケールのターゲットにも適用できないと考えています。そこで彼らは適応探索候補領域生成アルゴリズムAZ-Netを設計した。このアルゴリズムは、画像全体を検索の開始点として使用し、隣接領域予測と増幅指標の 2 つの出力を提供します (前者は検索領域のスケールに近い一連の候補領域を参照し、後者は使用されます)現在の検索エリア内にさらに小さなエリアがあるかどうかを示します。存在する場合、画像全体が左上、左下、右上、右下、中央の 5 つの領域に分割され、すべての領域に小さなターゲットが含まれなくなるまで、これらが順番に新しい検索開始点として使用されます。PASCAL VOC データセットの実験では、このアルゴリズムによって生成された候補領域は、RPN ネットワークによって生成された候補領域よりも数が少ないものの、品質が高いことが示されていますが、精度の利点は明らかではありません。Gao らは、AZ-Net の検索アイデアを継続し、意思決定機能を備えた強化学習を導入することで、高解像度画像内のターゲットを検出するための粗いものから細かいものまでの戦略を設計しました。まず、大まかな Fast R-CNNダウンサンプリングされた低解像度画像を検出し、精度向上確率マップを生成し、その後、強化学習を使用して小さなターゲットを含む可能性のある領域を見つけ、より洗練された検出器を使用して高解像度領域内のターゲットを検出します。新しいアルゴリズムを入力し、それを再び粗い検出器に通過させるということを、小さなターゲットが含まれなくなるまで繰り返します。実験結果によると、このアルゴリズムにより、精度をほとんど損なうことなく、カリフォルニア工科大学の歩行者検出データセットのピクセル処理数が 50%、推論時間が 25% 削減され、YFCC100M データセットのピクセル処理数が削減されました。 70%.%、推論時間は 50% 短縮されます。Uzkent らは、Gao らのアプローチを継続し、さらに詳しく見る必要がある画像内の領域を選択するための強化学習も導入しましたが、異なる点は、アルゴリズムがその領域が大きなターゲットによって支配されているかどうかも判断することです。小さなターゲットを検出し、そのエリアが大きなターゲットで占められているか小さなターゲットで占められているかを 2 つの異なる方法で判断し、計算量をさらに節約することを目的としています。一般に、これらのアルゴリズムはアテンション メカニズムのアイデアから派生しており、マルチスケールのターゲット検出を粗いものから細かいもの、全体から詳細に至る再帰的なプロセスとして扱います。そのプロセスは図に示されています。
ここに画像の説明を挿入します
これらのアルゴリズムは画像ピラミッドの最適化として見ることができます。ピラミッドの最上部から検出を開始し、強化学習を使用してピラミッドの次の層のどの部分に潜在的なターゲットが含まれているかを判断し、次の層にターゲットが含まれなくなるまでこれを繰り返します。目標まで。したがって、このアルゴリズムは、強化学習の意思決定能力をガイドとして使用し、画像ピラミッドの冗長な部分を削除し、SNIPER 戦略に依然として存在する推論時に深刻な計算時間がかかる問題を解決することに相当します。

2. ネットワーク内の特徴ピラミッドに基づくマルチスケールのターゲット検出

R-CNN に代表される初期の検出器は、ニューラル ネットワークの特徴マップの最後の層で直接予測を行っていましたが、きめの細かい空間特徴が欠如しているため、小さなターゲットに対する検出効果は低く、マルチスケールの特徴表現が必要でした。求められる。画像ピラミッドは、さまざまな解像度の入力に基づいてさまざまなスケールの特徴を抽出できますが、メモリと時間の大幅なオーバーヘッドが発生するため、適用できません。したがって、畳み込みニューラル ネットワーク内でマルチスケールの特徴表現を構築できれば、画像ピラミッドによって抽出できるマルチスケールの特徴は 1 枚の入力画像だけで近似的に取得でき、計算コストは​​はるかに小さくなります。この段階では、ネットワーク内の特徴ピラミッドは主に次の 2 つの方法で構築されます:(1)層間接続に基づいて、ネットワーク内の異なる深さの特徴マップを融合して、異なるスケールの特徴表現を取得します。(2)ベースに基づいて、ネットワーク内の異なる深さの特徴マップを融合します。異なる受容野を持つ平行な枝の上に、空間ピラミッドを構築します。

クロスレイヤー接続に基づいて機能ピラミッドを構築する

畳み込みニューラル ネットワークの層ごとの構造を考慮すると、特徴マップが深くなるほど受容野が大きくなり、ネットワーク内のさまざまな深さの特徴マップが自然なマルチスケール表現を形成するため、SSD アルゴリズムとMS-CNN アルゴリズムはどちらも、異なるスケールのこれらの特徴マップ上でターゲットを直接検出し、最終的に統合できることを提案しています。浅い特徴マップは小さなターゲットの検出を担当し、深い特徴マップは大きなターゲットの検出を担当します。しかし、実験結果から判断すると、小さなターゲットの検出精度はそれほど向上していません。その理由は、これらのフィーチャ レイヤーの深さとフィーチャ表現機能が異なり、意味上の大きなギャップがあるためです。浅い地物層はよりきめ細かい空間情報を保持しますが、その地物表現能力が弱すぎて有効な意味情報が欠如しているため、検出効果は低くなります。したがって、ネットワークの深さの異なる特徴マップ上でスケールの異なる対象を直接予測することは不適切であり、まず各層で十分な特徴情報を備えた特徴ピラミッドを構築する必要がある。SSD アルゴリズムの欠点に対応して、Lin らは有名な特徴ピラミッド ネットワーク FPN を提案しました。FPN の中心的なアイデアは、ネットワーク内でさまざまな深さの特徴情報を融合することですが、上から下までのレイヤーごとの融合の構造は議論の価値があるため、これを議論し改善するための一連のアルゴリズムが登場しました。 。
ここに画像の説明を挿入します
上記の方法はすべて、FPN によって提案された特徴融合方法に変更を加えていますが、Li らは FPN 自体のスケルトン ネットワークを改良しました。ほとんどの検出器は分類ネットワークをスケルトン ネットワーク (ResNet など) として使用し、事前トレーニングも分類データ セットで完了します。これにより 2 つの問題が生じます。(1) FPN などの検出器は、事前トレーニングに関与しない追加データを導入します。ネットワーク段階; (2) スケルトン ネットワークの受容野とダウンサンプリング係数は両方とも大きく、画像分類には有益ですが、空間情報が欠如しているため、大きなターゲットの正確な位置決めが困難になり、意味情報が失われます。ダウンサンプリング プロセス中のダウンサンプリング プロセスは小さなターゲットには役に立たず、FPN アーキテクチャを導入しても本質的な問題は解決されないことが認識されています。この目的を達成するために、彼らは検出タスクのニーズに特化した新しいスケルトン ネットワーク DetNet-59を設計しました。ResNet-50 と比較すると、主に 3 つの違いがあります: (1) ネットワークと FPN のステージ数が同じであるため、すべてのステージが事前トレーニングに参加できます; (2) 4 番目のステージから、ダウンサンプリング係数がDetNet は 16 に固定され、チャネル数は 256 に固定されます; (3) 受容野を増加させるために残差モジュールに Atrous 畳み込みが導入されます。実験結果から判断すると、DetNet のパラメータ量は ResNet-50 と ResNet-101 の間ですが、検出タスクのパフォーマンスはそれらより優れています。さまざまな規模のターゲットに特有の、DetNet が大きなターゲットの特定と小さなターゲットの発見に特に優れていることがわかります。これは作成者の期待と一致しています。

平行な分岐に基づいて特徴ピラミッドを構築する

マルチスケールの特徴表現を構築するには、ネットワーク内に異なるパラメータを持つ並列ブランチを設計し、各ブランチが自身の受容野に基づいて異なる空間スケールで特徴マップを抽出し、空間ピラミッドを構築します。深層学習の分野では、空間ピラミッドは、GoogLenet によって提案された Inception モジュールに遡ることができます。このモジュールには 4 つのブランチが含まれています。最初の 3 つのブランチは、それぞれ 1x1、3x3、および 5x5 畳み込みカーネルの畳み込み演算を使用します。4 番目のブランチは最大値を実行します。図に示すように、プールし、最後にすべてのブランチの出力を融合します。
ここに画像の説明を挿入します
具体的な実装方法は大きく異なりますが、インセプション モジュールと SPM の考え方は一貫しており、どちらも異なる空間スケールで画像の特徴を抽出するというものです。SPP-NetのSPPモジュールもSPMのマルチスケールブロック方式を採用しており、ブロックごとにプーリング演算を行うことで、任意のサイズの特徴マップを固定長の特徴ベクトルに変換できます。全体として、空間ピラミッドの構築は、ターゲット検出の規模の問題を解決するための実現可能な解決策でもあります。グローバル情報とローカル情報を組み合わせるために、Zhao らは SPP モジュールと同様のピラミッド プーリング モジュールを設計しました。このモジュールには、マルチスケール情報を抽出するための 1x1、2x2、3x3、および 6x6 プーリング用の 4 つのブランチが含まれています。セグメンテーションタスクに対する効果が大幅に向上しました。Kimらが提案したPFPNetも、異なるスケールの文脈情報を融合するという考え方に基づいており、初段の検出器には3つの分岐を含むSPPモジュールが導入されているが、プーリングによって得られる特徴マップは、各ブランチも作成者によって設計されており、MSCA モジュールは他の 2 つのブランチの出力特徴とそれぞれ融合され、他の 2 つのブランチの特徴マップをアップサンプリングおよびダウンサンプリングしてから、その特徴をメイン ブランチと結合します。最後に、3 つのブランチの出力特徴マップに対してターゲット検出が実行され、非最大抑制アルゴリズムを使用して結果が要約されます。MS COCO データセットの実験結果から判断すると、FPN アーキテクチャを使用する PFPNet は YOLOv3 よりわずかに優れており、そのプロセスを図に示します。
ここに画像の説明を挿入します

3. マルチスケールのターゲット検出のためのその他の戦略

アンカーポイント

早期のターゲット検出で異なるスケールのターゲットを検出するために、固定サイズのスライディング ウィンドウを使用して画像ピラミッド上でレイヤーごとにスライドすることに加えて、異なるサイズのスライディング ウィンドウを使用して同じ画像上を順番にスライドすることもできます。Renらによって提案されたRPNネットワークによって導入されたアンカーポイントの概念は、ネットワークが可能な限りカバーできることを保証するために、スケルトンネットワークによって検出のためのアプリオリ情報として抽出された特徴マップ上に、異なるサイズの9つのスライディングウィンドウを設定することに相当します。スケール範囲内で可能な限りターゲットを設定します。小さなターゲットに対するモデルの検出精度は理想的ではありませんが、マルチスケール アンカー ポイント戦略は、最近のほとんどの検出器の標準構成となっており、特徴ピラミッドと組み合わせることで、アンカー ポイントのスケール範囲をさらに拡大できます。
短所: (1) アンカーポイントのサイズを事前に定義する必要があり、適切に定義されていない場合、モデルのパフォーマンスが大幅に低下します; (2) 十分な再現率を確保するために、多数のアンカーポイントが必要になります。ただし、ほとんどのアンカー ポイントはテスト結果には役に立ちません。

交差と和集合の比率のしきい値

ターゲット検出のトレーニング プロセスでは、通常、予測された長方形ボックスと実際のラベルの交差比に基づいて、正のサンプルと負のサンプルを決定します。たとえば、交差比が 0.5 より大きい場合、それは正のサンプルであり、次の場合、 0.3 未満の場合、陰性サンプルです。ただし、このようなしきい値の設定は主に経験に基づいており、必ずしも最適な選択であるとは限りません。さらに、固定交差率しきい値を使用することは、マルチスケールのターゲット検出にはさらに不適切です。これは、等しい座標偏差が小さなターゲットの交差率に大きな影響を与える一方、大きなターゲットへの影響がはるかに弱いためです。この問題を解決するために、Cai らはカスケード R-CNN アルゴリズムを提案しました。このアルゴリズムでは、交差比と和合比のしきい値をそれぞれ 0.5、0.6、0.7 に設定した 3 つの R-CNN ネットワークを設定し、それらをカスケード接続しました。この根拠は、単一ネットワーク上で交差および和集合比のしきい値が直接増加すると、陽性サンプルの数が急速に減少し、その結果ネットワークの精度が大幅に低下するということです。したがって、生成される長方形ボックスの品質をカスケード的に徐々に向上させ、前の検出ネットワークの出力を次の検出ネットワークの入力として使用することで、より高い交差および和集合比のしきい値、および各ネットワークに継続的に適応することができます。特定の交差率範囲内のターゲットを検出できます。
短所: カスケード構造により精度が大幅に向上しますが、トレーニング時間と推論時間も大幅に増加します。また、固定の交差対結合比のしきい値が不合理であることも考慮します。

動的畳み込み

従来の畳み込みニューラル ネットワークには固有の欠陥があります: 畳み込みカーネルのサイズが固定されており、プーリング層のスケールも固定されているため、ネットワーク内のすべての特徴層の受容野が常に固定されてしまいます。異なるスケールのターゲット。したがって、畳み込み演算を動的にしようとする一連の方法があります。たとえば、拡張畳み込みの導入により、畳み込み層は同じパラメータを維持しながら拡張畳み込み係数で受容野を単調に変化させることができ、ニューラル ネットワークがマルチスケールの特徴を捕捉するのがより便利になります。Dai らが提案した可変コンボリューションは、コンボリューション計算における各サンプリング点の位置にさらにオフセットを加えることにより、コンボリューションカーネルがさまざまな形をとることを可能にしており、拡張コンボリューションは可変コンボリューションと等価です。 。同様に、プーリング層もバイアスを追加することで可変プーリングに変換できます。実験の視覚的な結果から判断すると、変数畳み込みはニューラル ネットワークがさまざまな形状やスケールのターゲットに適応するのに実際に役立ちます。しかし、Zhuらは、変数の畳み込みが多すぎるコンテキスト情報を導入し、バイアスが制御できないために悪影響を引き起こす可能性があることも発見した。そこで、変数コンボリューションをアップグレードして、バイアスを学習できるだけでなく、ローカル アテンション メカニズムに相当する各サンプリング ポイントの重みも学習できるようにしました。全体として、可変畳み込みの設計により、畳み込みニューラル ネットワークの自由度が大幅に向上し、他の検出器との互換性も高くなります。
デメリット:モデル検出の精度は向上しましたが、パラメータ数も元のモデルの3~4倍程度となっているため、成熟した検出ネットワークに一般化することが現状では困難です。

バウンディングボックス損失関数

L1 ノルムと L2 ノルムは、物体検出タスクで境界ボックスを回帰するために使用できる古典的な回帰損失関数です。ただし、L1 損失関数の収束速度は遅く、解は不安定です。また、L2 損失関数は外れ値の影響を受けやすく、十分な堅牢性がありません。したがって、Girshick は、L1 損失関数と比較して、真の値に近い場合、勾配値が十分に小さく、収束が速い、L2 損失関数と比較して、2 つの特性を組み合わせた滑らかな L1 損失関数を提案しました。損失関数、外れ値 勾配は小さく、より堅牢です。
欠点: (1) それらはすべて、頂点座標のオフセットと長方形フレームの長さと幅にペナルティを与え、予測されたフレームと実際のフレームの間の類似性を直接反映することができません; (2) どれもスケール不変性を持ちません。この問題を解決するために、Yu らは、長方形の箱全体を扱い、境界回帰を導くために比例形式で交差和比の対数を直接計算する交差和和比損失関数を提案しました。この損失関数はスケール不変性を持ち、変動性があるため、L2 損失関数と比較して、マルチスケールのターゲットを扱う際の効果が大幅に向上します。

デカップリングの分類と位置付け

ターゲット検出タスクは、ターゲットの分類とターゲットの位置決めの 2 つの部分で構成されます。Faster R-CNN などの従来のアルゴリズムは、一般に、第 2 段階で共有の全結合層を介して候補領域から特徴を抽出し、最後に 2 つの要素に対して分類と回帰を実行します。枝です。Songらは、ヒートマップ分析に基づいて、分類タスクの敏感領域はターゲットの顕著領域であるのに対し、測位タスクの敏感領域はターゲットの境界領域であると指摘しました。この 2 つは空間的に位置合わせすることができません。明らかに、マルチスケールのターゲット検出では、ターゲットのスケールが大きくなるにつれて、分類および位置決めタスクの空間的不整合の問題がより深刻になります。同様に、Wu らは、全結合層と畳み込み層の特性に基づいて、前者の空間感度により分類に適しており、後者の重み共有特性により抽出された特徴が空間的に関連すると考えています。回帰境界により適しており、実験結果はこの点を証明しています。分類問題と回帰問題の間の潜在的な矛盾を解決するための最も直観的なアイデアは、2 つのタスクを分離することです。

小さなターゲット特徴の再構築

MS-CNN アルゴリズムでは、より小規模なターゲットをより適切に検出するために、特徴マップをアップサンプリングするデコンボリューション層がネットワーク内に設計されており、メモリ使用量と計算時間を効果的に削減します。Zhouらによって提案されたSTODアルゴリズムでは、DenseNet-169がスケルトンネットワークとして使用され、スケール変換モジュールは、タイル拡張によって最後の複数のチャネルの特徴マップをより高解像度でより少ないチャネルの特徴に構築するように設計されています。図、小さなターゲットを検出するために使用されます。小さなターゲットを検出する際にSSDの浅い特徴から欠けている意味情報を強化するために、Zhangらによって提案されたDESアルゴリズムは、セマンティックセグメンテーションを実行するセグメンテーションモジュールのブランチを設計し、浅い特徴にセグメント化された特徴マップを追加しました。重み付けされたオーバーラップとしてのマップ。これはアテンション メカニズムと同等です。視覚化の結果から判断すると、浅い特徴マップ上の無関係な特徴が効果的に抑制されています。

データ増強

データ拡張は、YOLOv2 アルゴリズムのランダム マルチスケール トレーニング戦略などのスケールの問題を軽減する実現可能なソリューションでもあります。さらに、Kisantal らは、マスク R-CNN をベースラインとして使用し、MS COCO データセット内の小さなターゲットの検出精度が低いという問題を解決するための 2 つのデータ拡張方法を提案しました: (1) 問題を解決するためにオーバーサンプリング戦略を使用するデータ セット内の小さなターゲット検出の数。ターゲットの画像が少ないと問題があります。(2) 同じ画像内で、小さなターゲットのセグメンテーション マスクをコピーして貼り付け、アンカー ポイント戦略がより多くの小さなターゲットの陽性サンプルと一致できるようにします。 、それにより、 の損失関数の重みの小さなターゲットが増加します。このアイデアの本質は、トレーニング データのターゲット スケールの分布を変更することで、モデルが小さなターゲットを認識しやすくすることです。実験結果から判断すると、大きなターゲットの検出精度は若干低下しましたが、小さなターゲットの検出精度は向上しました。物体検出タスクでは、検出器の全体的なパフォーマンスを向上させるために、通常、追加のデータセットを使用してモデルを事前トレーニングし、その後正式なデータセットで微調整するか、追加のデータセットがジョイントに直接関与します。トレーニング。

3. その他のターゲット検出タスク

  • 歩行者検知
    ここに画像の説明を挿入します
  • 顔検出
    ここに画像の説明を挿入します
  • テキスト検出
    ここに画像の説明を挿入します
  • 信号機と標識(交通標識/光検出)
    ここに画像の説明を挿入します
  • リモートセンシング対象物検出(リモートセンシング対象物検出などの特定分野の検出
    ここに画像の説明を挿入します
    ) 高解像度画像のマルチスケール対象物検出:高解像度画像上で対象物を検出する場合、小さな対象物の詳細な情報が不足しないことがよくありますが、精度を達成するのが難しい コンピューティングリソースとのトレードオフ。メモリや検出速度の要件などの制限により、Faster R-CNN や YOLO などのアルゴリズムは、まず高解像度画像を特定の解像度までダウンサンプリングしてから、検出のためにネットワークに渡すため、情報が失われます。スライディング ウィンドウ方式を使用してカーペット検出を実装すると、全体の速度が遅すぎます。Gao らが提案した、強化学習を使用してきめ細かい検出をガイドする戦略は、日常の機器で撮影された高解像度画像に対して一定の利点があります。ただし、より緻密な情報が含まれる画像(ドローン空撮など)に依然として有効であるかどうか、およびより簡潔なアルゴリズムを設計できるかどうかについては、さらなる研究が必要です。

4. ターゲット検出器の有効性を評価する

       歩行者検知に関する初期の研究では、検知性能を測る評価基準として「ウィンドウ当たりの偽陰性率と偽陽性率(FPPW)」がよく使われていました。ただし、ウィンドウごとの測定 (FPPW) には欠点があり、場合によっては完全な画像プロパティを予測できない場合があります。2009 年にカリフォルニア工科大学 (Caltech) は歩行者検出ベンチマークを確立し、それ以来、評価指標はウィンドウごと (FPPW) から画像ごとの誤検知 (FPPI) に変更されました。
       VOC2007 の時点では、ターゲット検出に最も一般的に使用されている評価方法は「平均精度 (AP)」です。AP は、さまざまなリコール状況における平均検出精度として定義され、通常はカテゴリ固有の方法で評価されます。すべてのオブジェクト カテゴリにわたるパフォーマンスを比較するには、すべてのオブジェクト カテゴリにわたる平均 AP (mAP) がパフォーマンスの最終的な尺度としてよく使用されます。ターゲットの位置決め精度を測定するために、Intersection over Union (IoU) を使用して、予測ボックスとグラウンド トゥルース ボックスの間の IoU が、事前に定義されたしきい値 (0.5 など) より大きいかどうかをチェックします。存在する場合、オブジェクトは「正常に検出された」と識別され、そうでない場合は「未検出」と識別されます。したがって、mAP ベースの 0.5 -IoU は、長年にわたって物体検出の問題に対する事実上の指標となってきました。
       2014 年以降、MS-COCO データセットの人気により、研究者は境界ボックスの位置の精度にさらに注意を払い始めました。MS-COCO AP は固定IoU しきい値を使用しませんが、複数の IoU しきい値の平均をとり、しきい値の範囲は 0.5 (粗い測位) から 0.95 (完全な測位) です。この測定の変更は、より正確なオブジェクトの位置特定を促進し、いくつかの実際のアプリケーションにとって重要になる可能性があります (たとえば、レンチを掴もうとするロボット アームを想像してください)。
       近年、ボックスのグループや非網羅的な画像レベルのクラス階層を考慮するなど、オープン画像データセットの評価がさらに発展しています。研究者の中には、「位置再現精度」などの代替指標も提案している人もいます。最近の変化にもかかわらず、VOC/COCO ベースmAP は依然として最も一般的に使用されるターゲット検出評価指標です。

おすすめ

転載: blog.csdn.net/weixin_43312470/article/details/124086107