紙の読み取り RRNet: ドローンで撮影した画像内の物体検出のためのハイブリッド検出器

RRNet: ドローンで撮影した画像内の物体検出のためのハイブリッド検出器

抽象的な

我々は、無人航空機 (UAV) および都市シーンの UAV によってキャプチャされた画像内の物体検出のために、RRNet という名前のハイブリッド検出器を提案します。このような困難なタスクでは、通常、オブジェクトはさまざまなサイズであり、非常に密度が高くなります。したがって、アンカーフリー検出器と再回帰モジュールを組み合わせます。以前のアンカーを破棄することで、モデルは境界ボックスのサイズを回帰する必要がなくなり、密度の高いシーンでのマルチスケールの物体検出パフォーマンスが向上します。アンカーフリーベースの検出器は、まず粗いボックスを生成し、次に粗い予測に再回帰モジュールを適用して正確な境界ボックスを生成します。さらに、データを効率的に増強するための適応型リサンプリング増強戦略も導入します。私たちの実験では、RRNet が VisDrone2018 データセット上のすべての最先端の検出器よりも大幅に優れていることがわかりました。

1. はじめに

無人航空機 (UAV) は、学術界や実用化において広く採用されています。したがって、彼らが撮影した画像データを理解し、分析する必要があります。ディープラーニングの時代では、ディープ ニューラル ネットワーク (DNN) に基づくオブジェクト検出器により、オブジェクト検出のパフォーマンスが大幅に向上しました。ただし、通常の自然画像と UAV で撮影した画像の間には多くの大きな違いがあるため、物体検出は困難な作業となっています。まず、これらの画像内のオブジェクトのスケールは異なります。図 1a に示すように、遠くの物体は非常に小さいのに対し、近くの物体は大きいです。さらに、都市には高密度のシーンが多数あり (図 1b など)、オブジェクト間のオクルージョンが多くなり、オブジェクトの検出がより困難になります。
ここに画像の説明を挿入

現在の深層学習ベースの物体検出器は 2 つのカテゴリに分類されます。最初のカテゴリは 2 段階検出器です。彼らは領域提案ネットワークを使用して、以前のアンカーがオブジェクトであるか背景であるかを判断します。事前アンカーは、手動で定義されたいくつかの潜在的な境界ボックスです。次に、2 つのヘッド ネットワークを使用して、潜在的なアンカーを一連のカテゴリに分類し、アンカーとグラウンド トゥルース境界ボックス間のオフセットを推定します。もう 1 つのクラスは、シングルステージ検出器と呼ばれます。2 段階の検出器とは異なり、1 段階の検出器は領域提案ネットワークを破棄します。彼らは 2 つの検出器を直接使用して、以前のアンカーのカテゴリとオフセットを予測します。両方のタイプの検出器の事前アンカーは、低解像度の画像グリッド上に生成されます。以前の各アンカーには、IoU (交差対結合比) に従って 1 つのオブジェクト境界ボックスのみを割り当てることができます。しかし、UAV で撮影した画像の場合、固定形状のアンカーではさまざまなスケールの物体に対応することが困難です。最近、別のタイプの検出器であるアンカーフリー検出器が提案されました。これらにより、境界ボックスの予測が簡素化され、キーポイントとサイズの推定が行われます。これにより、異なるスケールのオブジェクトを検出するためのより良い方法が提供されます。ただし、ターゲット サイズ間の大きな違い (たとえば、10 1から10 3まで) は回帰を困難にします。

この論文では、RRNet という名前のハイブリッド検出器を提案します。オブジェクトのスケールに関係なく、オブジェクトの中心点は常に存在します。したがって、アンカー ボックスを使用する代わりに、2 つの検出器を使用して各オブジェクトの中心点、幅、高さを予測します。次に、これらの中心点と寸法を粗い境界ボックスに変換します。最後に、深い特徴マップと粗い境界ボックスを再回帰モジュールに入力します。再回帰モジュールは、粗い境界ボックスを調整し、最終的な正確な境界ボックスを生成できます。

さらに、既存の証拠は、ネットワーク アーキテクチャを変更しなくても、優れたデータ拡張によりディープ モデルを最先端のパフォーマンスに引き上げることができることを示しています。したがって、適応型リサンプリング (AdaResampling) と呼ばれるデータ拡張戦略を提案します。この戦略により、画像上のオブジェクトを論理的に強化できます。

私たちの実験では、提案されたモデルが VisDrone2018 データセット上の既存の最先端の検出器を大幅に上回るパフォーマンスを示しています。原則として、当社の RRNet はアンカーフリー検出器と 2 段階検出器のハイブリッド モデルです。私たちは、良い結果を達成するには再回帰モジュールが不可欠であると信じています。

要約すると、この論文の主な貢献は次のとおりです。

  • 我々は、ドローンによって撮影された画像内の物体検出用に、粗い検出器と再回帰モジュールで構成される新しいハイブリッド物体検出器を提案します。
  • 我々は、オブジェクトの論理的な拡張のために、AdaResampling と呼ばれる適応型拡張戦略を提案します。
  • 当社の検出器は、ICCV VisDrone2019 物体検出チャレンジで AP50、AR10、AR100 という最高の結果を達成しました。

2.関連作品

スキップ

3. Adaリサンプリング

このセクションでは、AdaResampling と呼ばれる適応拡張手法を紹介します。Kisantalらからインスピレーションを得た、提案された拡張の主なアイデアは、混乱を招くオブジェクトを再サンプリングし、画像上に複数回貼り付けることです。

図 2a は、COCO データセットからサンプリングされた画像です。このタイプの画像の上にトリミングされたオブジェクトをランダムに貼り付けても、画像のロジックは壊れません。ただし、図 2b に示すように、単純なコピー&ペーストの拡張では、非常に不合理な画像が生成される可能性があります。2 つの不一致に気づきました。1 つ目は背景の不一致です。たとえば、1 のマークが付いた乗り物が空を飛んでいます。背景の不一致により、モデルがより多くの誤検出境界ボックスを生成する可能性があります。その理由は、分類器がターゲット特徴とコンテキスト特徴の両方に依存しているためです。分類器は、背景の事前知識を学習して、分類を支援できます。2つ目はスケールの不一致です。大きなオブジェクトを遠くの背景に複製すると、このオブジェクト (図 2b の 2 など) は周囲の他のオブジェクトよりもはるかに大きくなります。多くの場合、周囲の他のオブジェクトから、現在のオブジェクトのサイズ回帰に​​関する有用な情報が得られます。スケールの不一致はこの知識を台無しにします。
ここに画像の説明を挿入
これら 2 つの不一致を排除するために、AdaResampling と呼ばれる適応拡張戦略を提案します。図 3 に AdaResampling のフローを示します。

ここに画像の説明を挿入

まず、ドローンで撮影した画像を事前トレーニング済みのセマンティック セグメンテーション ネットワークに入力して、事前のロードマップを取得します。セグメンテーション ネットワークでは、ドローンによって撮影された画像とセグメンテーション ネットワークのトレーニングに使用されたデータセットとの間に不一致があるため、ノイズの多い結果が生成される可能性があります。道路領域では高い再現率は必要ありませんが、高い精度は必要です。したがって、侵食アルゴリズムと 3×3 メディアン フィルターを使用して、偽の道路領域を可能な限り削除します。次に、ロードマップに基づいて有効な場所からサンプリングして、拡張オブジェクトを配置します。次に、切り取られたオブジェクトは、変換関数によってサイズ変更されます。高さと幅の比率は一定です。スケーリングされた高さは、単純な線形関数によって計算できます。
ここに画像の説明を挿入
ここで、 h (l)、 h (s)、 y (l) 、および y (s) は、それぞれ最大オブジェクトと最小オブジェクトの高さと y 座標を示します。a を計算するために、最大および最小の k 人の歩行者のみを使用します。y は、選択された有効な位置の y 座標です。最後に、スケーリングされたターゲットを選択した場所に配置できます。リサンプリングされたターゲットの数を制御するために密係数 d を定義します。リサンプリングされたターゲット数 n は、次の式で計算できます
ここに画像の説明を挿入
。N rは以前の道路ピクセルの数です。図 3 の右側は、AdaResampling によって拡張されたトレーニング画像です。車両は道路上にのみ配置でき、拡張オブジェクトのスケールが適切であることがわかります。

4. 再回帰ネット

VisDrone2018 データセットに関するいくつかの統計データを収集しました。結果を図 4 に示します。
ここに画像の説明を挿入

図 4a は、すべての境界ボックスの高さと幅を示しています。ターゲットのサイズは 101 ~ 103 ピクセルの範囲でした。このような大きな間隔をカバーするために、従来のアンカーの適切なセットを定義することは困難です。さらに、図 4b はすべての境界ボックスの対角線の長さを示しています。ほとんどのオブジェクトのサイズは 50×50 ピクセルより小さいです。私たちは、キーポイントベースの検出器が小さな物体の検出により適していると主張します。そこで、RRNetを提案します。図 5 の上半分は、RRNet のアーキテクチャを示しています。まず画像をいくつかの畳み込みブロックにフィードして、初期の特徴マップを取得します。次に、2 つの HourGlass ブロック (HGBlock) が、より多くのセマンティック情報を含む堅牢な特徴マップを抽出します。これらの特徴を 2 つの別々の検出器に入力します。ヒートマップ検出器は、ターゲットの中心点に関連付けられた確率のヒートマップを生成します。さらに、別の検出器がすべての中心点のサイズ推定値を提供します。
ここに画像の説明を挿入

4.1. 粗検出器

図 5 に示すように、粗検出器はサイズ推定ブロックとクラス予測ブロックで構成されます。サイズ推定部分は、各オブジェクトの高さと幅を直接予測するために使用されます。クラス予測ネットワークは、セマンティック セグメンテーション ネットワークとよく似た動作をします。各ピクセルのカテゴリーに応じた中心点を予測し、最後にシグモイド活性化関数を適用して各カテゴリーの独立した確率を取得します。

4.2. 再回帰

ヒートマップとサイズ予測を粗い境界ボックスに変換します。最後に、再回帰モジュールを適用してこれらの粗い検出ボックスを調整し、細かい境界ボックスを生成します。

再回帰モジュールを使用すると、モデルが粗い境界ボックスを調整できるようになります。HGBlock 2 によって生成された特徴マップと粗い境界ボックスを再回帰モジュールに入力します。再回帰モジュールは Faster-RCNN ヘッドに似ていますが、分類ネットワークは含まれていません。まず、非最大抑制 (NMS) アルゴリズムを使用して、重複する境界ボックスをフィルターします。次に、ROIalign を使用して特徴を位置合わせし、2 つの畳み込み層を使用してオフセット値を予測します。最後に、オフセット値を粗い境界ボックスに適用して、最終的な予測を取得します。

5. 実験

VisDrone2018 データセットを使用してモデルを評価します。mAP、AP50、AP75、AR1〜500などのメトリクスをレポートします。

5.1. データの増強

ほとんどのディープ ニューラル ネットワークと同様に、基本的なデータ拡張は水平反転とランダム クロッピングで構成されます。トレーニング段階では、クロップサイズは 512×512 です。私たちは、提案された AdaResampling 手法を使用して、歩行者、歩行者、自転車、三輪車、日除け付き三輪車、自動車の拡張を実行します。密係数 d は 0.00005 に設定されます。AdaResampling で使用される事前トレーニング済みセグメンテーション ネットワークは、Cityscapes データセットで事前トレーニングされた Deeplabv3 ネットワークです。

5.2. ネットワークの詳細

表 2 に、RRNet の詳細な設定を示します。入力畳み込みと HGBlock (HourGlass ブロック) は、HourGlass ネットワークの公式セットアップに従います。粗い境界ボックスを再回帰する前に、まず分類の信頼度に基づいて上位 1500 の境界ボックスを選択します。次に、IoU しきい値 0.7 の非最大抑制 (NMS) アルゴリズムを使用して、重複する境界ボックスをフィルターします。ROI Align のサイズは 3 に設定されます。

ここに画像の説明を挿入

5.3. トレーニングの詳細

私たちの実験では、オプティマイザーとして Adam を採用します。各ミニバッチには各 GPU に 4 つの画像があり、4 つの GPU で合計 100,000 回の反復を初期学習率 2.5e-4 でトレーニングします。60,000 回目と 80,000 回目の反復での学習率は 1 分の 1 に減少します。 10. 分類のための損失関数は焦点損失であり、回帰では滑らかな L1 損失が使用されます。全体的なトレーニング目的関数は次のとおりです。
ここに画像の説明を挿入
L (d)は粗検出器の損失関数、L ®は再回帰モジュールの損失関数です。L (d)とαの設定はCenterNetのやり方に準じます。Faster RCNN と同様に、L (d)サイズはオフセット ベクトルに適用される演算です。
ここに画像の説明を挿入

5.4. 推論の詳細

推論フェーズでは、最初の検出器を破棄し、2 番目の検出器に対して大まかな境界ボックス予測のみを行います。次に、再回帰モジュールを上位 1500 個の粗検出ボックスに適用し、その後、後処理として (ソフト非最大抑制) を適用します。

5.5. パフォーマンス

RRNet と既存の最先端の物体検出器との比較結果を表 1 に示します。すべての最先端のベンチマーク モデルの中で、RRNet のパフォーマンスが優れていることがわかります。このチャレンジの 1 位と 3 位である DPNet-ensemble と ACM-OD のパフォーマンスもリストします。当社の RRNet は、AP50 と AR の両方で最高の結果を達成しました。RRNet のすべての AR が他のモデルよりも大幅に高いことは注目に値します。これらの結果は、私たちのネットワークがより困難な例を検出できるという結論を示唆しています。

さらに、表 1 には興味深い結果がいくつかあります。キーポイントベースの検出器 (CornerNet、RRNet など) は、すべてのアンカーベースの検出器よりも優れたパフォーマンスを発揮します。

ここに画像の説明を挿入

6. アブレーション研究

スキップ

7. 結論

この論文では、UAV またはドローンによってキャプチャされた画像上の物体検出のために、適応リサンプリング拡張とハイブリッド物体検出器 RRNet を提案しました。密集したシーン内の非常に小さなオブジェクトに対して優れたパフォーマンスを発揮します。私たちの実験では、RRNet が最先端のものより優れていることが実証されました。ICCV VisDrone2019 Object Detection in Images Challenge において、AP50、AR10、AR100 の最高性能を達成しました。

おすすめ

転載: blog.csdn.net/weixin_45935290/article/details/132128725