CVPR2020:D2Det論文の解釈

翻訳者メモ

   このペーパーは、MS COCOとUAVDTの両方で優れた結果を達成しており、最新の技術です。この記事の方法は2段階ですが、分類に関しては、アンカーなしの方法を使用して位置オフセットを計算し、インスタンスのセグメンテーションを使用してターゲットの配置の修正に参加します。このアイデアは非常に興味深いものです。さらに、分類に関しては、識別特徴が画像上で等距離に分布しないことを提案し、変形畳み込みを導入して分類に役立つ識別特徴を取得します。一般に、この作業は、ターゲット検出の位置決めと分類タスクのためのより良い方法を提案し、読む価値のあるより良い結果を達成しました。
論文:D2Det:高品質のオブジェクト検出とインスタンスセグメンテーションに向けて
github:https : //github.com/JialeCao001/D2Det

概要

  正確な位置決めと正確な分類の両方を解決する新しい2段階検出法D2Detを提案します。正確な位置付けの(密集局部回归,此处翻译采用了直译,但为避免出现歧义,此类名词后面都将使用原英文)ために、各ターゲット候補ボックスの複数の密なボックスオフセットを予測するために使用される密な局所再帰法を導入します(密集的框位置偏移量)従来の回帰とキーポイントポジショニングを使用する2段階の方法とは異なり、密な局所回帰は、固定領域の一連のキーポイントを定量化するだけでなく、位置依存の実際の密なオフセット値も返します。位置決めをより正確にします。密な局所回帰では、バイナリオーバーラップ予測(二值交叠预测)戦略も使用されます。これにより、最終的な位置オフセット回帰に対する背景領域の影響を減らすことができます。正確な分類のために、差別的なRoIプーリングスキームを導入し(判别性RoI池化方法)ます。候補エリアについては、さまざまなサブ領域からサンプリングし、計算中に適応的な重みを割り当てて、差別的な特徴を取得できます。
  MS COCO test-devでは、D2Detの単一のモデルはResNet101をバックボーンネットワークとして使用し、そのパフォーマンスは45.4APで以前のすべての2段階の方法を上回っています。マルチスケールのトレーニングと推論を実行すると、D2Detは50.1のAPを達成しました。検出に加えて、セマンティックセグメンテーションにD2Detを使用し、40.2のマスクAPも取得しました。速度の点では、最先端の2倍でした。また、空中リモートセンシング画像に対するD2Detの有効性についても説明し、UAV画像のターゲット検出実験と衛星画像のセマンティックセグメンテーション実験のこの部分を見ることができます。

前書き

  近年、標的検出の分野はかなり進歩しており、これはディープニューラルネットワークの開発に起因する可能性があります。最新のターゲット検出は、1ステージ法と2ステージ法に大別できます。2段階検出方法の手順は、最初に一連の候補フレームを生成し、次にこれらの候補フレームを分類して後退させます。一方、単一段階の方法は、画像に対して定期的なグリッドサンプリングを実行し、その後、これらのサンプリングされたデフォルトボックスを回帰して分類することです。一般的に言って、標準的なベンチマークの精度は、2段階の方法が1段階の方法よりも優れています。
  高品質のターゲット検出には、正確な位置決めと正確な分類が必要です。以前の2段階検出アルゴリズムのほとんどは、位置決め部分に同様の設計を採用していました。ほとんどの2段階アルゴリズムは、より古典的な設計を選択します。人気のあるFaster R-CNNなどの回帰モデルです。この回帰モデルは、少数の完全に接続されたレイヤーを使用して、一連の候補フレームのオフセットを予測します。最近、グリッドR-CNNは回帰と予測を2つのブランチに分離し、高速R-CNNは共有ネットワークを使用するため、高速R-CNNを拡張しました。ポジショニングを修正するために回帰を使用するより高速なR-CNNと比較して、グリッドR-CNNは完全にたたみ込みネットワークに基づくポジショニング戦略を導入します。この戦略は、固定サイズの領域で一連のキーポイントを見つけてターゲットの境界を識別することです。
  この記事では、正確な位置決めのために密な局所回帰を紹介しました。完全に接続されたレイヤーを使用してオフセットを予測するFaster R-CNNで使用される従来の回帰戦略とは異なり、密なローカル回帰は完全にたたみ込みネットワークを使用して複数のローカルボックスのオフセットを予測します(local box offsets)、高密度ボックスオフセットとも呼ばれます。キーポイントベースのポジショニングを使用するグリッドR-CNNと比較して、密なローカル回帰は、ターゲットをより正確に特定できます。これは、オフセットの真の値に戻ることができるため、定量化するために固定サイズの領域に限定されないためです。キーポイント。さらに、グリッドR-CNNは測位機能を改善しますが、この方法はターゲットを正確に特定できるだけでなく、より強力なターゲット分類機能も統合します。分類では、候補領域のさまざまなサブ領域の特徴を抽出し、計算中に適応的な重みを割り当てて識別特徴を取得する、判別RoIプーリングを導入します。

貢献ポイント

  ターゲットの正確な位置決めと分類を実現する2段階検出方式D2Detを提案します。正確なターゲット配置のために、密な局所回帰を導入します。この方法では、候補ボックスの各サブ領域の各サブ領域のボックスオフセットを予測できます(グラウンドトゥルースと比較した4方向のオフセット)。総額)。したがって、完全な畳み込みネットワークによって複数の密なローカルボックスオフセットが取得され、ボックスオフセット予測の位置感度特性を保持できます。密な局所回帰機能をさらに改善するために、候補フレームの各サブ領域がターゲット領域または背景領域に属しているかどうかを識別できるバイナリオーバーラップ予測も導入し、背景領域の影響を減らすことができます。バイナリオーバーラップ予測のトレーニングでは、グラウンドトゥルースのすべての領域がターゲットに属しているという前提が必要です。ターゲットを正確に分類するために、候補領域のさまざまなサブ領域の特徴を抽出し、計算中に適応的な重みを割り当てて識別特徴を取得する、判別RoIプーリングを導入します。
実験で使用したデータセットはMS COCOとUAVDTです。私たちのD2Detは、これらのデータセットの新しい最先端技術に到達しました。MS COCO test-devでは、単一モデルの精度の点で、ResNet101をバックボーンとして使用して45.4のCOCOスタイルのAPに到達するという、以前の2段階の方法をすべて上回っています。さらに、最先端の技術と比較して、AP @ 0.75の測定よりも3.0%高い方法であり、この方法の測位能力を示すのに十分です。また、D2Detがマルチスケールのトレーニングと推論に強力なバックボーンを使用すると、COCOスタイルのAPは50.1になります。さらに、検出方法の密な局所回帰ブランチを調整し、インスタンスマスクでラベル付けした後、セマンティックセグメンテーションの結果についても報告しました。2つのセマンティックセグメンテーションデータセット(MS COCOと最新のiSAID)で関連する実験を行いました。私たちの方法は、前の方法と比較して、これら2つのデータセットで大幅な進歩を遂げました。MS COCO test-devでは、このメソッドは最新のメソッドHTCの2倍の速さで、MASK APが40.2に達します。

関連作業

  近年、二段階検出法の検出精度は標準ベンチマークを改善し続けています。以前の2段階の検出方法の中で、Faster R-CNNは最も人気のあるターゲット検出フレームワークの1つです。最初の段階では、Faster R-CNNは地域提案ネットワーク(RPN)を使用して、カテゴリにとらわれない地域提案を生成します(区域候选框)2番目のステージは、Fast R-CNNと同様に、固定サイズ領域(RoI)の特徴表現を抽出し、各フレーム(proposal bounding-box)座標位置のカテゴリ信頼度と回帰を計算します最近のいくつかの作業では、機能ピラミッド表現の追加、マルチステージ検出、マスク(mask for instance segmentation)ブランチの統合など、他の方法によってFaster R-CNNフレームワークを拡張しています。
  ほとんどの2段階検出器は、事前定義されたアンカーボックスを使用して、画像上の各ターゲットを表します。シングルステージ方式でアンカーボックスフリーを使用して、アンカーボックス表現を放棄するという別の戦略があります。これには通常、ペアのキーポイントとキーポイント推定を使用してターゲットの境界ボックスを検出することが含まれます。キーポイントの生成は通常、事前定義されたターゲットインスタンスではなく画像全体に基づいているため、これらの方法はボトムアップです。これらのボトムアップ方式とは異なり、グリッドR-CNNはトップダウンの2段階方式です。最初にインスタンスを定義し、次にグリッドに基づくキーポイントベースのローカリゼーションを使用します(基于关键点的网格引导定位)バウンディングボックスを生成する重要なポイント。この戦略では、固定サイズの領域で一連の重要なポイントを見つけて、ターゲットの境界を識別します。ただし、マッピング領域を拡大しても、グラウンドトゥルースに対応する提案の場所によっては、ターゲット全体が含まれない場合があります。具体的には、固定解像度の特徴空間(56 * 56)でキーポイントを探します。これは、大きなターゲットでは問題になる可能性があります。たとえば、ターゲットサイズが100 * 100より大きい画像の例があり、相対キーポイント検索スペースが比較的小さいため、位置決めが不正確になります。さらに、グリッドR-CNNはポジショニング能力の向上にのみ焦点を当て、分類ブランチを変更せず、Faster R-CNNと同様の方法を使用します。MS COCOでは、(不加上对分类分支的改进)大きなターゲットを検出するための密なローカル回帰は、グリッドR-CNNより3.7%高くなっています。
  元のFaster R-CNNはRoIプールを使用して、候補フレームの機能の固定プーリングを実行しました。最近、RoIAlignは、Faster R-CNNおよびグリッドR-CNNの最近のバリアントを含む多くの作業でRoIPoolを置き換えました。RoIAlignは、候補フレームを複数のサブ領域に均等に分割し、サブ領域の特徴を考慮します。各サブエリアで4つのサンプリングポイントを取得し、平均するすべてのサンプリングポイントに等しい重みを割り当てます。識別されたエリアが等距離のサブエリアに表示されない可能性があるため、これにより分類パフォーマンスが低下する可能性があります。RoIAlignとは異なり、変形RoIプーリングは、候補スキームの各サブ領域からの距離に関係なく、分類と回帰に使用される特徴を候補スキームの各サブ領域から取得します。ここでは、特徴的な分類を強化するために適応的な重み付けを実行する方法を紹介します。

私達の方法

  私たちの方法は、標準のFaster R-CNNフレームワークに基づいています。私たちの方法では、提案された密な局所回帰は、Faster R-CNNの従来のボックスオフセット回帰に取って代わり、分類はRoIプーリングを使用して改善されます。2ステージ検出フレームワークの全体的な構造を図2(a)に示します。最初の段階ではRPNを使用(region proposal network)し、2番目の段階では2つの独立した分類と回帰ブランチを使用します(図2(b))。密なローカル回帰ブランチは、ターゲットを正確に特定するために使用され、差別的なRoIプーリングに基づく分類ブランチ(図2(c))は、提案の分類精度に役立ちます。
ここに画像の説明を挿入

図2

3.1密なローカル回帰

  2段階検出フレームワークでは、境界ボックス回帰ブランチの目標は、ターゲットに近いボックスを見つけることです。P(x P、y P、w P、h P)をターゲット候補フレームとし、G(x G、y G、w G、h G)をターゲットグラウンドトゥルースとする。高速R-CNNでは、伝統的な回帰は、単一ボックスのオフセット予測(Δは、xは、Δ、Y、Δ W Δが、H):
ここに画像の説明を挿入
ここで(x、y)はボックスの中心を表し、(H、W)指定されたボックスを表します幅と高さ。各候補フレームPについて、RoIPoolやRoIAlignなどの機能プール戦略を使用して、提案内の同じサイズのk * kサブ領域から対応する固定サイズRoI機能を取得できます。標準のFaster R-CNNはこれらのRoI特徴をベクトルとして扱います。これはグローバル特徴表現と呼ばれ、完全に接続されたいくつかのレイヤーを渡してグローバルボックスのオフセットを予測します。
  前述の戦略とは異なり、密な局所回帰法は、k * k次元のRoI 特徴をk 2空間の隣接する局所特徴と見なします。局所的な特徴は図2(b)にp iとして示されています。示されています。次に、これらのローカルRoI機能は完全な畳み込みネットワークに渡され、密なボックスオフセットと呼ばれる複数のローカルボックスオフセットを予測します。密なボックスオフセットは各ローカルフィーチャp iから、(x i、y i)でのグラウンドトゥルースバウンディングボックスGの左上隅と右下隅までの距離を表します(x l、y t)と(x r、y b)がグラウンドトゥルースバウンディングボックスの左上隅と右下隅を表すとします。
ここに画像の説明を挿入
グラウンドトゥルースバウンディングボックスに対応するプロポーザルのサブリージョンまたはローカルフィーチャの数は、プロポーザルとそれに対応するグラウンドトゥルース間のオーバーラップの度合いによって異なります。ただし、高度にオーバーラップしている場合(k 2ローカルフィーチャの大部分は対応するグラウンドトゥルースバウンディングボックスに属しています)でも、不要なフィーチャ(バックグラウンドフィーチャなど)が残っています。したがって、これらの背景機能は密なボックスオフセットの精度を低下させ、これらの不要な機能を抑制するために追加の方法が必要になります。この目標を達成するために、図2(a)および図2(b)に示すように、密な局所回帰でバイナリオーバーラップ予測を導入して、各ローカルフィーチャがグラウンドトゥルースのバウンディングボックス領域または背景に属しているかどうかを区別します。 。このバイナリオーバーラップ予測は、追加の出力m ^ \ widehat mを導入しますメートル 、密なボックスオフセットとともに。グラウンドトゥルースバウンディングボックスGと提案Pの間のオーバーラップエリアのローカルフィーチャには、グラウンドトゥルースラベル1が次のように割り当てられます。
ここに画像の説明を挿入
一般的なターゲット検出におけるグラウンドトゥルースピクセルレベルのインスタンステンプレートは利用できないため、グラウンドトゥルースバウンディングボックスGのすべての領域がターゲットであると想定します。
ここに画像の説明を挿入
そして、m = {m i:i∈[1、k 2 ]}。トレーニング中、位置iのバイナリオーバーラップ予測m ^ i \ widehat m_iメートル シグモイド関数(σ)が渡され、グラウンドトゥルースラベルm iのバイナリクロスエントロピー損失計算されます。
ここに画像の説明を挿入
ここに画像の説明を挿入

画像3

3.2差別的なRoIプーリング

  ここでは、分類ブランチでの判別可能なRoIプーリング(図2©)について説明します。回帰とは異なり、分類タスクには非常に特徴的な機能が必要です。判別的RoIプーリングの革新は、アナモルフィック畳み込みに触発され、次の2つの方法で分類パフォーマンスを向上させます。最初に、軽量の重みのオフセット予測を使用します。これは、変形RoIプーリングの標準の安価な予測と比較して、パラメーター値の1/4にすぎません。この標準オフセット予測では、RoIAlign操作を使用してk * kサブ領域から特徴を取得し、これらの特徴を3つの完全に接続されたレイヤーに渡します。逆に、軽量ウェイトオフセット予測では、(k / 2)*(k / 2)のRoIを1つだけ使用し、完全に接続されたレイヤーを接続します(軽量ウェイトは入力ベクトルが小さいためです)。
  オフセットを予測した後、標準の変形RoIプーリングはRoIAlignを使用し、各サブ領域は4つのサンプリングポイントを取得し、それらに同じ重みを割り当ててそれらを平均化します。比較すると、私たちの重み付きプーリングは、より特徴的なサンプリングポイントに高い重みを適応的に割り当てます。ここでは、元のサンプリングポイントの下のRoIAlign機能、つまりF∈R^ 2k x 2k ^を使用して、対応する重みW(F)∈R^ 2k x 2k ^を予測します。これは、すべてのkxkの空間サブ領域を表しますサンプリングポイントの識別能力。図2©は、いくつかのサンプリングポイントとそれに対応するアダプティブウェイトを示しています。候補地域の重みRoI特徴F〜\ widetilde FF 次の式によって取得されます:ここに画像の説明を挿入
ここ⊙\ odotはアダマール積です。W(F)は、固定重みではなく、たたみ込み演算を使用してFから計算されることに注意してください。したがって、ステップサイズが2の平均プーリングペアF〜\ widetilde Fを使用します。F 操作後、サイズk * kの識別RoI特徴が取得されます。標準のFaster R-CNNでは候補領域の分類結果が最後の2つの完全に接続されたレイヤーを通じて取得されるため、判別的RoIプーリング後の候補領域の特徴は1次元のグローバルベクトルと見なすことができます。
  オフセット予測と識別的RoIプーリングの後、抽出された特徴には、ターゲットとコンテキストの両方に関連する識別的特徴が含まれている可能性が高く、分類パフォーマンスをさらに向上させるのに非常に役立ちます。

3.3インスタンスのセグメンテーション

  私たちが推奨する方法は、密な局所回帰ブランチを変更するだけで、インスタンスのセグメンテーションに簡単に拡張できます。すべての領域が特定のターゲットのグラウンドトゥルースバウンディングボックスGにあると想定する場合と比較すると、インスタンスセグメンテーションに使用されるこのグラウンドトゥルースマスクは、元々ローカルフィーチャp i∈Pにラベルを付けるために使用されていました(式3を参照)。マスクベースのグラウンドトゥルースバイナリオーバーラップmは、バイナリオーバーラップ予測m ^ \ widehat mをトレーニングするために使用されますメートル そして、密な回帰ブランチのオフセット予測。さらに、2つのデコンボリューションレイヤーを使用して出力解像度を4倍(つまり、7 7から28 28)に拡大し、2つの完全に接続されたレイヤーを使用してマスクを効果的にスコアリングします。私たちの方法は効果的なインスタンスセグメンテーションフレームワークを提供し、そのパフォーマンスは比較的良好です。

実験

4.1データセットと実装の詳細

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/ThunderF/article/details/107334617