【コンピュータビジョン | ターゲット検出】ドライ情報:ターゲット検出の一般的なアルゴリズム入門集 (3)

31、FoveaBox

FoveaBox は、オブジェクト検出のためのアンカーフリーのフレームワークです。FoveaBox は、事前定義されたアンカーを使用してオブジェクトを検索するために可能な位置、スケール、アスペクト比を列挙するのではなく、アンカー参照を必要とせずに、オブジェクトが存在する可能性と境界ボックスの座標を直接学習します。これは、(a) オブジェクトが存在する可能性についてクラスに依存したセマンティック マップを予測し、(b) オブジェクトが含まれる可能性のある各場所に対してクラスに依存しない境界ボックスを生成することによって実現されます。ターゲット ボックスのスケールは、各入力画像の特徴ピラミッド表現に自然に関連付けられます。

これは、バックボーン ネットワークと 2 つのタスク固有のサブネットワークで構成される単一の統合ネットワークです。バックボーン ネットワークは、入力画像全体の畳み込み特徴マップを計算する役割を担っており、既成の畳み込みネットワークです。最初のサブネットはバックボーン ネットワークの出力に対してピクセルごとの分類を実行し、2 番目のサブネットは対応する位置に対してバウンディング ボックス予測を実行します。

ここに画像の説明を挿入します

32、MobileDet

MobileDet は、モバイル アクセラレータ用に開発された物体検出モデルです。MobileDets は、特に深い畳み込みの効率が低くなる傾向にあるネットワークの初期段階で、EdgeTPU と DSP 上で通常の畳み込みを広範囲に使用します。これは、アクセラレータがニューラル アーキテクチャ検索を通じてネットワーク内に戦略的に配置されている場合、アクセラレータでのオブジェクト検出の遅延と精度のトレードオフを改善するのに役立ちます。検索空間で従来の畳み込みを組み合わせ、物体検出用のネットワーク アーキテクチャを直接最適化することにより、一連の効率的な物体検出モデルが得られます。

ここに画像の説明を挿入します

33、ヨロップ

YOLOP は、交通物体の検出、走行可能エリアの分割、車線の検出を同時に処理するパノラマ運転認識ネットワークです。これは、特徴抽出用のエンコーダーと、特定のタスクを処理するための 3 つのデコーダーで構成されます。これは、テスラの自動運転車 HydraNet モデルの軽量バージョンと考えることができます。

Scaled-yolov4 の軽量 CNN をエンコーダーとして使用して、画像から特徴を抽出します。これらの特徴マップは 3 つのデコーダーに供給され、それぞれのタスクを完了します。検出デコーダは、現在最もパフォーマンスの高い 1 段階検出ネットワーク YOLOv4 に基づいています。その主な理由は次の 2 つです。(1) 1 段階検出ネットワークは 2 段階検出ネットワークよりも高速です。(2) シングルステージ検出器のグリッドベースの予測メカニズムは、他の 2 つのセマンティック セグメンテーション タスクにより関連性がありますが、インスタンス セグメンテーションは通常、マスク R-CNN などの領域ベースの検出器と組み合わせられます。エンコーダによって出力された特徴マップは、さまざまなレベルとスケールでセマンティック特徴を融合し、セグメンテーション ブランチはこれらの特徴マップを使用してピクセルごとのセマンティック予測を完了できます。

ここに画像の説明を挿入します

三十四、コンテキストアウェア ビジュアル アテンション ベース (CoVA) Web ページ オブジェクト検出パイプライン

ここに画像の説明を挿入します
ここに画像の説明を挿入します

三十五、Side-Aware Boundary Localization

側面認識境界位置特定 (SABL) は、物体検出における正確な位置特定のための方法であり、専用のネットワーク ブランチを使用して境界ボックスの各側面が個別に位置特定されます。著者らは経験的に、オブジェクトの境界ボックスに手動で注釈を付ける場合、サイズ変更時にボックス全体を移動するよりも、ボックスの各辺をオブジェクトの境界に揃える方がはるかに簡単であることを観察しています。この観察にヒントを得て、SABL では、境界ボックスの各辺が周囲のコンテキストに基づいて個別に配置されます。

図に示すように、著者は位置精度を向上させるためにバケット化スキームを設計しました。このスキームでは、境界ボックスの各辺についてターゲット空間を複数のバケットに分割し、2 つのステップで境界ボックスを決定します。具体的には、最初に正しいバケット、つまり境界があるバケットを検索します。選択したバケットの中心線を大まかな推定値として使用し、オフセットを予測して詳細な回帰を実行します。この方式により、変動が大きい変位が存在する場合でも、非常に正確な位置決めが可能になります。さらに、非最大抑制中に正確に配置された境界ボックスを維持するために、著者らは、バケット化の信頼度に基づいて分類スコアを調整し、それによってパフォーマンスをさらに向上させることも提案しています。

ここに画像の説明を挿入します

36、ダイナミック R-CNN

ダイナミック R-CNN は、トレーニング中の提案の統計に基づいて、ラベル割り当て基準 (IoU しきい値) と回帰損失関数の形状 (Smooth L1 Loss のパラメーター) を自動的に調整するオブジェクト検出手法です。その動機は、以前の 2 段階の物体検出器では、固定ネットワーク設定と動的トレーニング プロセスの間に不一致の問題があったことにあります。たとえば、固定ラベル割り当て戦略と回帰損失関数は提案の分布の変化に適応できず、高品質の検出器のトレーニングには役立ちません。

これは、動的ラベル割り当てと動的平滑化 L1 損失の 2 つのコンポーネントで構成され、それぞれ分類分岐と回帰分岐用に設計されています。

動的ラベル割り当ての場合、モデルが高 IoU プロポーザルを区別できることを期待しているため、トレーニング中にプロポーザルの分布に応じてポジティブ/ネガティブ サンプルの IoU しきい値を徐々に調整します。具体的には、ディストリビューション全体の品質を反映できるため、しきい値を提案の IoU の一定の割合として設定します。

Dynamic Smooth L1 Loss の場合、回帰損失関数の形状を変更して誤差の分布変化に適応的に適合し、高品質のサンプルがトレーニングに確実に寄与できるようにしたいと考えています。これは、Smooth L1 Loss の回帰損失関数に基づいて誤差分布を調整することで実現され、小さな誤差勾配のサイズが実際に制御されます。

ここに画像の説明を挿入します

37、DAFNe

DAFNe は、指向性オブジェクト検出のための高密度の単一ステージのアンカーフリー深度モデルです。これは、入力画像の高密度グリッド上で予測を行うディープ ニューラル ネットワークであり、2 段階のネットワークよりもアーキテクチャ設計がシンプルで、最適化が容易です。さらに、境界ボックス アンカーの使用を回避することで、予測の複雑さを軽減します。これにより、特にオブジェクトが密集している場合に、指向性オブジェクトへのより厳密な適合が可能になり、境界ボックスをより適切に分離できるようになります。さらに、任意の四角形に対する中心関数の方向を意識した一般化を導入し、オブジェクトの方向を考慮し、それに応じて低品質の予測を正確に軽減します。

ここに画像の説明を挿入します

38、RPDet

RPDet (または RepPoints Detector) は、変形可能な畳み込みに基づくアンカーフリーの 2 段階の物体検出モデルです。代表点は、検出システム全体の基本的なオブジェクト表現として機能します。中心点から開始して、RepPoint の最初のセットが中心点の回帰オフセットによって取得されます。これらの RepPoint の学習は 2 つの目標によって推進されます: 1) 疑似ボックスとグラウンド トゥルース境界ボックスの間の左上点と右下点の間の距離損失を誘発すること、2) 後続の段階でのオブジェクト認識損失。

ここに画像の説明を挿入します

39、RetinaNet-RS

RetinaNet-RS は、入力解像度と ResNet バックボーン深度の変更に基づいたモデル スケーリング手法を通じて生成された物体検出モデルです。RetinaNet では、入力解像度を 512 から 768 に拡張し、ResNet バックボーンの深さを 50 から 152 に拡張しました。RetinaNet は高密度の単一段階の物体検出を実行するため、入力解像度を拡大すると解像度の高い特徴マップが生成され、より多くのアンカー ポイントを処理する必要があることがわかりました。その結果、大容量の高密度の予測ヘッダーと高価な NMS が発生します。RetinaNet の場合、スケーリングは入力解像度 768 × 768 で停止します。

ここに画像の説明を挿入します

40、NAS-FCOS

NAS-FCOS は 2 つのサブネットワークで構成されます。1 つは FPN f であり、共有構造を持つ予測ヘッド h のセットです。他の FPN ベースの 1 レベル検出器との大きな違いは、ヘッドが部分的に重みを共有していることです。予測ヘッドの最後のいくつかのレイヤー (黄色でマーク) のみが重みに関連付けられます。共有レイヤーの数は、検索アルゴリズムによって自動的に決定されます。FPN とヘッドの両方が実際の検索空間内にあり、この図に示されているよりも多くのレイヤーがあることに注意してください。

ここに画像の説明を挿入します

41、エクストリームネット

xtremeNet は、オブジェクトの 4 つの極点 (上、左、下、右) を検出するボトムアップのオブジェクト検出フレームワークです。キーポイント推定フレームワークを使用して、オブジェクト カテゴリごとに 4 つのマルチモーダル ヒートマップを予測することで、極値ポイントを見つけます。さらに、各カテゴリのヒートマップを使用して、x 次元と y 次元の 2 つの境界ボックスのエッジの平均としてオブジェクトの中心を予測します。私たちは純粋にジオメトリベースのアプローチを使用して、極点をオブジェクトにグループ化します。中心ヒートマップの幾何中心予測スコアが事前定義されたしきい値より高い場合に限り、各マップに 1 つずつ、4 つの極値点をグループ化し、極値点予測のすべての組み合わせを列挙し、有効なものを選択します。

ここに画像の説明を挿入します

42、M2Det

M2Det は、マルチレベル特徴ピラミッド ネットワーク (MLFPN) を利用して入力画像から特徴を抽出し、SSD と同様に、学習された特徴に基づいて密な境界ボックスとカテゴリ スコアを生成する単一段階の物体検出モデルです。 -maximally 最終結果を生成するために (NMS) 操作を抑制します。

ここに画像の説明を挿入します

43、U2-Net

U2-Net は、顕著物体検出 (SOD) 用に設計された 2 レベルのネストされた U 構造アーキテクチャです。このアーキテクチャにより、メモリや計算コストを大幅に増加させることなく、ネットワークをより深く構築し、高解像度を実現できます。これは、ネストされた U 字型構造によって実現されます。最下位レベルでは、特徴マップの解像度を低下させることなく、ステージ内のマルチスケール特徴を抽出できる新しい ReSidual U 字型ブロック (RSU) モジュールが使用されます。最上位には、各ステージに RSU ブロックが配置される U-Net のような構造があります。

ここに画像の説明を挿入します

44、RFBネット

RFB Net は、受容野ブロックを利用した 1 段階の物体検出器です。VGG16 バックボーンを使用しており、その他の点では SSD アーキテクチャと非常によく似ています。

ここに画像の説明を挿入します

45、PP-YOLOv2

PP-YOLOv2 は、PP-YOLO に基づいて拡張されたオブジェクト検出器であり、多くの改良が加えられています。

FPN は、ボトムアップのパスを形成するパス アグリゲーション ネットワークで構成されます。
Mish アクティベーション機能を使用します。
入力サイズが拡大されました。
IoU 対応ブランチは、ソフト ラベル形式を使用して計算されます。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/wzk4869/article/details/132863435