ある記事では、回転ターゲット検出の包括的な概要を要約しています:紙の方法とコード

最初にDOTAデータセットの公式ウェブサイト(http://captain.whu.edu.cn/DOTAweb/index.html)に掲載されます。公式ウェブサイトは、水平および回転するターゲットを送信するためのインターフェイスを提供します。リアルタイムで確認できます。検出結果のランキング(http://captain.whu.edu.cn/DOTAweb/index.html)。.whu.edu.cn / DOTAweb / results.html)、現在の上位5つは武漢のXiaGuisongチームによるものです。大学、南京科学技術大学のpca_lab、サイバー会社、中国科学アカデミーの電子工学研究所、およびAliidst。いくつかのチームの紹介を見るには、前のプラス記号をクリックしてください。

DOTAスピニングターゲットトラックのリアルタイムランキング(2019 12-22)

以下の方法を提出時間順に紹介します。

 

1. RRPN(2段階のテキスト検出Huake Baixiang Group)

時間:2017年3月3日

题目:回転提案による任意指向のシーンテキスト検出

リンク:https://arxiv.org/abs/1703.01086

革新:

あらゆる方向のシーンテキスト検出を実現するために、RPNアーキテクチャに基づく回転候補フレームを最初に導入する必要があります。回転したアンカーに基づいて回転したROIを取得し、対応する特徴を抽出すると、次のような効果が得られます。

                                                               

                                                                                                                                       パイプライン

                                                                                 

                                                                                                                              事前定義されたアンカー

2. EAST(シングルステージテキスト検出器Questyleテクノロジー)

時間:2017年4月11日

题目:EAST:効率的で正確なシーンテキスト検出器

リンク:https://arxiv.org/pdf/1704.03155.pdf

解釈を知る:https://zhuanlan.zhihu.com/p/37504120

革新:

  • 単一段階の検出フレームワーク、図3が提案されています。図c、図d、およびeに示すように、回転ターゲット(特徴点から回転フレームの4つの側面までの距離と角度情報)を定義する新しい方法を提案して、4つの距離と角度の情報をそれぞれ予測します。

  • 下の図の左上隅(a)にある緑色のボックスの範囲を縮小するために、回転したグラウンドトゥルースボックスを内側に拡大縮小して、アンカーフリーの方法で回転するターゲットを検出する初期の試みと見なす必要があります。特徴点は、ポジティブサンプルとしてこの緑色のボックスに分類されます。2019年のアンカーフリーの水平ボックスターゲット検出器FoveaBoxは、このアイデアにいくぶん似ています(arxiv.org/abs/1904.0379)

 

                                                                                    

                                                                                    

  • nmsプロセスを加速するためにLocality-AwareNMSを提案する

 

3. R2CNN(2段階のテキスト検出Samsung China)

時間:2017年6月29日

题目:R2CNN:方向ロバストシーンテキスト検出のための回転領域CNN

リンク:https://arxiv.org/ftp/arxiv/papers/1706/1706.09579.pdf

解釈を知る:https://zhuanlan.zhihu.com/p/41662351

革新:

  • 回転するターゲットを定義する新しい方法を提案します(最初の2つのコーナーポイントx1 y1 x2 y2と4つのコーナーポイント間の長方形の高さを時計回りに検出します)

                                                          

  • 全体として、より高速なrcnnフレームワークが使用されます。一部のテキストボックスの高さのギャップが広いことを考慮して、7x7のプールサイズに加えて、3x11と11x3の2つのプールサイズがROIプール中に追加されます。3x11は、高さよりも幅の広いフレームの検出に適した水平方向の特徴をより適切にキャプチャできます。一方、11x3は、幅よりも高さのあるフレームの検出に適した垂直方向の特徴をより適切にキャプチャできます。

                                                     

4. RR-CNN(2段階の船舶検査、自動化研究所、中国科学院)

時間:2017年9月

题目:船の検出のための回転領域ベースのCNN

リンク:https://ieeexplore.ieee.org/document/8296411

革新:

  • RRoIプーリングレイヤーを提案して、回転するターゲットの特徴を抽出します

  • 回帰回転ターゲットモデル

  • 従来のNMSは同様の目標のために行われ、この記事では複数のカテゴリのマルチタスクNMSを提案します

                                                                   

                                                                                                                                         ロイプーリング

                                                                    

                                                                                                                                   マルチタスクnms

5. DRBOX(2段階のターゲット検出、電子研究所、中国科学アカデミー)

時間:2017年11月26日

题目:回転可能なバウンディングボックスを備えた回転不変検出器の学習

リンク:https://arxiv.org/pdf/1711.09405.pdf

革新:

  • ネットワークパイプラインは次のとおりです。ペーパータイムは比較的早く、使用されているネットワーク構造につ​​いて具体的には述べていません。他のペーパーを参照してください。DRBOXはRPN構造に似ています。

  • 以前、回転するターゲットを検出するために水平フレームを使用する際の問題について説明しました。

6. TextBoxes ++(シングルステージHuake Baixiangグループ)

時間:2018年1月9日

题目:TextBoxes ++:シングルショット指向のシーンテキスト検出器

リンク:https://arxiv.org/pdf/1801.02765.pdf

知乎の解釈:https://zhuanlan.zhihu.com/p/33723456

革新:

  • SSDに基づいて水平フレームと回転フレームを検出します

  • 不規則な畳み込みカーネルを使用します。

    3x5コンボリューションカーネルはtextboxes ++で使用され、アスペクト比が大きいテキストによりよく適応します。

  • OHEM戦略を使用する

    トレーニングプロセスは、従来のOHEMとは異なるOHEM戦略を採用しており、トレーニングは2つのステージに分かれています。ステージ1の正負のサンプル比率は1:3で、ステージ2の政府サンプル比率は1:6です。

  • マルチスケールトレーニング

    Textboxes ++は完全な畳み込み構造を使用しているため、さまざまなスケールの入力に適応できます。さまざまな規模の目標に適応するために、マルチスケールトレーニングが使用されます。

  • カスケードNMS

    傾斜したテキストのIOUの計算には時間がかかるため、作成者はカスケードNMSを使用してIOU計算を高速化します。最初に、すべてのボックスの最小境界長方形のIOUを計算し、しきい値0.5でNMSを実行し、ボックスの一部を作成し、傾斜ボックスを計算します。IOUに基づいて、しきい値が0.2のNMSを作成します。

 

7.航空画像での方向付けられたオブジェクト検出のためのROIトランスフォーマーの学習(cvpr2019武漢大学Xia Guisong 2段階)

時間2018年12月1日

题目:航空写真における指向性物体検出のための学習ROIトランスフォーマー

論文へのリンク:https://arxiv.org/abs/1812.00155

革新:

  • 水平アンカーに基づいて、RPNステージでは、完全に接続された学習を使用して回転ROIを取得します(この記事は水平アンカーから学習して回転ROIを取得し、量を削減するため、多くの回転アンカーを設定するRRPNとは異なります)計算の)、回転ROIに基づいて特徴を抽出し、次に検索して分類します

  • 回転位置に敏感なRoIアライメント

    回転フレームに基づいて投資収益率の特徴を抽出します

8. R2PN(2段階)

時間:2018年8月

题目:回転領域提案と識別ネットワークによる任意指向の船舶検出に向けて

リンク:https://www.researchgate.net/publication/327096241_Toward_Arbitrary-Oriented_Ship_Detection_With_Rotated_Region_Proposal_and_Discrimination_Networks

革新:

  • RRPNのように感じます。回転アンカーに基づいて、回転ROIがRPNを介して取得され、回転ROIに基づいて特徴が抽出されてから、測位と分類が実行されます。この記事とLearningroiトランスフォーマーの違いは、前者は回転アンカーであり、後者は水平アンカーであるため、計算が少なくて済みます。

9. R2CNN ++(SCRDet)(2段階、電子研究所、中国科学アカデミー)

時間:2018年11月17日

题目:SCRDet:小さく、雑然とした、回転したオブジェクトのよりロバストな検出に向けて

リンク:https://arxiv.org/abs/1811.07126

機能融合と空間およびチャネル注意メカニズムを追加します。水平アンカーに基づいて、RPNによって大まかなROIが予測され、検出ヘッドがターゲットの任意の角度の座標予測(x、y、w、h、θ)を実現します。パイプラインは次のとおりです。

ピップライン

革新:

  • SF-Net:小さなターゲットを効果的に検出するための異なるレイヤーの2つの機能マップのカスタマイズされた融合

SF-Net

  • MDA-Net:チャネルアテンションとピクセルレベルのアテンションメカニズムを使用して、密なターゲットと小さなターゲットを検出します

MDA-Net

  • 回転するターゲットが垂直(0°から-90°)のときに角度が不連続に変化する問題を解決するために、スムーズなL1lossの改良版を提案しました。

10. CAD-Net(2フェーズ)

時間:2019年3月3日

题目:CAD-Net:リモートセンシング画像内のオブジェクトのコンテキストアウェア検出ネットワーク

リンク:https://arxiv.org/pdf/1903.00857.pdf

革新:

  • グローバルコンテキスト情報をターゲット検出に統合するためのGCNet(グローバルコンテキストネットワーク)を提案する

  • PLCNet(ピラミッドローカルコンテキストネットワーク)が空間的注意学習ターゲットコラボレーション関係を導入することを提案し、

                                               

                                                                                                           ネットワークパイプライン

                                                              

                                                                                                           PLCNet構造

                                                                 

                                                                                                             空間的注意

11. R3Det(1段回転ターゲット検出が渡されました&Nanli&Kuangshi)

2019年8月の時間

题目:R3Det:回転物体用の機能改良を備えた改良型シングルステージ検出器

論文へのリンク:https://arxiv.org/abs/1908.05612

コード:https://github.com/SJTU-Thinklab-Det/R3Det_Tensorflow

解釈リンク:https://ming71.github.io/R3Det

革新:

  • 回転ターゲット検出(水平ターゲット検出も)は、アンカーが配置されている特徴点の受容野とターゲットの位置および形状(下図の左上隅、緑色のボックスがアンカーであり、それが配置されている特徴点は、この船の一部しか見ることができません。次に、この点の特徴を直接使用してアンカーに戻り、グラウンドトゥルース(赤いボックス)に合わせる必要はありません)。したがって、このペーパーは分割されます。次のように、最初のステージはアンカー(オレンジ色のボックス)から回転ボックスを予測します。図の赤い数字は1-> 2です。このとき、オレンジ色のボックスの範囲は実際のターゲットに非常に近く、次に、オレンジ色のボックスに従って特徴が抽出され(ROIプーリング特徴の抽出と同様であると理解しています)、下の赤に示すように、この特徴を介してグラウンドトゥルースがグラウンドトゥルースに返されます。番号2-> 3。

                                                               

  • ネットワーク構造はRetinaNet構造に従い、複数回重ね合わせることができる機能改良モジュールを導入しています

                                                      

                                                                                                            ネットワークバックボーンは網膜構造を使用します

                                                                           

                                                                                                         機能改良モジュール

 

Matlab、Python、C ++でのプログラミング、機械学習、コンピュータービジョン理論の実装とガイダンス、学部と修士の両方の学位、塩漬け魚の取引、専門家の回答をご覧ください。詳細については、QQ番号757160542にお問い合わせください。

 

 

おすすめ

転載: blog.csdn.net/weixin_36670529/article/details/114553278