[ターゲットの検出] ThunderNet:超軽量型検出ネットワーク、技術としてクァン

紙:ThunderNet:リアルタイム汎用オブジェクト検出に向けて

論文リンク:https://arxiv.org/abs/1903.11752?context=cs.CV

オープンソース:https://github.com/qixuxiang/Pytorch_Lightweight_Network 1

ThunderNetは非常に迅速に行われ、言わなければなりません。条、多くの洞察力があります。

公式の定義はこれです:リアルタイム検出およびARMプラットフォーム上で最速のシングルスレッド化の速度の最初の実装。

個人的に私は入力解像度とカップリングネットワークバックボーン容量ことを感じ、これは検討する価値があります。それは、今、オープンソースでの学習の価値があります。


要約:

モバイルプラットフォーム上の汎用オブジェクトのリアルタイム検出は、重要なものの、コンピュータビジョンのタスクに挑戦です。しかし、以前のシーンに限定されているリアルタイムの推論計算でそれらを妨げるCNN検出器ベースの莫大な計算コストを、苦しみました。本稿では、と呼ばれる提案するリアルタイム検出に2つの汎用検出器の有効性を調査し、検出器ThunderNetの軽量二段対象バックボーン・セクションでは、我々は以前に軽量骨格の欠点を分析し、物体の検出のための軽量フレームワークを提案しました。検出部では、RPNと非常に効率的な検出ヘッドのデザインを活用します。より識別機能表現を生成するために、我々は注意モジュールを強化するために、2つの効率的なアーキテクチャのブロック、モジュール、および空間コンテキストを設計しました。最後に、我々は、入力解像度、トランクと検出ヘッドとの間のバランスを検討しました。光検出器と比べて、ThunderNet PASCAL VOCとCOCOベンチマーク、優れた性能で算出されたコストの40%。いいえ添えものは、ARMベースのデバイス上の私たちのモデルは24.1 fpsで動作していません。我々の知る限り、これはARMプラットフォーム上の最初の報告、リアルタイムの検出器です。


モデル

画像

基本的なアーキテクチャ:

1、ThunderNet入力ネットワークとして320×320ピクセルの解像度を使用。

骨格部分と検出部2は、ネットワークの全体的な構造は、2つの部分に分割されます。ネットワークのバックボーンであるSNET

図3は、SNETはベースShuffleNetV2修正を得られます。ネットワークの一部を検出し、圧縮RPNを利用するネットワークは、ネットワークの効率を向上させるためにライトヘッドR-CNNから変更しました。そして、提案コンテキスト拡張モジュールのネットワーク機能のスキルを強化し、ローカルおよびグローバルの機能を統合するために。提案された空間的注意モジュールの空間的注意モジュール、最適化の特徴分布RPNのために、前景と背景情報から導入されます。


背骨

画像

SNet49高速推論するための、
よりよい精度のためSNet535、
良好速度/精度のトレードオフのためにSNet146。

1、実際には、観測された入力解像度は、バックボーンネットワークの容量と一致する必要があります小さな入力の小規模および大規模な基幹バックボーンの大きな入力が最良の選択肢ではないと、著者は、320 * 320の入力画像のサイズを使用しました。

まず、大きな受容野が非常に重要である:2は、バックボーンネットワークは、主に2つの特徴を持っている必要があります。第二:浅い機能が豊富な場所の情報、より大きな深さは差別、したがって、これらの2つの機能のバランスを取る必要性を備えています。著者らは、これらの原則に違反して主流軽量ネットワークと信じているので、これらの特性の組み合わせを変更し、SNETと命名されShuffleNetV2。


検出

画像

改善された検出パート1:

  • それでもネットワークバックボーン重に結合され、バックボーンを引き起こすことができるが一部を検出することは、より軽量のネットワークは、軽量の検出器を使用しているが、ライトヘッドR-CNNネットワークの構造に従うが、上記SNETネットワークと検出器の間の不均衡。この不均衡は、冗長な計算をさせるだけでなく、オーバーフィッティングのリスクを増大させるだけでなく、。
  • この問題を解決するために、分離可能な畳み込み深さ(mobilenetv1)の使用は、3×3の元の畳み込みRPNネットワークを置換、5×5のコンボリューション及び1×1です。RPN {32×32,64×64128×128256×256512×512}、1のアンカー{アスペクト比などのネットワークで使用されるスケールとサイズ:2,3:4,1:1,4:3,2 :1}。そして、同じR-CNNライトヘッドの残りのパラメータ。

画像


 

画像

改善された検出部2(コンテキスト拡張モジュール):

  • GCN後にネットワークバックボーンを用いた光ヘッドR-CNNネットワーク:グローバル畳み込みネットワーク図は、これが受容野を増加するが、より小さなフィーチャを生成するが、計算の複雑さを高め、従ってThunderNet GCNを使用しません。
  • しかし、GCNネットワーク機能情報のない小さなフィールドと感触が解決されるのに十分に抽出することは困難です。この問題を解決するために、著者はピラミッドネットワークFPNの機能を使用しています。しかしながら、FPNの元の構造は、多くの畳み込み操作の計算コストが増大し、大きな時間遅延を生じさせる追加の検出ブランチ、複数を含みます。したがって、FPNに基づいて、著者らは、コンテキスト拡張モジュール(CEM)を提案します。

主なアイデア:高分子規模のローカル情報とグローバルな情報がより際立った特徴を生成します。

  • スケール:C4畳み込み図1×1が圧縮されているチャネルの数に適用される、請求α×P×P = 245
  • 二次元:C5 + C5アプリケーションにサンプル請求の畳み込みにチャネルの図1×1の数の圧縮α×P×P = 245
  • 三次元:CglbはCglbブロードキャスト+ 1に対して実行×1図は、チャネルの数に適用される畳み込みは、圧縮α×P×P = 245です。
  • ローカルおよびグローバルな情報を用いて、CEMを効果的受容野、及び薄い特性図を示すを改良する能力を拡張します。より計算に優しいだけで2コンボリューションとFC 1×1層を、関与する以前の設定FPN、CEMと比較すると。

画像

改良された検出部3(空間的注意モジュール):

  • キーアイデア:特徴マップを絞り込むことRPNから学んだ知識の分布特性を使用しては、明示的に再加重機能は、ターゲットの特性が重視され、その結果、歪んだ空間次元RoIの前にマッピングします。
  • 式は次のとおりです。画像
  • ここでθ図の二つの特徴と一致するように、チャネルの数を大きさを変えています。シグモイド関数を制限するための[0,1]の値。最後に、このようなCEMの機能によって生成されたマッピングは、より良好な分布特性を得るために、加重再。

 

実験

VOC 2007:

画像


COCO:
 

画像

 

画像

 

 

公開された49元の記事 ウォン称賛41 ビュー30000 +

おすすめ

転載: blog.csdn.net/DL_wly/article/details/100142316