[RFB_Net]アルゴリズムに関する注意

ペーパー:正確で高速なオブジェクト検出のための受容フィールドブロックネット
ペーパーリンク:https://arxiv.org/abs/1711.07767
コードリンク:https://github.com/ruinmessi/RFBNet

これは、ターゲット検出に関するECCV2018の記事であり、ターゲット検出用のRFBネットネットワークを提案します。これにより、速度を考慮しながら良好な結果を得ることができます。ネットワークは、主にSSDネットワークに受容野ブロック(RFB)を導入します。RFBの導入の開始点は、人間の視覚の受容野をシミュレートすることにより、ネットワークの特徴抽出機能を強化します。拡張された畳み込み層が追加され、受容野が効果的に増加します。全体的に、SSDネットワークに基づいて改善されているため、検出速度は比較的速く、精度も保証されています。

この記事の主な内容はRFB構造の紹介であり、図2にRFBの効果の概略図を示します。中央の点線のフレームはRFB構造です。RFB構造には、2つの主要な特性があります:1.異なるサイズのたたみ込みカーネルのたたみ込み層で構成されるマルチブランチ構造この部分は、インセプション構造を参照できます。図2のRFB構造では、さまざまなサイズの円を使用して、さまざまなサイズの畳み込みカーネルの畳み込み層を表します。2.拡張された畳み込み層が導入されました。拡張された畳み込み層は、以前はセグメンテーションアルゴリズムDeeplabで使用されていました。主な役割は、変形可能な畳み込みに似た受容野を増やすことでもあります。図2のRFB構造では異なるレートが使用され、拡張されたたたみ込み層のパラメーターを表します。RFB構造では、さまざまなサイズとレートの畳み込み層の出力が連結されて、さまざまな機能を融合する目的が達成されます。図2のRFB構造では、3つの異なるサイズと色の出力が重ねて表示されています。図2の最後の列では、融合された特徴が人間の視覚受容野と比較されています。図から、それらが非常に近いことがわかります。これは、この記事の出発点でもあります。デザイン。

図4は、2つのRFB構造の概略図です。(A)はRFBです。全体的な構造はInceptionの概念に基づいています。主な違いは、3つの拡張された畳み込み層(3 * 3conv、rate = 1など)の導入であり、これはこの記事で受容野を増やす主な方法でもあります。一つ。(B)はRFB-sです。RFBと比較して、RFB-sには2つの主な改善点があります。一方で、3 * 3のたたみ込み層は、5 * 5のたたみ込み層を置き換えるために使用されます。このレイヤーの主な目的は、後のバージョンのInceptionでのInception構造の改善と同様に、計算量を減らすことです。

図5は、基本的にSSDに似ているRFB-Net300の全体構造の概略図です。SSDとの違いは次のとおりです。1. 2つの元のRFB構造が、バックボーン上の2つのRFB構造に置き換えられています。2. Conv4_3とconv7_fcは、それぞれ予測レイヤーの前にRFB-sとRFB構造に接続されており、これらの2つの構造の模式図を上の図4に示しています。

実験結果:表
1は、PASCAL VOC2007テストセットデータセットのテスト結果であり、トレーニングセットは2007および2012 trainvalに基づいています。RFB Net300は、mAPとFPSの両方でうまく機能します。

表4は、COCO test-dev 2015データセットのテスト結果です。最後のRFB Net512-Eは、主に2つの変更を加えました。1. conv7_fcの出力機能をアップサンプリングし、conv4_3の出力機能とマージして、融合機能に基づいて予測を行います。このアプローチは、実際にはFPNアルゴリズムのアイデアを利用しています。2. RFB構造に7 * 7サイズのたたみ込みブランチを追加しました。これらの2つの改善により、効果が向上し、計算が少なくなります。

図6は、COCO test-devデータセットに対するいくつかのアルゴリズムの有効性と速度を直感的に比較したものです。

 

 

彼は190元の記事を発表 ウォンの賞賛497の ビュー206万+

おすすめ

転載: blog.csdn.net/u013066730/article/details/105455088