カスケードR-CNN

情報論文

Zhaoweiカイ、ヌノヴァスコンセロス。カスケードR-CNN:高品質の物体検出掘り下げます。CVPR 2018。

序文

またはその序文プラス要約。

下限閾値IOUトレーニングオブジェクト検出器を使用する際のパフォーマンスが改善され、これは主二つの理由であってもよい見つけるために閾値を上昇させる場合、通常騒々しい検出を引き起こします。

  1. 陽性サンプルのしきい値を持ち上げた後、「指数関数」も減少するであろう。
  2. これは、モデルが最適化され、適応提案IOU入力された一致していません。

カスケードR-CNNはこの大きな問題を解決するために提案しました。

これは、各ステージの出力が良好に分布している注目すべきであるので、次の段階の便利な順序増分IOU検出トレーニングシーケンスと、得られた組み合わせの一連から成る。これらの増分元として知られている提案(TO仮説、以下同じ)リサンプリングが等しい大きさの正のセットを確保、これはおそらく理由の緩やかなリフティングのオーバーフィッティングの問題を(容易になり作る、あなたは、このようにあまりにので、正のセットを拡大し、より多くの貧困層のデータの一部を使用することができますフィッティング寛解)。

前書き

比較図0.5及び0.7に示すように、R-CNNなど一般的に使用されるモデルIOU閾値0.5は、そう余りに要件ルース陽性を持って、あまりにも多くの非遵守をもたらす提案は、(元の引数は、ノイズバウンディングボックスです)違い:

compareiou

図から、我々は簡単に多くの左右BBOXより見て、より多くのBBOXほとんど無意味にすることができます。

ほとんどの人間がIOUに0.5よりも大きくすることができるという仮定の下で比較的容易例では、オブジェクト(略して偽陽性、FP)のような機械の自由決定されるオブジェクトのそれらを区別することができる。0.5未満種々の例と内容について言えば、人間とマシンが効率的にこれらのFPの例を分離するのが困難です。

高品質の学習課題を解決するために - 本稿の作業は最初のシリーズ案のIOU(元定義と)を生成することであり、そのIOU対応する検出器の訓練に続いこれは著者らが提案した二つの質問が解決されている入れているようです困難検出器(検出器は、前の出力サンプルは、多くの場合、多くのFPが含まれています)。

本明細書で解決重要な思想は、最適化すべき各個々の検出単一IOU(オリジナルと呼ばれる品質レベル)が以前同様の作業が、この論文の思想とその異なるが、以前にFPレートの最適化であった、これはIOUは、閾値の最適化を与えられました。

iounumscp

2〜図図は、一般的に高い変化IOU IOU予め設定された入力サンプルの出力はハイ、ローIOU IOU予め設定された入力サンプル出力は、好ましくは低いことが好ましい示す。すなわち、入力値が設定値と一致しています場合で最高のパフォーマンス。

しかし、ただ単に、無使用のしきい値を上げるも右で見ることができ、落下まだしきい値出力を増加させ、高品質の検出器を生成するために、著者は理由陽性サンプルの後に、これはしきい値を上げることが原因である可能性がありと信じてあまりにも少ない。もともとニューラルネットワークは非常に壊れやすいので、少しのサンプルを簡単にオーバーフィットにつながることができます。もう一つの問題は、単に一致しない言及した入力IOU予め設定した閾値との問題です。

物体検出

著者は第一の方法の概略図は、より人気があった与え、温家宝首相は、私たちが呼ぶ、この図の後に何度も使用構造図を主要な文字の数字も説明を与える意味します:

archofnowdays

バウンディングボックス回帰

我们知道bbox对于所框选的图片块\(x\)通常由四个坐标构成: \(\b = (b_x, b_y, b_w, b_h)\), bbox regression就是将这个预测的bbox对实际bbox \(g\)进行regress, 这个过程借助regressor \(f(x, b)\)进行, 因此最终就是优化这样一个函数:
\[ R_{loc}[f] = \sum\limits_{i = 1}^{N}L_{loc}(f(x_i, b_i), g_i) \]
其中\(L_{loc}\)在R-CNN是一个\(L_2\) loss, 而在Fast R-CNN, 是一个\(L_1\) loss. 为了使预测尽可能与实际接近, \(L_{loc}\)实际操作一个距离向量:
\[ \Delta = (\delta_x, \delta_y, \delta_w, \delta_h) \]
其中:
\[ \delta_x = (g_x - b_x) / b_w\\ \delta_y = (g_y - b_y) / b_h\\ \delta_w = log(g_w / b_w)\\ \delta_h = log(g_h / b_h) \]
想要指出的是, bbox regression中一般b差异不大, 那么就会使\(L_{loc}\)很小, 为了提升他的effectiveness, 那么一般会使其归一化\(~N(0, 1)\), 也就是\(\delta_x' = (\delta_x - \mu) / \sigma_x\).

此前有工作argue单独用一次regression step of f定位精度不够, 因此他们就重复进行f regress:
\[ f'(x, b) = f \circ f \circ \cdots \circ f(x, b) \]
即所谓迭代bbox regression(iterative bounding box regression), 此方法对应上图中(b), 但此方法还是有两个问题:

  1. regressor f是在0.5的阈值训练, 对于更高阈值的proposal, regressor欠优化, 对于IOU大于0.85的proposal抑制尤为明显.

  2. 每次迭代之后的分布都在明显变化, 很可能初始分布较好, 但经过几次迭代之后反而表现更差了. 下图给出一例.

    反復

正因为其特性, 此方法需要一些后期处理. 此方法因此也是不稳定的, 通常迭代超过两次以后基本再无太大变化.

Classification

和先前的方法基本不变, 分类时对于proposal分成\(M + 1\)类, 其中第0类是bg, 预测结果\(h_k(x) = p(y = k | x)\), 其中\(y\)是指被预测对象类别, 那么最终得到被优化的函数:
\[ R_{cls}[h] = \sum\limits_{i = 1}^NL_{cls}(h(x_i), y_i) \]
这里\(l_{cls}\)是经典交叉熵损失.

Detection Quality

和以前一样, 当proposal IOU大于某个阈值, 则预测label y, 否则为bg(label y = 0). IOU设置高或低的优缺点此前已经讲过, 此前有通过结构图中(c)的做法对多level的输出计算损失并优化:
\[ L_{cls}(h(x), y) = \sum\limits_{u \in U}L_{cls}(h_u(x), y_u) \]
U就是多IOU阈值. 因此所有classifiers在推理过程中一起使用, 但有个关键问题是不同classifier接收的positives的数量不同! 在下图中的左图就是这种情况, 首先高IOU样本数量太少, 很容易过拟合; 其次高预设IOU classifier又不得不处理众多不适宜的第IOU样本. 另外这张图也请牢记, 我们称之为分布图.

分布

Cascade R-CNN

结构如结构图(d)所示.

Cascaded Bounding Box Regression

既然单个classifier很难适应多IOU, 那么作者就设计了顺序的多个classifier, 与iterative bounding box regression相对应, 本文的结构:
\[ f'(x, b) = f_T \circ f_{T - 1} \circ \cdots \circ f_1(x, b) \]
这里每个regressor\(f_t\)都是预优化过的,

它与iterative bounding box regression(IBBR for short)的不同有以下几点:

  • IBBR是对同一个网络重复迭代优化, cascaded regression是通过resample使每一级输出都能被下级使用.
  • cascaded regressor是既用于训练又用于推理, 那么训练集和推理集就不会有不匹配的情况了.
  • 每一级输出需要resample, 其后对每一级都会进行优化而不是向IBBR一样只是最终相当于对输入优化.

我想解释一下, 为什么输入为低IOU最后还会优出适应较高IOU的regressor, 这利用到全文第二张图的左图, 我再贴出来一边便于观察:

iounumscp

左图中我们可以看出输出在大多数情况都是好于输入的, 那么我们逐级递增地设置regressor, 最终输出的也就是单一regressor几乎不可能达到的高IOU.

Cascade Detection

在分布图中我们可以发现, 每一阶段处理之后分布重心都会向高IOU移动,这样有两个好处:

  1. 不容易过拟合.
  2. detector就可以对高IOU example训练, 而减轻以前的不匹配问题.

各ステージにおける\(T \)、R&CNN-分類器上にLT \(h_tの\)と回帰\(F_T \)しきい値\(U ^ T、U ^ T> U ^ {T - 1} \) 最適化状態、損失がある:
\ [L(X ^ T、G)= L_ {CLS}(h_t(X ^ T)、Y ^ T)+ \ラムダ[Y ^ T \ GEQ 1] L_ {LOC}。 (F_T(X ^ T、B ^ T)、G)\] \(B = F_ {T ^ T - 1}(X ^ {-1} T、B T ^ { - } 1)\。)、Gされている(X ^ Tの\)\真実グラウンド。\(\ラムダ\)は調整パラメータである。\([Y ^ Tの\のGEQ 1] \)指していない場合にのみ計算BG \(L_ {LOC} \)

実験結果

ここだけ左右反転を使用し、他のトリックはありません。

モデルでは、次の比較実験の内容がより直感的であるため、将来的には、彼らの分析を補完しない場合があります。

E1

E2

E3

E4

結論

この著者に、冒頭で述べた2つの問題は、これらの問題に対処しようとしているとおり:

  1. 多段徐々に低いサンプルにおいてより「高IOU」IOUサンプルを得るために、IOUを向上させます。
  2. その高性能サンプルのための推論は、より良いIOUのを処理するとき、彼らは、高IOUサンプルに適応するように、高出力IOUサンプル、分類器のトレーニングの最後のステージのために。

おすすめ

転載: www.cnblogs.com/edbean/p/11306577.html