【论文笔记】位置認識変形可能な畳み込みを持つオブジェクト検出と後方の注目フィルタリング

ペーパー概要

 

アドレス取得:http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Object_Detection_With_Location-Aware_Deformable_Convolution_and_Backward_Attention_Filtering_CVPR_2019_paper.pdf 

まとめと個人的な見解

この論文では、位置認識変形可能な畳み込み後方注意フィルタリングモジュールは、マルチクラスマルチスケール物体検出におけるオートパイロットのパフォーマンスを向上させます。位置認識変形可能な畳み込みをすることができ、前記適応文脈特徴抽出偏在、ロバスト標準畳み込み力特性を、より特徴付ける特徴を複雑なシーン検出対象を構築するために組み合わせます。モデルの使用をフィルタリング後方に注意がするセマンティック機能深い畳み込み層を高度な分散特性を抑制しつつ、高解像度情報の特性を向上させる削減のROIが必要な一方で、改善された性能を。フォワードによって-ネットワーク内の2つの方法と組み合わせて、ならびにPASCAL VOCデータセットキティ速度と性能は、トップレベルに達しています。 

この記事では、二つの側面に焦点を当て:コンテキスト情報だけでなく、洗練された空間情報を。彼らは、変形可能なコンボリューションと注意メカニズムが特徴的な側面を操作する強化され、位置認識を使用している、問題の分析と解析の各ステップの理由は整備されています。

貢献

  • 前記何ら固定幾何分布を畳み込むない変形可能な提案位置認識コンテキスト特徴抽出、それによって、検出性能を向上させる、抽出された標準的な畳み込み特性を高めるために使用されます。
  • 後方注意フィルタリングモデルは、分散特性を抑制しつつ、有益な特徴が強調使用浅い深度フィルタ特性に提案され、従ってそう速度を高めるために必要なRoIのモデルの数を減らすので、より容易に生成することができるRPN合理ロワ、。
  • 方法は、2つの前後ネットワークを組み合わせ、そしてPASCAL VOCデータセットキティ性能と速度は、トップレベルに達しています。 

問題は、解決すべき

問題:コンテキスト高解像度マルチスケール特徴標的を検出するのに重要な役割を有するが、偏在コンテキスト情報高解像度の機能は、図に含まれているdistractive 低レベル特徴

分析:これまでの研究では、コンテキスト情報と高解像度のマルチスケール機能は、複雑なシーンでのターゲット検出において極めて重要である、ということを示しています。しかしながら、コンテキスト情報の分布が均一ではなく、固定されておらず、抽出機能の最も一般的な方法は、より広い領域を見ることができるように、コンテキストコンボリューション層受容野だけ増加させます。コンテキスト情報、大きな受容野だけでなく、適応入力の形状だけでなく捕捉するために標準畳み込み固定入力サンプリンググリッドは、多様性に柔軟コンテキストを分散することができません。畳み込みは、変形可能な位置ずれ特性を適応的コンテキストを抽出することができる組み込むことができます

ノイズ抑制しつつ、ターゲットの検出器を集中させるために、しばしば曖昧で邪魔ストリート高解像度の浅いCNN特徴、特性情報のニーズが強調されます。高レベルのセマンティックな機能の畳み込みとして注目マップフィルタ特性の高解像度ビューで良いソリューションです。 

フレームワークとの主な方法

1主な構造

現在の視点から、容易にフレームがC1-C6の骨格から抽出されることが理解され、C3は、横方向接続した後にコンテキスト情報を向上させるために位置認識変形可能な畳み込みから開始し、前記上層がディスプレイとして注目の統合を特徴と情報より豊富な領域、ノイズ抑制しつつ。予測する機能を統合するためのスキッププーリングを使用した後。 

2、場所を意識した変形可能なコンボリューション

  

 

標準的な畳み込みに基づいて予測されたすべてのオフセット同じ受容野畳み込みの畳み込み一般に、変形可能な、唯一の層。しかし、同じ受容野とオフセット各入力サンプルに対する畳み込みレイヤ予測は、最適な結果が得られないことがあり、また、小さすぎる受容野は、オフセット予測中に機能の周りを参照するので、有用なコンテキスト情報を取得できないことしたがって、位置認識変形可能な畳み込みを提案しました。

Iは、入力機能であり、Oは出力特性であり、Dは、膨張比、PであるN-例えば(-1、-1)などの中心に対する位置の変化です。

上記のように、1×64への圧縮チャネルの最初の畳み込みは、メンテナンスコスト計算におけるチャネル小型化が必要であり、畳み込みは、次いで、畳み込みの各々に受容野、異なる位置の使用を拡大する拡大しますスキュー後の予測が算出された最終重量に対応する特徴量を取得し、最終的な出力を得るために、補間を使用して、典型的には分数であるため、各位置のオフセットを予測する畳み込みカーネル。

Location-aware deformable convolution的目的是为了获得更丰富的上下文信息,得到的结果需要与标准卷积的结果一起处理,将两者concatenate起来,然后使用1×1卷积压缩到原来的通道数组成最终的输出特征。

这里没有进行消融实验,看不出来这个方法对整体效果的提升有多大,同时我想要了解只使用location-aware deformable convolution,不加上standard convolution的结果会有什么效果

3、  Backward attention filtering

这里的注意力机制的使用很常规,直接将上层语义信息使用3×3卷积后进行sigmoid,作为注意力,然后上采样到对应大小与当前层特征相乘:

4、  Skip pooling

Skip pooling可以参考ION: Inside-Outside Net: Detecting Objects in Context with Skip pooling and recurrent neural networks一文中提出的skip pooling方法的使用。将池化扩展到多层中,需要考虑到维度以及幅度的问题:在ImageNet上的预训练表明,保存现有层的shape相当重要,因此最终的结果也应该为512×7×7;同时,为了匹配原始的shape,必须匹配原始的激活幅度。

首先将多层特征中的每一层使用RoI pool到512×7×7的大小,然后按通道进行拼接,使用1×1卷积压缩通道;为适应原始幅度,使用L2正则化,同时将rescale到需要的scale。 

5、  Experiment

1)      对比+消融:使用相同backbone与faster R-CNN间的效果对比,以及模块间的消融实验结果。使用两个backbone,本文的方法效果对比Faster R-CNN均有较大的提高,最高分别提升2.9与3.4个点。每个模块的使用也都有相应的提升。其中(a)为仅使用location-aware deformable convolution,(b)仅使用backward attention filtering,(c)同时使用两个模块。

2)      对比+消融:Location-aware deformable convolution模块与一般的convolution以及deformable convolution间的对比,同时对比了不同膨胀率的结果。可见,最优的结果是使用膨胀率为2的膨胀卷积,使用标准卷积进行offset预测。

3)      对比实验:与其他使用attention机制的方法的对比。可见,本文提出的backward attention filtering的效果最佳。

 

4)      对比实验:本文结果与其他方法的对比。可见,本文提出的虽不至于在效果上达到最优,但是均衡了速度与性能。

 

&遇到的问题

1、  当前的特征对结果的影响究竟在哪,只使用用于增强的方法的效果还比不上最初的结果,必须要加上当前的特征才能得到更好的结果?

2、  直接使用融合特征做预测,而不是使用多尺度训练,这样能够有效避免NMS处理多义性的问题吗?当前的效果比FPN的要差一些,是不是因为没有使用多尺度训练的原因,如果不使用skip pooling效果会不会好一些? 

&思考与启发

看这篇论文主要是想要明白注意力机制是怎么使用的,当前自己尝试使用了几个注意力融入的方式效果均达不到想要的水准,此外,根据本文的想法,可以思考如何在特征融合过程中加入更丰富的上下文信息

 

おすすめ

転載: www.cnblogs.com/fanzhongjie/p/12028726.html