論文を読む:地域の提案をガイド付きアンカーで

トピック:アンカーガイド地域別の提案
arXivの:https://arxiv.org/abs/1901.03278
参考記事:https://zhuanlan.zhihu.com/p/55854246

ブリーフ

本論文では、主に既存のRPNの欠点を改善するために、彼は改善は2つの方法は非常に異なっているので、正確ではありませんが、彼らは同じ仕事をする際に、候補領域を取得することであると述べました。
本論文では、予め設定されたアンカーボックスの使用を必要としない新しい方法を提案しています
ここに画像を挿入説明

本論文の紹介

RPNの欠点

(1)性能パラメータに比較的大きな影響が終わった事前定義の必要な寸法及びアスペクト比を固定し、異なるデータセットと方法のために個別に調整する必要があります。;スケールとアスペクト比の設定が適切でない場合は、リコールが十分に高くない原因、または分類性能とスピードの過度の影響を固定する
(2)背景領域に配置されたアンカーのほとんどは、提案または検出上の任意の正の影響を与えることはありません;
(3)事前定義されたアンカーの形状は、サイズが極端な不均衡またはオブジェクトのアスペクト比を満たすことができないかもしれません。

GA-RPN

ここに画像を挿入説明これは、モデルの全体的な構造であり、主な焦点は、この論文の本質であるこのセクションを、固定導か右側にあります。

中央のポイント予報

在拿到feature map 之后,传统方法就开始进行滑动窗口,把每个像素点都当做中心产生候选区域,前边已经说过这种方法的缺点,大量背景也产生了大量无效的候选区,如何避免这个问题呢?
我们需要有针对行的把一些像素点当做中心就可以了,具体怎么做呢,就是上图的NL部分,通过对feature map进行1×1的卷积,然后对卷积后的值进行sigmoid,就得到了一个概率图(probability map),而概率图中每个点的值代表这个点为目标中心点的概率,然后设定一个阈值,大于某个概率即说明这个点很有可能作为某个目标的中心点,接下来以这个点为中心,针对性的产生候选框即可,从而避免了滑动窗口的缺点。
那么如何学习(训练)到这样一个模型呢?
论文将整个 feature map 的区域分为物体中心区域,外围区域和忽略区域,大概思路就是将 ground truth 框的中心一小块对应在 feature map 上的区域标为物体中心区域,在训练的时候作为正样本(target = 1),其余区域按照离中心的距离标为忽略或者负样本(target = 0),这样,有了目标值,训练即可,论文使用Focal loss来训练这个分支。

这样我们就得到了一个产生中心点概率图的模型NL,接下来要在中心点上产生边框(确定w和h的值)

形状预测

形状预测模型为上图中的Ns部分,具体是采用1×1的卷积核,产生一个双通道的feature map,但直接预测w和h不好预测,你所以转而预测dw和dh,之后经过公式转换得到w和h,公式如下:
ここに画像を挿入説明
拿如何训练这个预测模型呢?
训练过程最重要的是要找到w和h的目标值,对于以前常规的 anchor,w和h是事先规定好的,我们可以直接计算它和所有 ground truth 的 IoU,然后将它分配给 IoU 最大的那个 gt,gt的w和h即为目标值。但是很不幸现在的 anchor 的 w 和 h 是不确定的,是一个需要预测的变量,该怎么办呢?sample anchor。
论文将这个 anchor 和某个 gt 的 IoU 表示为:
ここに画像を挿入説明
我们不可能真的把所有可能的 w 和 h 遍历一遍然后求 IoU 的最大值,所以采用了近似的方法,也就是 sample 一些可能的 w 和 h。理论上 sample 得越多,近似效果越好,但出于效率的考虑,所以 sample 了常见的 9 组 w 和 h。
形状预测损失函数:
ここに画像を挿入説明
这样Ns位置预测分支也准备好了可以画框了。
可以看到,anchor 基本都集中在有目标的区域,确实产生了不错的效果。
ここに画像を挿入説明

Feature Adaption 模块

但是我们发现一个不合理的地方,大家都是同一层 conv 的特征,凭啥我就可以比别人优秀一些,代表一个又长又大的 anchor,你就只能代表一个小小的 anchor。

その理由は、不当な片手は、CONVの同一層内の別の場所で、receiptiveフィールドの特徴は、内部オリジナルRPNと同じであるということです、我々はアンカー同じ形状なので、問題はない、しかし、今、それぞれがそのアンカーを有することを特徴としています独自の形状や大きさ、および機能は、特に良い試合ではありません。一方、元のマップの特性は、それが予測分岐予測アンカー形状の形状を知りませんが、次の分類と回帰を行うための予測アンカーに基づいており、それはより多くの無知な力かもしれません。
あなたは、各アンカー位置の形状に適応するために得ることができるように、我々は特徴マップ、新機能マップに直接、この問題を解決するためにアンカー形状情報の統合をフィーチャー適応モジュールを追加しました。元の特徴を修正し、我々は、図に3x3の変形可能な畳み込みを使用する、変形可能な畳み込みは、1x1のCONVによって得られたアンカーwとhによって相殺されます。(アンカー効果の形状に適合するようによれば遊びがないので、フォーカスが指定されなければならない場合、それは通常、変形可能な畳み込みと同じである場合、図は、オフセット予測することを特徴とする、増加は、制限されています)

そうすることによって、特徴形状の有効範囲を可能にし、近い物体に固定するために、同じCONVアンカーの異なる位置は、様々な形状及び大きさを表すことができます。

おすすめ

転載: blog.csdn.net/qq_41332469/article/details/90074615