紙のノート:ParseNet:参照ベターに広いみます

1つの概要

小さな野生の理論よりFCNフィールドの実際の経験のために多くの問題を感じる - 、受容野FC7は404×404であることを理由に立っVGG + FCNを実際にとても大きくFCNフィールドFC7を感じることはできませんが、我々が提案していますグローバルな情報の統合によるParseNetネットワークは、実際のフィールドでの経験の不足を補うために。

2つのハイライト

2.1グローバルプール層

著者らは、FC7の図表示を重畳さFCN網VGGのFC7受容野の使用は、受容野FC7の実際の大きさ、スライディングウィンドウの原作者、及び得られたノイズ情報をテストするために、404×404であるべきであることを見出しました以下のように応答して、あなたは、受容野の実際FC7を見ることができる:
ここに画像を挿入説明
理論スライディングウィンドウFC7後の図の熱、(C)の対応する特徴に()は、元の画像、(b)は、受容野を観察し(d)は、実際のFC7受容野です。グローバルなセマンティックリンクが弱まるかもしれませんが、いくつかの記事が使用中であるときは、その特徴抽出の際に、実際の受容野よりもはるかに小さく、唯一の1/4以下、オリジナルよりも実際の受容野を見ることができますこれは良い結果を得ることができますが、CRF及びその他の後処理が複雑で、コンピューティングリソースを大量に消費しますが、CRFは、治療後の結果です。この問題を解決するために、著者は、グローバルプールの層の概念を提案しています。層は、(グローバルな情報の浅い特性図グローバルプールは比較的まれであると)前FC7平均グローバルプール層に行わ、グローバル情報は、CNNを介して直接情報のグローバルプールを求めています(前記スプライシングチャネル)融合することによって得られた情報。図は次のとおり
ここに画像を挿入説明
同一の特徴マップは、2つのブランチに分けられる:CNNからグローバル特徴情報の生成のための1つが生成他の特徴マップ情報、組み合わせ最後の二つのブランチをトランク。ParseNetこの方法は、比較的単純であり、CRFとCRF精度の効果は同様に扱わ。(一部は2のより良い統合を言うかもしれませんが、記事では、「本当に必要な空間とグローバルな制約であるセグメンテーションのために?」 著名その機能が特徴マップ、スムーズなプロセスに相当し、使用する必要に対処するために縫い合わせる場合CRFを平滑化。)

2.2 L2正規化層

在融合问题上,作者提出有一个“早融合”——就是在分类之前进行全局信息的融合。一个“后融合”,就是主线和支线分别分类得到两个分数再进行两个分数的加权。经过作者的试验,如果使用了L2归一化层,这早融合和晚融合两者并没很大的差别。因为在特征融合的时候,不同的层的特征有着不同的尺度大小,而可能会由于特征尺度大小相差悬殊,而使得效果变差,如下图:
ここに画像を挿入説明
上图中不同的颜色代表不同的层的特征,而横坐标表示尺度信息,纵坐标表示特征的权重信息。蓝色和青色的特征尺度是一个合适的尺度比例,但是红色和绿色的尺度比前者大两个数量级,直接进行融合,由于尺度的不同会使得准确率下降。因此,在融合特征之前, 将L2范数应用于特征图的每个像素,而非整个图。
ここに画像を挿入説明ここに画像を挿入説明
在反向传播的时候并增加一个γ参数作为尺度大小,让其在反向传播的时候能够自动学习尺度大小进行归一化:
ここに画像を挿入説明

2.3 ParseNet总体结构

ParseNet通过引入了全局池化层进行了特征的融合,其整体结构如下图:
ここに画像を挿入説明
特征图一方面通过主分支进行L2归一化,另一方面进行一个平均池化层得到全局特征图,再进行L2归一化,进行一个上池化得到放大后的特征图与主分支得到的特征图进行拼接。经过L2归一化以后融合了全局语义信息使得原本较小的实际感受野获得了更多的全局信息,效果更好。

3 部分效果图

ここに画像を挿入説明上图显示的是FCN和ParseNet的对比,可能由于感受野的问题,只看到了猫的上半部分,有一小下部分没有看到,所以造成了下半部分分类成其它。而ParseNet则能比较好的处理这个图片。
ここに画像を挿入説明
上图中,ParseNet Baseline为没有添加全局语义信息的,而ParseNet为添加了语义信息的,可见添加了全局语义信息以后得到的效果类似于使用了CRF、RNN等后处理方式得到的效果。
ここに画像を挿入説明
这个上图,则表明了融合全局信息有时候使得效果变差了。

4 结论

グローバルな特徴は、本論文でマッピングし、この分野での実務経験の欠如をグローバルな情報のサプリメントを追加することも使用記事の多くの背後にある考え方である一方で、マルチスケール問題と受容野の研究です。また、記事では、効果はほとんど得られCRF及びその他の後処理モードの効果を達成するために、この方法を使用することを述べたが、CRFおよび他の治療は複雑すぎるとは、コンピューティングリソースを大量に消費し、この記事では、シンプルなネットワークすることができた後により良い結果を達成するために修正。

5つの参考文献

(1)ParseNet:参照ベターに広いみる
(2)【阅读笔记】「ParseNet:参照してくださいベターに広い探し」

公開された24元の記事 ウォン称賛27 ビュー10000 +

おすすめ

転載: blog.csdn.net/gyyu32g/article/details/104387176