紙のノート:ENET:リアルタイムセマンティックセグメンテーションのためのAディープニューラルネットワークアーキテクチャ

1つの概要

(携帯電話、ウェアラブルデバイスおよび他の低電力モバイルデバイスなどの組み込み機器に使用される)セマンティックセグメンテーション着陸は非常に重要な問題であり、ネットワークは最近、より高精度率であるが、提案されている、ではない場合、実際に強い、それは遅すぎる推論、スピードトレーニングで、実際のアプリケーション・シナリオに適用することはできません。これらの問題を解決するために、著者は、ネットワーク上で高精度を確保するだけでなく、より速く、軽く確保、および携帯電話などの組み込み機器での展開に適しているとに基づいて、ENETを提案しました。CamVid、都市の風景SUN及びデータはSOTA(:最良の結果最先端の)を設定時間に達しているように、ENETをテストした後。

2つのハイライト

2.1最初のモジュールとモジュールbottlebeck

本明細書において、ベースユニットは、設定さENET bottlebeck最初のモジュールとモジュールです。

2.1.1最初のモジュール

処理するための第1のモジュールとして初期画像入力モジュールは、前処理モジュールは、1枚の画像といえます。図は、次の
ここに画像を挿入説明
元の入力画像は、図2のステップにおいて13x3x3畳み込みカーネルモードの後に、それぞれ、3x512x512ある2特徴を抽出するために、最大細胞層は、プールされた層を使用して開始入力オブジェクトの開始時に使用されます。そこに冗長な情報画像の多くは、開始の最終精度にほとんど影響をプールする前と後に、ですが、冗長な多くの情報の使用を避けることができました。次いで、コンボリューションカーネル13x3x3通っ+ 3x256x256モザイク画像は、図16x256x256の特性を得るためにプールのチャンネル数の後に行われる、予め初期化モジュールの役割は、より多くのダウンサンプリングされます。

2.1.2 bottlebeckモジュール

符号化およびネットワークモジュールで復号する基本組成bottlebeck行われます。図は次のとおりここに画像を挿入説明
bottlebeckモジュールは2つのブランチに分割され、最大充填の主枝は、層をプールし、通常の畳み込みの1x1の畳み込みカーネル、PReLU、CONV(CONV代わっ、対称畳み込み、キャビティ内の畳み込みのサブブランチいずれか)、正則(以下の試みはL2、確率的な深さ、空間損失、及び最終的には最高の空間ドロップアウトを使用して)を含む、異なる正則化法を用います。得られたメインブランチとサブブランチの結果は、最終的な定着bottlebeckモジュールと比較されます。

2.2へ

時々 、常にReLUを使用してENETの精度を向上させていなかった各層ReLUのバックを使用しますが、低精度を行い、著者はReLUネットワークアーキテクチャは、ENET数層の深さを動作しない原因分析します変更著者が機能--PReLUを活性化させるので、より少ない層は、すぐにフィルタ情報を必要とします。
ここに画像を挿入説明
つまり、おそらく76層に深さの増加、トレンドの重みPReLUとの層数、である、重みが上昇します図に示し、効果徐々に劣化するので、PReLUは、より良い浅いネットワーク内の役割を果たしています。

2.3通常の畳み込み、畳み込み非対称中空畳み込み混合物

エンコーダ構造では、異なるタイプの、主に通常の畳み込みにより、畳み込み中空非対称畳み込みを使用する異なるボトルネックをCONV。
ここに画像を挿入説明
ENET畳み込みの欠点を改善でき畳み込みを用いたクロス構造が、そのような一般的なよう畳み込み受容野は小さな集めるが、サイズが小さい利点を備えています。畳み込みは、通常、中空の同じパラメータで得ることができるより大きな受容野を畳み込み、特徴抽出は、より大型のに適した、小寸法特性に敏感ではなく、容易に情報の連続性を失いました。畳み込みがあると分解し、N×1れるNXNの非対称畳み込み×N畳み込みさらに畳み込みである、2つの結果が等価であるが、計算の一定量を低減することができます。非対称畳み込みを参照することができます:

なぜ非対称畳み込み演算は量を減らし?

2.4 ENET全体構造

ENet的总体结构如下图:
ここに画像を挿入説明
为了节省处理冗余信息的计算资源,输入图片经过initial模块先把图片进行一个下采样,再经过后面的bottleneck模块处理。其中在编码器阶段,也就是bottleneck2.x阶段,混合使用了各种卷积。在之前的网络中,编码器和解码器通常是对称的,但是作者指出,编码器的作用是特征提取,而解码器的作用是对解码器的结果进行放大和一些细节的精调,因此解码器的规模可以相对减小,因此ENet的解码器相对来说规模较小。在解码阶段,也就是bottleneck4.x和bottleneck5.x阶段,上采用的方式使用的是反池化方式,就是SegNet中使用的通过记录池化的位置进行位置上的最大值的恢复。而最后的使用fullconv为全卷积。

3 效果

ここに画像を挿入説明
因为SegNet是当时最轻量和最快的网络了,所以作者选择ENet与SegNet进行比较,可见ENet在fps和推理速度都更快。
ここに画像を挿入説明
上图为网络大小以及参数的对比,ENet都更轻量。
ここに画像を挿入説明
上面为I在Cityscapes中,IoU方面的对比。
ここに画像を挿入説明
上图为ENet在Cityscapes数据集的分割效果。

4 结论

相比与DeepLab,SegNet等网络,虽然有着较高的准确率,但是却由于其参数量比较大,训练推理的速度相对较慢,可移动设备比较难跑等,而ENet这种轻量快速且有不错准确率的结构更适合部署在可移动低功耗设备中。

5 参考资料

(1)ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation
(2)【图像分割模型】快速道路场景分割—ENet
(3)为什么非对称卷积减少了运算量?

公開された24元の記事 ウォン称賛27 ビュー10000 +

おすすめ

転載: blog.csdn.net/gyyu32g/article/details/104355183