Abstrait

Les avantages de la combinaison d'unités U-Net et résiduelles:
(1) les unités résiduelles peuvent simplifier la formation des réseaux profonds
(2) un grand nombre de connexions de saut favorisent la diffusion de l'information, vous pouvez concevoir un réseau avec de meilleurs paramètres et de meilleures performances.

1. INTRODUCTION

Extraction de la route: extraction de la zone de la route et extraction de l'axe de la
route Travaux antérieurs de la zone de la route:
(1) caractéristique d'index de forme + SVM [11]
(2) en utilisant SVM probabiliste pour concevoir un cadre à plusieurs niveaux [12]
(3) basé sur un graphique de hiérarchie Méthode d'extraction de route (hiérarchique) non supervisée [6]
(4) Utiliser des RBM (machine Boltzmann restreinte) pour détecter les zones routières à partir d'images aériennes à haute résolution (première utilisation de la technologie d'apprentissage en profondeur, avec prétraitement et post-traitement) [2]
(5) En utilisant des réseaux de neurones convolutifs pour extraire les routes, l'effet est meilleur que les RBM (extraction directe des routes et des bâtiments de l'image d'origine) [5]

Il existe deux différences entre Deep ResUnet et U-Net:
(1) Utilisez l'unité résiduelle au lieu d'unités neuronales simples comme unité de base
(2) Supprimez l'opération de recadrage

2.MÉTHODOLOGIE

A.Deep ResUnet

Dans la segmentation sémantique, afin d'obtenir de meilleurs résultats de segmentation, il est très important d'utiliser des détails de bas niveau tout en conservant des informations sémantiques de haut niveau. La formation de tels réseaux de neurones profonds est également très difficile. Surtout lorsque les échantillons d'apprentissage sont limités.
(1) Utiliser un réseau pré-formé, puis affiner l'ensemble de données cible
(2)
L'auteur de Data augmentation estime que la structure d'U-Net elle-même contribue à atténuer le problème de formation (intuition de l'auteur) car La copie des fonctionnalités de bas niveau vers le niveau supérieur correspondant crée en fait un chemin de propagation des informations, permettant aux signaux de se propager entre le niveau bas et le niveau supérieur de manière plus simple. Cela permet non seulement de favoriser la propagation arrière pendant la formation, mais peut également Les détails fins sont compensés par des caractéristiques sémantiques de haut niveau.

Des réseaux plus profonds peuvent améliorer les performances, mais peuvent entraver la formation et des problèmes de dégradation peuvent survenir. Afin de surmonter ces problèmes, nous utilisons l'unité résiduelle. Chaque unité résiduelle peut être exprimée sous une forme générale: en
Insérez la description de l'image ici

raison de la normalisation des lots, de l'activation de ReLU et des couches de convolution, il existe plusieurs combinaisons de l'unité résiduelle. Dans [22], les effets des différentes combinaisons sont discutés en détail et une conception complète de pré-activation est proposée (figure 1).

Les avantages de Deep ResUnet:
(1) Residual peut simplifier la formation du réseau. Les
connexions Skip (entre bas et haut niveau et au sein de l'unité résiduelle) sont utiles pour la diffusion de l'information et ne se dégradent pas (dégradation). Bonne performance.

Insérez la description de l'image ici
Encodage: encoder l'image d'entrée en représentations compactes (
Bridge ) : connecter les chemins d'encodage et les chemins de
décodage Décodage: restaurer la représentation au niveau du pixel

Il y a trois unités résiduelles dans le chemin d'encodage. Dans chaque unité, nous n'utilisons pas l'opération de regroupement pour réduire la taille de la carte d'entités, mais appliquons une foulée de 2 au premier bloc de convolution pour réduire la taille de la carte d'entités. Demi plus petit.
Le chemin de décodage est également composé de trois unités résiduelles: avant chaque unité, il existe une connexion entre le suréchantillonnage de la carte d'entités de la couche inférieure et la carte d'entités correspondant au chemin d'encodage (concaténation).
Dans la dernière couche du chemin de décodage, la fonction de convolution 1x1 et d'activation sigmoïde est utilisée pour mapper la carte d'entités multicanaux à la segmentation requise.
Nous avons utilisé 15 couches convolutionnelles, tandis que U-Net a utilisé 23 couches convolutionnelles et n'a pas utilisé d'opérations de recadrage.

Insérez la description de l'image ici

Fonction B.Loss （MSE）

Insérez la description de l'image ici

Notre objectif est d'estimer le paramètre W du réseau pour produire une zone routière précise et robuste.
N: nombre d'échantillons d'apprentissage
Nous utilisons SGD pour former notre réseau U-Net utilise l'entropie croisée de pixels comme fonction de perte pour optimiser le modèle.

C. Affinement des résultats

Nos dimensions d'entrée et de sortie sont les mêmes, 224x224. Étant donné qu'un remplissage 0 est utilisé dans la couche convolutionnelle, la précision des pixels près de la limite de sortie est inférieure à celle du pixel central. Afin d'obtenir de meilleurs résultats de segmentation, nous utilisons une stratégie de chevauchement pour générer des résultats de segmentation pour les images de grande taille. La sous-image d'entrée est recadrée à partir de l'image d'origine avec un chevauchement de o (dans notre expérience, o = 14). Le résultat final est obtenu en assemblant tous les sous-segments. Les valeurs dans la zone de chevauchement sont des valeurs moyennes.

3.EXPERIMES

Ensemble de données: ensemble de données sur les routes du Massachusetts
Nous avons comparé ResUnet profond à trois méthodes de pointe, la méthode Mnih [2], la méthode Saito [5] et U-Net [24].

A.Dataset

1171 images (formation: validation 1108: 14 tests: 49)
1500 x 1500 Résolution: 1,2 m / pixel

Détails de mise en œuvre

Cadre d'utilisation:
algorithme d'optimisation Keras : SGD
a 1108 images d'entraînement de taille 1500 × 1500 pour l'entraînement. En théorie, notre réseau peut prendre des images de n'importe quelle taille en entrée, mais nécessite beaucoup de mémoire GPU pour stocker les cartes de fonctionnalités. Dans cette lettre, nous utilisons une image d'entraînement de taille fixe (224 × 224, comme indiqué dans le tableau 1) pour former le modèle. Ces images d'entraînement sont sélectionnées au hasard parmi les images originales. Enfin, 30 000 échantillons sont générés et entrés dans les paramètres d'apprentissage du réseau. Il convient de noter qu'aucune augmentation des données n'a été utilisée pendant la formation.
Nous avons commencé à former le modèle en petits lots de 8 sur le GPU NVIDIA Titan 1080. Le taux d'apprentissage est initialisé à 0,001 et toutes les 20 époques sont réduits de 0,1 fois. Le réseau convergera à 50 époques.

C.Mesures d'évaluation

Les indicateurs les plus couramment utilisés pour évaluer les méthodes de classification binaire sont la précision et le rappel. En télédétection, ces mesures sont également appelées exactitude et exhaustivité. La précision est la fraction des pixels de route prédits qui
sont étiquetés comme routes, et le rappel est la fraction de tous les pixels de route étiquetés qui sont correctement prédits.

Parce qu'il est difficile de marquer correctement tous les pixels de la route, Mnih et al. [2] ont introduit une précision et un rappel détendus dans l'extraction de la route [26]. La précision relâchée est définie comme la fraction de pixels prédite en tant que routes dans la plage de ρ pixels par rapport aux pixels marqués comme routes. Le rappel détendu est le score des pixels marqués comme des routes dans la plage de ρ pixels parmi les pixels prédits comme des routes.
La précision détendue est définie comme la fraction du nombre de pixels prédite comme route dans une plage de ρ pixels à partir de pixels étiquetés comme route. Le rappel détendu est la fraction du nombre de pixels étiquetés comme route qui se trouvent dans une plage de ρ pixels à partir de pixels prédite en tant que route.
dans cette expérience, les paramètres de relaxation (paramètre de mou) ρ est réglé sur 3, ce qui est cohérent avec les études précédentes. Nous signalons également le seuil de rentabilité pour différentes méthodes. Le seuil de rentabilité est défini comme le point sur la courbe de rappel de précision détendue dont la valeur de précision est égale à sa valeur de rappel. En d'autres termes, le point d'équilibre est l'intersection de la courbe de rappel de précision et de la ligne y = x.

D.Comparaisons

Sur l'ensemble de test de l'ensemble de données routières du Massachusetts, trois méthodes d'extraction de routes basées sur l'apprentissage en profondeur sont comparées. Le tableau 2 répertorie le seuil de rentabilité de la méthode proposée et de la méthode comparative. La figure 3 montre la courbe de rappel de précision de relaxation de U-Net et de notre réseau et son seuil de rentabilité, ainsi que le seuil de rentabilité de la méthode de comparaison. On peut voir que notre méthode est supérieure aux trois autres méthodes en termes de précision de relaxation et de taux de rappel. Bien que nos paramètres de réseau ne soient que 1/4 de U-Net (7,8 M contre 30,6 M), des améliorations prometteuses ont été apportées dans la tâche d'extraction de la route.
Insérez la description de l'image ici

La figure 4 montre quatre exemples de résultats de Saito et al., U-Net et ResUnet proposés dans cet article. On peut voir que par rapport aux deux autres méthodes, notre méthode montre des résultats plus propres avec moins de bruit. Surtout lorsqu'il y a des routes à deux voies, notre méthode peut segmenter chaque voie avec une grande confiance, tandis que d'autres méthodes peuvent confondre les voies, comme le montre la troisième rangée de la figure 4. De même, dans la zone d'intersection, notre méthode produira également de meilleurs résultats.

Les informations contextuelles sont très importantes lors de l'analyse d'objets ayant des structures complexes. Notre réseau prend en compte les informations contextuelles des routes, afin que nous puissions distinguer les routes des objets similaires tels que les toits des bâtiments, les pistes d'aéroport, etc. Comme le montre la première rangée de la figure 4, même si la piste a des caractéristiques très similaires à l'autoroute, notre méthode peut réussir à segmenter le trottoir de la piste. En plus de cela, les informations de contexte le rendent également robuste à l'occlusion. Par exemple, une partie de la route sur le rectangle de la deuxième rangée est couverte d'arbres. La méthode Saito et U-Net ne peuvent pas détecter la route sous l'arbre, mais notre méthode les marque avec succès. Les cas d'échec sont indiqués dans le rectangle jaune dans la dernière ligne. Notre chemin a manqué la route vers le parking. Cela est principalement dû au fait que la plupart des routes du parking ne sont pas étiquetées. Par conséquent, bien que ces routes aient les mêmes caractéristiques que les routes ordinaires, notre réseau les traite comme des informations générales.

RÉFÉRENCES

[1] X. Huang et L. Zhang, «Extraction de l'axe de la route à partir d'
images à haute résolution basées sur des caractéristiques structurelles à plusieurs échelles et des
machines à vecteurs de support », IJRS, vol. 30, non. 8, pp. 1977–1987, 2009.
[2] V. Mnih et G. Hinton, «Apprendre à détecter les routes dans
les images aériennes à haute résolution », ECCV, pp. 210–223, 2010.
[3] C. Unsalan et B. Sirmacek, «Détection du réseau routier à l'aide de méthodes théoriques probabilistes et graphiques», TGRS, vol. 50, non. 11, pp. 4441–
4453, 2012.
[4] G. Cheng, Y. Wang, Y. Gong, F. Zhu et C. Pan, «Extraction de routes urbaines
via la propagation de probabilité basée sur des coupes graphiques», dans ICIP, 2015 , pp. 5072–
5076.
[5] S. Saito, T. Yamashita et Y. Aoki, «Extraction d'objets multiples à partir de
l'imagerie aérienne avec des réseaux de neurones convolutifs », J. ELECTRON
IMAGING, vol. 2016, non. 10, pp. 1–9, 2016.
[6] R. Alshehhi et PR Marpu, «Segmentation hiérarchique basée sur des graphiques
pour extraire les réseaux routiers d'images satellite à haute résolution»,
P&RS, vol. 126, pp. 245-260, 2017.
[7] B. Liu, H. Wu, Y. Wang et W. Liu, «Extraction de la route principale à partir de l'
imagerie en niveaux de gris ZY-3 basée sur la morphologie mathématique directionnelle et
les connaissances antérieures de VGI en zones urbaines », PLOS ONE, vol. 10, non. 9, p.
e0138071, 2015.
[8] C. Sujatha et D. Selvathi, «Technique basée sur les composants connectés
pour l'extraction automatique de l'axe de la route dans un satellite haute résolution
images », J. Image Video Process., vol. 2015, non. 1, p. 8, 2015.
[9] G. Cheng, Y. Wang, S. Xu, H. Wang, S. Xiang et C. Pan, «Détection automatique des routes et extraction de la ligne médiane via un
réseau de neurones convolutionnels de bout en bout en cascade , »TGRS, vol. 55, non. 6, pp. 3322–3337,
2017.
[10] G. Cheng, F. Zhu, S. Xiang et C. Pan, «Extraction de l'axe central de la route via
une segmentation semi-supervisée et une suppression non maximale multidirectionnelle», GRSL, vol. 13, non. 4, pp. 545–549, 2016.
[11] M. Song et D. Civco, «Extraction de routes à l'aide de SVM et
segmentation d' images », PE&RS, vol. 70, non. 12, pp. 1365–1371, 2004.
[12] S. Das, TT Mirnalinee et K. Varghese, «Use of saient features for the
conception d'un cadre à plusieurs étages pour extraire les routes d'
images satellites multispectrales à haute résolution », TGRS, vol. 49, non. 10, pp. 3906–3931,
2011.
[13] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba et A. Oliva, «Learning
deep features for scene detection using places database», in NIPS,
2014 , p. 487–495.
[14] S. Ren, K. He, R. Girshick et J. Sun, «Faster R-CNN: Towards real-time detection with region region networks», TPAMI, vol. 39,
non. 6, p. 1137, 2017.
[15] V. Mnih et GE Hinton, «Apprendre à étiqueter des images aériennes à partir de
données bruyantes », dans ICML, 2012, pp. 567–574.
[16] Q. Zhang, Y. Wang, Q. Liu, X. Liu et W. Wang, «Détection de bâtiments de banlieue basée sur CNN en utilisant des images monoculaires à haute résolution de Google Earth», dans IGARSS, 2016, pp. 661–664.
[17] L. Zhang, L. Zhang et B. Du, «Apprentissage en profondeur pour les données de télédétection:
un didacticiel technique sur l'état de l'art», Geosci. Remote Sens. Mag.,
Vol. 4, non. 2, pp. 22–40, 2016.
[18] Z. Zhang, Y. Wang, Q. Liu, L. Li et P. Wang, «Une
méthode de classification des zones fonctionnelles CNN pour les images aériennes», dans IGARSS, 2016, p.
5449–5452.
[19] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan,
V. Vanhoucke et A. Rabinovich, «Going deeper with convolutions»,
in CVPR, 2015, pp. 1–9.
[20] K. Simonyan et A. Zisserman, «Réseaux convolutionnels très profonds pour
la reconnaissance d'images à grande échelle», arXiv: 1409.1556, 2014.
[21] K. He, X. Zhang, S. Ren et J. Sun, «Apprentissage résiduel profond pour la
reconnaissance d' images », dans CVPR, 2016, pp. 770–778.
[22] ——, «Mappages d'identité dans les réseaux résiduels profonds», dans ECCV, 2016,
pp. 630–645.
[23] J. Long, E. Shelhamer et T. Darrell, «Réseaux entièrement convolutionnels
pour la segmentation sémantique», dans CVPR, 2015, p. 3431–3440.
[24] O. Ronneberger, P. Fischer et T. Brox, «U-net: Convolutional networks
for biomedical image segmentation», dans MICCAI, 2015, pp. 234-241.
[25] F. Chollet et al., «Keras», https://github.com/fchollet/keras, 2015.
[26] M. Ehrig et J. Euzenat, «Précision et rappel détendus pour l'
appariement des ontologies », dans Atelier sur l'intégration de l'ontologie, 2005, pp. 25–32.