Segmentación de imágenes - U-Net: Redes convolucionales para la segmentación de imágenes biomédicas (MICCAI 2016)

U-Net: Redes convolucionales para la segmentación de imágenes biomédicas - Redes convolucionales para la segmentación de imágenes biomédicas (MICCAI 2016)

Descargo de responsabilidad: esta traducción es sólo un registro de estudio personal.

Información del artículo

Resumen

  En general, se acepta que se requieren miles de ejemplos de capacitación anotados para una capacitación exitosa de redes profundas. En este artículo, proponemos una estrategia de red y capacitación que se basa en el uso sólido del aumento de datos para utilizar de manera más eficiente las muestras anotadas disponibles. La arquitectura consta de un camino de contracción que captura el contexto y un camino de expansión simétrico que permite una localización precisa. Demostramos que dicha red se puede entrenar de un extremo a otro a partir de una cantidad muy pequeña de imágenes y supera al mejor método anterior (red convolucional de ventana deslizante) en el desafío ISBI para la segmentación de estructuras neuronales en pilas de microscopios electrónicos. Utilizando la misma red entrenada en imágenes de microscopía de luz transmitida (contraste de fases y DIC), ganamos el ISBI Cell Tracking Challenge en estas categorías en 2015 por un amplio margen. Además, Internet es rápido. La segmentación de una imagen de 512x512 tarda menos de un segundo en una GPU reciente. La implementación completa (basada en Caffe) y la red capacitada están disponibles en http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.

1. Introducción

  En los últimos dos años, las redes convolucionales profundas han superado a las más modernas en muchas tareas de reconocimiento visual, como [7, 3]. Aunque las redes convolucionales existen desde hace mucho tiempo [8], su éxito ha sido limitado debido al tamaño del conjunto de entrenamiento disponible y al tamaño de la red bajo consideración. El avance de Krizhevsky y otros [7] se debió al entrenamiento supervisado de grandes redes con 8 capas y millones de parámetros en el conjunto de datos ImageNet con 1 millón de imágenes de entrenamiento. Desde entonces, se han entrenado redes aún más grandes y profundas [12].

  Un uso típico de las redes convolucionales es en tareas de clasificación, donde la salida de una imagen es una etiqueta de clase única. Sin embargo, en muchas tareas de visión, especialmente en el procesamiento de imágenes biomédicas, el resultado deseado debe incluir localización, es decir, a cada píxel se le debe asignar una etiqueta de clase. Además, en tareas biomédicas, miles de imágenes de entrenamiento suelen estar fuera de nuestro alcance. Por lo tanto, Ciresan y otros [1] entrenan una red en una configuración de ventana deslizante para predecir una etiqueta de clase para cada píxel proporcionando una región local (bloque) alrededor de cada píxel como entrada. En primer lugar, se puede posicionar esta red. En segundo lugar, los datos de entrenamiento en unidades de bloques son mucho mayores que la cantidad de imágenes de entrenamiento. La red resultante ganó el desafío de segmentación de mercados emergentes en ISBI 2012 por un amplio margen.

inserte la descripción de la imagen aquí

Figura 1. Arquitectura U-net (por ejemplo, resolución mínima de 32x32 píxeles). Cada cuadro azul corresponde a un mapa de características multicanal. El número de canales se indica en la parte superior del cuadro. Las dimensiones xy se proporcionan en el borde inferior izquierdo de la caja. Los cuadros blancos indican mapas de características replicados. Las flechas indican diferentes acciones.

  Claramente, la estrategia de Ciresan y otros [1] tiene dos inconvenientes. Primero, es muy lento porque cada bloque tiene que ejecutar la red individualmente y hay mucha redundancia debido a la superposición de bloques. En segundo lugar, existe un equilibrio entre la precisión de la localización y el uso del contexto. Los bloques más grandes requieren más capas de agrupación máxima, lo que reduce la precisión de la localización, mientras que los bloques más pequeños solo permiten que la red vea muy poco contexto. Los métodos recientes [11, 4] proponen una salida de clasificador que considera múltiples capas de características. Es posible un buen posicionamiento y un uso contextual.

  En este artículo, nos basamos en una arquitectura más elegante, la llamada "red totalmente convolucional" [9]. Modificamos y ampliamos esta arquitectura para que pueda manejar pocas imágenes de entrenamiento y producir segmentaciones más precisas; consulte la Figura 1. La idea principal en [9] es complementar la red de contrato habitual con capas sucesivas, donde el operador de pooling es reemplazado por un operador de upsampling. Por tanto, estas capas aumentan la resolución de la salida. Para la localización, las características de alta resolución de la ruta de contracción se combinan con la salida muestreada. Luego, las capas convolucionales sucesivas pueden aprender a ensamblar resultados más precisos en función de esta información.

inserte la descripción de la imagen aquí

Figura 2. Estrategia de mosaicos superpuestos para una segmentación perfecta de imágenes arbitrariamente grandes (aquí, segmentación de estructuras neuronales en pilas EM). Para predecir la segmentación en la región amarilla se requieren datos de imagen en la región azul como entrada. Los datos de entrada faltantes se infieren mediante la duplicación

  Una modificación importante en nuestra arquitectura es que en la parte de muestreo superior también tenemos una gran cantidad de canales de características que permiten a la red propagar información de contexto a capas de mayor resolución. Por tanto, el camino de expansión es más o menos simétrico al camino de contracción y produce una arquitectura en forma de U. La red no tiene capas completamente conectadas y solo usa la parte efectiva de cada convolución, es decir, el mapa de segmentación solo contiene píxeles para los cuales el contexto completo está disponible en la imagen de entrada. Esta estrategia permite una segmentación perfecta de imágenes arbitrariamente grandes mediante una estrategia de mosaicos superpuestos (consulte la Figura 2). Para predecir píxeles en la región límite de una imagen, el contexto faltante se infiere reflejando la imagen de entrada. Esta estrategia de mosaico es importante para aplicar la red a imágenes grandes, porque de lo contrario la resolución estaría limitada por la memoria de la GPU.

  Para nuestra tarea, hay muy pocos datos de entrenamiento disponibles y utilizamos un aumento excesivo de datos aplicando deformaciones elásticas a las imágenes de entrenamiento disponibles. Esto permite que la red aprenda la invariancia ante tales deformaciones sin ver estas transformaciones en un corpus de imágenes anotadas. Esto es especialmente importante en la segmentación biomédica, ya que la deformación solía ser el cambio más común en el tejido y se puede simular de forma efectiva una deformación realista. Dosovitskiy y otros [2] mostraron el valor del aumento de datos para la invariancia del aprendizaje en el contexto del aprendizaje de funciones no supervisado.

  Otro desafío en muchas tareas de segmentación celular es separar objetos en contacto de la misma clase; consulte la Figura 3. Para este fin, proponemos utilizar una pérdida ponderada, donde la separación de etiquetas de fondo entre celdas en contacto obtiene un peso mayor en la función de pérdida.

  La red resultante es aplicable a diversos problemas de segmentación biomédica. En este artículo, mostramos resultados sobre la segmentación de estructuras neuronales en pilas de EM (una competencia en curso que comenzó en ISBI en 2012), donde superamos a la red de Ciresan et al. [1]. Además, mostramos resultados de segmentación celular a partir de imágenes de microscopio óptico del ISBI Cell Tracking Challenge 2015. Aquí ganamos por un amplio margen en los dos conjuntos de datos de luz transmitida 2D más desafiantes.

2. Arquitectura de red

  La arquitectura de la red se muestra en la Figura 1. Consta de un camino de contracción (izquierda) y un camino de dilatación (derecha). El camino de contracción sigue la arquitectura típica de las redes convolucionales. Consiste en aplicar repetidamente dos convoluciones de 3x3 (convoluciones sin relleno), cada una seguida de una unidad lineal rectificada (ReLU) y una operación de agrupación máxima de 2x2 con un paso de 2 para reducir la resolución. En cada paso de reducción de resolución, duplicamos la cantidad de canales de funciones. Cada paso en la ruta de dilatación consiste en un muestreo ascendente del mapa de características, seguido de una convolución de 2x2 que reduce a la mitad el número de canales de características (“convolución ascendente”), una concatenación con un mapa de características recortado correspondientemente en la ruta de contracción y dos convoluciones de 3x3. con ReLU detrás de cada convolución. El recorte es necesario porque los píxeles de los límites se pierden en cada convolución. En la última capa, cada vector de características de 64 componentes se asigna al número deseado de clases mediante una convolución de 1x1. La red tiene un total de 23 capas convolucionales.

  Para lograr una unión perfecta de los mapas de segmentación de salida (consulte la Figura 2), es importante elegir el tamaño del parche de entrada de modo que todas las operaciones de agrupación máxima de 2x2 se apliquen a capas con tamaños x e y pares.

3. Entrenamiento

  Las imágenes de entrada y sus correspondientes mapas de segmentación se utilizan para entrenar la red mediante la implementación de descenso de gradiente estocástico de Caffe [6]. Debido a la convolución sin relleno, la imagen de salida es más pequeña que la imagen de entrada en un ancho de borde constante. Para minimizar la sobrecarga y maximizar la utilización de la memoria de la GPU, preferimos mosaicos de entrada grandes a lotes grandes, reduciendo así el lote a una sola imagen. Por lo tanto, utilizamos un impulso alto (0,99) de modo que una gran cantidad de muestras de entrenamiento vistas previamente determinen actualizaciones en el paso de optimización actual.

  La función de energía se calcula combinando soft-max en píxeles en el mapa de características final con una función de pérdida de entropía cruzada. El máximo suave se define como pk ( x ) = exp ( ak ( x ) ) / ∑ k ′ = 1 K exp ( ak ′ ( x ) ) p_k(x)=exp(a_k(x))/\sum_{k ' =1}^{K}{exp(a_{k'}(x))}pagk( x )=e x p ( unk( x )) /k =1ke x p ( unk( x )) , dondeak ( x ) a_k(x)ak( x ) significa en la posición del píxelx ∈ Ω x ∈ ΩXΩ(使用Ω ⊂ Z 2 Ω ⊂ Z^2Ohz2 ) El canal de funcioneskkactivación en k . KKK es el número de clases,pk ( x ) p_k(x)pagk( x ) es la función máxima aproximada. Es decir, para a_k(x) con activación máximaak ( x )ak( x ) kk__kpk ( x ) ≈ 1 p_k(x)≈1pagk( x )1 , mientras que para todos los demáskkk , entoncespk ( x ) ≈ 0 p_k(x) ≈ 0pagk( x )0 . Entonces, la entropía cruzada penaliza p ℓ ( x ) ( x ) p_{\ell(x)}(x)en cada posiciónpag( x )( x ) desviación de 1, usando

inserte la descripción de la imagen aquí

donde ℓ : Ω → { 1 ,… , K } \ell:Ω→\{1,…,K\}:Oh{ 1 ,,K } es la etiqueta de verdad fundamental para cada píxel, yw : Ω → R w: Ω → Rw:OhR es un mapa de peso, que presentamos para darle más importancia a algunos píxeles durante el entrenamiento.

inserte la descripción de la imagen aquí

Figura 3. Células HeLa sobre vidrio registradas con microscopía DIC (Contraste de Interferencia Diferencial). (a) Imagen original. (b) Segmentación de verdad sobre el terreno apilada. Diferentes colores indican diferentes instancias de células HeLa. (c) La máscara de segmentación resultante (blanco: primer plano, negro: fondo). (d) Mapeo para obligar a la red a aprender los píxeles de los límites.

  Precalculamos mapas de peso para cada división de verdad sobre el terreno para compensar las diferentes frecuencias de píxeles de una determinada clase en el conjunto de datos de entrenamiento y para obligar a la red a aprender los pequeños límites de separación que introducimos entre las unidades de contacto (consulte las Figuras 3c y d).

  Utilice operaciones morfológicas para calcular los límites de separación. Entonces el mapa de peso se calcula como

inserte la descripción de la imagen aquí

wc : Ω → R w_c: Ω → Rwc:OhR es el mapa de peso de la frecuencia de clase equilibrada,d 1 : Ω → R d_1:Ω→Rd1:OhR representa la distancia al límite de celda más cercano,d 2 : Ω → R d_2:Ω → Rd2:OhR es la distancia al borde de la segunda celda más cercana. En nuestros experimentos, establecemosw 0 = 10 w_0=10w0=10σ ≈ 5 σ≈5pag5 píxeles.

  En redes profundas con muchas capas convolucionales y diferentes caminos a través de la red, una buena inicialización de los pesos es extremadamente importante. De lo contrario, algunas partes de la red pueden sobreactivarse mientras que otras nunca contribuyen. Idealmente, los pesos iniciales deberían adaptarse de manera que cada mapa de características en la red tenga una variación aproximadamente unitaria. Para una red con nuestra arquitectura (alternando capas convolucionales y ReLU), esto se puede lograr comenzando con una desviación estándar de 2/N \sqrt{2/N}2/ norte Esto se logra dibujando los pesos iniciales en una distribución gaussiana, donde N representa el número de nodos entrantes de una neurona [5]. Por ejemplo, para una convolución de 3x3 y 64 canales de características en la capa anterior, N = 9 ⋅ 64 = 576 N=9 64=576norte=9⋅ _64=576 .

3.1 Aumento de datos

  Cuando solo hay unas pocas muestras de entrenamiento disponibles, el aumento de datos es crucial para enseñar a la red las propiedades robustas e invariantes deseadas. En el caso de imágenes de microscopio, necesitamos principalmente invariancia de desplazamiento y rotación, así como robustez a la deformación y cambios de valores de gris. En particular, la deformación elástica aleatoria de muestras de entrenamiento parece ser un concepto clave para entrenar redes de segmentación con pocas imágenes anotadas. Generamos deformaciones suaves utilizando vectores de desplazamiento aleatorio en una cuadrícula gruesa de 3 por 3. Los desplazamientos se muestrearon a partir de una distribución gaussiana con una desviación estándar de 10 píxeles. Luego se utiliza la interpolación bicúbica para calcular el desplazamiento de cada píxel. Una capa de abandono al final de la ruta de contracción realiza un mayor aumento de datos implícito.

4. Experimentar

  Demostramos la aplicación de u-net a tres tareas de segmentación diferentes. La primera tarea fue segmentar estructuras neuronales en grabaciones de microscopio electrónico. En la Figura 2 se muestra un ejemplo del conjunto de datos y nuestras divisiones obtenidas. Proporcionamos los resultados completos como material complementario. Este conjunto de datos es proporcionado por el EM Segmentation Challenge [14] iniciado por ISBI en 2012 y todavía está aceptando nuevas contribuciones. Los datos de entrenamiento son un conjunto de 30 imágenes (512 x 512 píxeles) de microscopía electrónica de transmisión de secciones en serie del cordón nervioso ventral larval (VNC) del primer estadio de Drosophila. Cada imagen tiene un mapa de segmentación de verdad fundamental correspondiente, completamente anotado, de células (blanco) y membranas (negro). El conjunto de prueba es público, pero su gráfico dividido se mantiene privado. Las evaluaciones se pueden obtener enviando mapas de probabilidad de membrana previstos a los organizadores. La evaluación se realiza estableciendo un umbral en el mapa en 10 niveles diferentes y calculando el "error de deformación", el "error aleatorio" y el "error de píxel" [14].

  u-net (promediado sobre 7 versiones rotadas de los datos de entrada) logra un error de deformación de 0,0003529 (nueva mejor puntuación, consulte la Tabla 1) y una aleatoriedad de 0,0382 sin ningún error adicional de procesamiento previo o posterior.

  Esto es significativamente mejor que los resultados de la red convolucional de ventana deslizante de Ciresan et al.[1], cuya mejor presentación tuvo un error deformado de 0,000420 y un error aleatorio de 0,0504. El único algoritmo que funcionó mejor en este conjunto de datos en términos de error aleatorio utilizó un método de posprocesamiento altamente específico del conjunto de datos aplicado a los mapas de probabilidad de Ciresan et al. [1] (Los autores de este algoritmo han presentado 78 soluciones diferentes para lograr este resultado.).

Tabla 1. Clasificación del desafío de segmentación de los mercados emergentes [14] (6 de marzo de 2015), ordenado por error de deformación.

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

Figura 4. Resultados del desafío de seguimiento de células ISBI. (a) Parte de la imagen de entrada del conjunto de datos "PhC-U373". (b) Resultado de la segmentación (máscara cian) versus verdad sobre el terreno manual (límite amarillo) (c) Imagen de entrada del conjunto de datos "DIC HeLa". (d) Resultados de segmentación (máscaras de colores aleatorios) versus verdad básica manual (bordes amarillos).

Tabla 2. Resultados desglosados ​​(IOU) del ISBI Cell Tracking Challenge 2015.

inserte la descripción de la imagen aquí

  También aplicamos u-net a la tarea de segmentación celular en imágenes de microscopía óptica. Esta tarea de segmentación fue parte del ISBI Cell Tracking Challenge en 2014 y 2015 [10, 13]. El primer conjunto de datos, "PhC-U373" (conjunto de datos proporcionado por el Dr. Sanjay Kumar. Departamento de Bioingeniería de la Universidad de California en Berkeley. Berkeley CA (EE. UU.)) contiene geles sobre matrices de poliacrilimida registradas mediante microscopía de contraste de fases. (ver Figura 4a, by Material complementario). Contiene 35 imágenes de entrenamiento parcialmente anotadas. Aquí, logramos un pagaré promedio (“relación de intersección sobre unión”) del 92 %, que es significativamente mejor que el segundo mejor algoritmo con un 83 % (ver Tabla 2). El segundo conjunto de datos "DIC HeLa" (conjunto de datos proporcionado por el Centro Médico Erasmus Dr. Gert van Cappellen. Rotterdam, Países Bajos) son células HeLa en vidrio plano registradas mediante microscopía de contraste de interferencia diferencial (DIC) (ver Figura 3, Figura 4c, d y material complementario). Contiene 20 imágenes de entrenamiento parcialmente anotadas. Aquí logramos un pagaré promedio del 77,5%, que es significativamente mejor que el siguiente mejor algoritmo con un 46%.

5. Conclusión

  La arquitectura u-net logra un rendimiento muy bueno en aplicaciones de segmentación biomédica muy diferentes. Gracias al aumento de datos de deformación elástica, requiere muy pocas imágenes anotadas y el tiempo de entrenamiento es muy razonable: solo 10 horas en una GPU NVidia Titan (6 GB). Proporcionamos una implementación completa basada en Caffe [6] y una red capacitada (implementación de U-net, redes capacitadas y material complementario disponible en http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net net ). Estamos seguros de que la arquitectura u-net se puede aplicar fácilmente a muchas más tareas.

Agradecimientos

Este estudio fue apoyado por la Iniciativa de Excelencia de los gobiernos federal y estatal de Alemania (EXC 294) y por el BMBF (Fkz 0316185B)

Referencias

  1. Ciresan, DC, Gambardella, LM, Giusti, A., Schmidhuber, J.: Las redes neuronales profundas segmentan las membranas neuronales en imágenes de microscopía electrónica. En: NIPS. págs. 2852–2860 (2012)
  2. Dosovitskiy, A., Springenberg, JT, Riedmiller, M., Brox, T.: Aprendizaje discriminativo de funciones no supervisadas con redes neuronales convolucionales. En: NIPS (2014)
  3. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Jerarquías de funciones ricas para una detección precisa de objetos y segmentación semántica. En: Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR) (2014)
  4. Hariharan, B., Arbelez, P., Girshick, R., Malik, J.: Hipercolumnas para segmentación de objetos y localización detallada (2014), arXiv:1411.5752 [cs.CV]
  5. He, K., Zhang, X., Ren, S., Sun, J.: Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de imagenet (2015), arXiv:1502.01852 [cs.CV]
  6. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadar rama, S., Darrell, T.: Caffe: arquitectura convolucional para incrustación rápida de características ( 2014), arXiv:1408.5093 [cs.CV]
  7. Krizhevsky, A., Sutskever, I., Hinton, GE: Clasificación de Imagenet con redes neuronales convolucionales profundas. En: NIPS. págs. 1106-1114 (2012)
  8. LeCun, Y., Boser, B., Denker, JS, Henderson, D., Howard, RE, Hubbard, W., Jackel, LD: Retropropagación aplicada al reconocimiento de códigos postales escritos a mano. Computación neuronal 1 (4), 541–551 (1989)
  9. Long, J., Shelhamer, E., Darrell, T.: Redes totalmente convolucionales para segmentación semántica (2014), arXiv:1411.4038 [cs.CV]
  10. Maska, M., (…), de Solorzano, CO: Un punto de referencia para la comparación de algoritmos de seguimiento celular. Bioinformática 30, 1609-1617 (2014)
  11. Seyedhosseini, M., Sajjadi, M., Tasdizen, T.: Segmentación de imágenes con modelos jerárquicos en cascada y redes normales disyuntivas logísticas. En: Computer Vision (ICCV), Conferencia Internacional IEEE 2013 sobre. págs. 2168-2175 (2013)
  12. Simonyan, K., Zisserman, A.: Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala (2014), arXiv:1409.1556 [cs.CV]
  13. WWW: Página web del desafío de rastreo celular, http://www.codesolorzano.com/celltrackingchallenge/Cell_Tracking_Challenge/Welcome.html
  14. WWW: Página web del desafío de segmentación em, http://brainiac2.mit.edu/isbi_challenge/

Supongo que te gusta

Origin blog.csdn.net/i6101206007/article/details/131984240
Recomendado
Clasificación