[Notas divididas | Ing Organizador]

Segmentación de imágenes mediante aprendizaje profundo: una encuesta , buena traducción 

【Notas de lectura】

Este artículo se centra en los métodos de aprendizaje supervisados ​​y débilmente supervisados, excluyendo los métodos no supervisados.
Para el aprendizaje supervisado: selección de red troncal, diseño de bloques de red y mejora de funciones de pérdida.
Para métodos de aprendizaje débilmente supervisados: aumento de datos, transferencia de aprendizaje y segmentación interactiva. Investigación

Extraer características de identificación de imágenes médicas es más difícil que las imágenes RGB normales: existen problemas como desenfoque, ruido y bajo contraste.

En los últimos años, ha habido pocos informes de investigación basados ​​en tecnología basada en modelos, pero cada vez hay más informes de investigación sobre la segmentación de imágenes médicas basada en datos. Este artículo estudia principalmente el desarrollo y desarrollo de modelos de aprendizaje profundo para la segmentación de imágenes médicas.

Deficiencias de las revisiones existentes: en primer lugar, en su mayoría resumen el desarrollo de la segmentación de imágenes médicas en orden cronológico, ignorando así las ramas de la tecnología de aprendizaje profundo necesarias para la segmentación de imágenes médicas. Otro problema es que estas encuestas solo introducen desarrollos técnicos relevantes sin prestar atención a las características de la tarea de la segmentación de imágenes médicas, como el aprendizaje de pocas tomas y el aprendizaje desequilibrado, lo que limita la mejora de la segmentación de imágenes médicas basada en tareas.

En la Sección 2, revisamos el desarrollo del aprendizaje supervisado aplicado a imágenes médicas, incluida la selección de redes troncales, el diseño de bloques de red y la mejora de funciones de pérdida.

En la Sección 4, presentamos brevemente algunos métodos de segmentación de imágenes médicas de última generación, incluidas las aplicaciones de NAS, GCN y la fusión de datos multimodal.


Estructura de códec de redes troncales
: esta es una de las arquitecturas de extremo a extremo más populares, como la red totalmente convolucional (FCN) [32], U-Net [7] y Deeplab [33]. En estas estructuras, el codificador se usa generalmente para extraer características de la imagen, mientras que el decodificador generalmente se usa para restaurar las características extraídas al tamaño de la imagen original y generar el resultado final de la segmentación. Aunque la estructura de un extremo a otro es práctica para la segmentación de imágenes médicas, reduce la interpretabilidad del modelo.
UNet: Estructuras simétricas y conexiones saltadas. A diferencia de la segmentación de imágenes ordinaria, las imágenes médicas suelen contener ruido y límites borrosos. Por lo tanto, es difícil detectar o identificar objetos en imágenes médicas basándose únicamente en características de bajo nivel de la imagen. Debido a la falta de información detallada de la imagen, los límites precisos se obtienen solo en función de las características semánticas de la imagen, mientras que U-Net combina mapas de características de baja y alta resolución a través de conexiones de salto para fusionar de manera efectiva características de imagen de bajo y alto nivel. Saltar conexión : Aunque omitir conexiones se puede
fusionar información de baja y alta resolución, mejorando así la representación de características, debido a la gran brecha semántica entre las características de baja y alta resolución, el mapeo de características es borroso.
Los modelos en cascada se pueden dividir aproximadamente en tres tipos de marco:
Segmentación gruesa-fina: la primera red realiza una segmentación gruesa y luego se utiliza otro modelo de red para lograr una segmentación fina basada en los resultados de la segmentación gruesa anterior Segmentación de detección
: Yolo primero y luego alimentado a resolución completa Se utiliza una red convolucional (FrCN) para la segmentación y, finalmente, se utiliza una red neuronal convolucional profunda para clasificar la segmentación mixta del tumor (benigno/maligno)
:

2D DenseUNet para extraer características de imágenes 2D de forma eficaz

Incorporar conocimientos previos sobre la forma y ubicación de los órganos puede ser crucial para mejorar la segmentación de imágenes médicas

[68] propusieron un nuevo método general que incorpora conocimientos previos sobre la forma y la estructura de las etiquetas en redes neuronales anatómicamente restringidas (ACNN) para tareas de análisis de imágenes médicas. De esta manera, el proceso de entrenamiento de la red neuronal se puede restringir y guiar para realizar predicciones más anatómicas y significativas, especialmente en situaciones donde los datos de la imagen de entrada no son lo suficientemente informativos o consistentes (por ejemplo, faltan límites de objetos).
[69]2020ISBI


Bloque de funciones de red
Conexión densa Conexión densa


Separabilidad en profundidad inicialSeparabilidad en profundidad

Mecanismo de atención

Fusión de información a múltiples escalasFusión de información a múltiples escalas

Función de pérdida
Pérdida de entropía cruzada
Pérdida de entropía cruzada
ponderada Pérdida de dados
Pérdida de Tversky Pérdida
de dados generalizada
Pérdida de límites
Pérdida logarítmica exponencial
Mejoras en pérdidas
Supervisión profunda

Descripción general

Algoritmo de segmentación de imágenes : La llamada segmentación de imágenes se refiere a dividir la imagen en varias áreas separadas en función de características como escala de grises, color, textura espacial, forma geométrica, etc., de modo que estas características muestren consistencia o similitud en la misma área. y Existen diferencias obvias entre las diferentes regiones. En pocas palabras, consiste en separar el objetivo del fondo en una imagen. Para imágenes en escala de grises, los píxeles dentro de una región generalmente tienen similitud en escala de grises, mientras que los píxeles dentro de una región generalmente tienen discontinuidad en escala de grises en los límites de la región. En cuanto a la tecnología de segmentación de imágenes, debido a la importancia y dificultad del problema en sí, el problema de la segmentación de imágenes ha atraído a muchos investigadores a dedicarle grandes esfuerzos desde la década de 1970. Aunque hasta ahora no un método universal de segmentación de imágenes perfecto, básicamente existe un consenso sobre las reglas generales de segmentación de imágenes y se han producido considerables resultados y métodos de investigación.

Método de segmentación tradicional:

1. Método de segmentación basado en umbrales

        La idea básica es calcular uno o más umbrales de escala de grises en función de las características de escala de grises de la imagen, comparar el valor de escala de grises de cada píxel de la imagen con el umbral y finalmente clasificar los píxeles en categorías apropiadas según los resultados de la comparación. Por lo tanto, el paso más crítico de este método es resolver el umbral de gris óptimo de acuerdo con una determinada función de criterio.

        El método de umbral es particularmente adecuado para imágenes donde el objetivo y el fondo ocupan diferentes rangos de escala de grises. Si la imagen tiene solo dos categorías: objetivo y fondo, entonces solo es necesario seleccionar un umbral para la segmentación. Este método se convierte en segmentación de umbral único ; pero si hay varios objetivos en la imagen que deben extraerse, los recortes aparecerán en Segmentación de umbral único. En este caso, a continuación, se deben seleccionar varios umbrales para separar cada objetivo. Este método de segmentación se denomina correspondientemente segmentación de umbrales múltiples . Lo más importante es la elección del umbral.

2. Método de segmentación de imágenes basado en regiones.

        El método de segmentación basado en regiones es una tecnología de segmentación basada en la búsqueda directa de regiones . Hay dos formas básicas de métodos de extracción basados ​​en regiones: una es el crecimiento de regiones , que comienza desde un solo píxel y se fusiona gradualmente para formar la región de segmentación requerida; el otro parte de la situación general y corta gradualmente a las áreas segmentadas requeridas.

        Crecimiento de región: comenzando a partir de un conjunto de píxeles semilla que representan diferentes áreas de crecimiento, luego fusionando píxeles calificados en la vecindad de los píxeles semilla en el área de crecimiento representada por los píxeles semilla, y usando los píxeles recién agregados como nuevos píxeles semilla Continuar el proceso de fusión hasta que no se encuentren nuevos píxeles que cumplan las condiciones (el editor tomó el examen final de aprendizaje automático en el primer semestre del primer semestre para escribir este algoritmo TT a mano). La clave de este método es elegir el píxel inicial apropiado y criterios de crecimiento razonables.

        División y fusión de regiones : el crecimiento de regiones comienza desde un determinado píxel o ciertos píxeles y finalmente obtiene la región completa, logrando así la extracción del objetivo. Se puede decir que dividir y fusionar es el proceso inverso del crecimiento de regiones . A partir de la imagen completa, cada subregión se obtiene mediante división continua y luego la región de primer plano se fusiona para obtener el objetivo de primer plano que debe segmentarse, y entonces se logra la extracción objetivo. De hecho, si comprende el algoritmo de crecimiento de regiones anterior, este algoritmo de división y fusión de regiones será más fácil de entender. En aplicaciones prácticas, el algoritmo de crecimiento de región y el algoritmo de división y fusión de región generalmente se usan en combinación. Este tipo de algoritmo es más efectivo para segmentar escenas complejas definidas por algunos objetos complejos o segmentar algunas escenas naturales y otras segmentaciones de imágenes similares sin suficiente previa. conocimiento ideal.

        El algoritmo de cuenca es un algoritmo muy fácil de entender, considera la segmentación de imágenes en función de la composición de la cuenca, en realidad podemos imaginar una escena con montañas y lagos, por lo que debe ser como se muestra a continuación, con agua rodeando montañas. y agua. El método de segmentación de cuencas es un método matemático de segmentación morfológica basado en la teoría de la topología. Su idea básica es considerar la imagen como una topografía topológica en geodesia. El valor de gris de cada píxel en la imagen representa la altitud de ese punto. Cada mínimo local y su área de influencia se denomina cuenca hidrográfica y los límites de la cuenca hidrográfica forman una cuenca hidrográfica.

3. Método de segmentación basado en la detección de bordes.

        Los algoritmos de segmentación de imágenes basados ​​en la detección de bordes intentan resolver el problema de segmentación detectando bordes que contienen diferentes regiones . Se puede decir que es uno de los primeros y más estudiados métodos en los que piensa la gente. Por lo general, el valor de gris de los píxeles en los límites de diferentes áreas cambia drásticamente. Si la imagen se transforma de Fourier del dominio espacial al dominio de frecuencia, los bordes corresponden a las partes de alta frecuencia . Este es un algoritmo de detección de bordes muy simple.

Algoritmos de segmentación de imágenes combinados con herramientas específicas:

Segmentación basada en aprendizaje profundo:

1. Codificador de funciones basado: VGGnet y ResNet

        La red neuronal convolucional profunda VGGNet todavía se utiliza para extraer características de la imagen ;

2. Propuesta regional basada: serie R-CNN.

Algoritmos comúnmente utilizados, especialmente en el campo de la detección de objetos . La idea central es detectar el espacio de color y la matriz de similitud, y detectar el área a detectar en función de estos. Luego se pueden hacer predicciones de clasificación basadas en los resultados de la detección .

3. Segmentación de imágenes basada en RNN (redes neuronales recurrentes)

Además de funcionar bien en escritura a mano y reconocimiento de voz, los RNN también funcionan bien en la resolución de tareas de visión por computadora. En este artículo, presentaremos algunas aplicaciones de RNN en el procesamiento de imágenes 2D . RNN es una red compuesta de bloques de memoria a largo y corto plazo (LSTM). La capacidad de RNN para aprender de datos de secuencia durante mucho tiempo y preservar la memoria junto con la secuencia lo hace adecuado para muchas tareas de visión por computadora, incluida la segmentación semántica. y la tarea de anotación de datos .

4. Método de segmentación basado en muestreo ascendente/deconvolución

Las redes neuronales convolucionales perderán información detallada durante el muestreo para obtener más valores característicos. Sin embargo, este proceso es irreversible y, en ocasiones, provocará que la resolución de la imagen sea demasiado baja durante operaciones posteriores , lo que provocará problemas como la pérdida de detalles. Por lo tanto, podemos eliminar parte de la información perdida hasta cierto punto mediante el muestreo ascendente, obteniendo así límites de segmentación más precisos.

a.FCN (red totalmente convolucional)

Se ha convertido en un punto de referencia de la industria en el campo de la segmentación de imágenes. La mayoría de los métodos de segmentación utilizarán FCN o parte de él hasta cierto punto, como la Máscara R-CNN de la que hablamos antes. En la estructura de deconvolución y aumento de muestreo en FCN, la imagen se aumentará progresivamente (imagen ampliada) (píxeles ampliados || UNet primero se reducirá y luego se aumentará ); luego se realiza la convolución: los pesos se obtienen mediante el aprendizaje. La estructura de red de FCN se muestra en la siguiente figura:

 

Lectura adicional:

Serie FCN, UNet, deeplabv ☆:

b.SetNet

SegNet es una red profunda para la segmentación semántica de imágenes propuesta por Cambridge que tiene como objetivo resolver el problema de la conducción autónoma o los robots inteligentes. SegNet está basado en FCN y es muy similar a FCN, solo que su codificador-decodificador es ligeramente diferente de FCN. El decodificador utiliza Depooling para aumentar el muestreo del mapa de características y mantener la integridad de los detalles de alta frecuencia en varios puntos; el codificador no utiliza capas completamente conectadas, por lo que es una red liviana con menos parámetros.

5. DeepLab, un método de segmentación basado en mejorar la resolución de características

En otras palabras, se puede decir que restaura la resolución reducida en la red neuronal convolucional profunda, obteniendo así más información contextual . Lo que les presentaré en esta serie es DeepLab propuesto por Google. Es un método que combina redes neuronales convolucionales profundas y modelos gráficos probabilísticos. Se aplica a la tarea de segmentación semántica. El propósito es realizar píxel por píxel. clasificación, que refleja su naturaleza avanzada En la combinación de DenseCRF (modelo gráfico probabilístico) y DCNN. Trata cada píxel como un nodo CRF, explota dependencias de largo alcance y utiliza la inferencia CRF para optimizar directamente la función de pérdida de DCNN.

En el campo de la segmentación de imágenes, una operación bien conocida de FCN es suavizar y luego llenar, es decir, primero convolución y luego agrupación, lo que reduce el tamaño de la imagen mientras aumenta el campo receptivo, pero primero reduce el tamaño de la imagen (convolución). y luego se debe perder parte de la información en el proceso de aumentar el tamaño (muestreo ascendente), por lo que aquí hay margen de mejora.

Lo que quiero presentar a continuación es un punto destacado de la red DeepLab: Dilated/Atrous Convolution, que utiliza un método de muestreo con agujeros. El uso de convoluciones dilatadas con diferentes velocidades de muestreo en VGG16 puede controlar claramente el campo receptivo de la red.

6. Método de segmentación basado en la mejora de funciones.

Incluyendo la extracción de características de múltiples escalas o la extracción de características de una serie de regiones anidadas . En redes profundas para la segmentación de imágenes, CNN a menudo se aplica a pequeños cuadrados de la imagen, generalmente llamado núcleo de convolución de tamaño fijo centrado en cada píxel, y la clasificación de cada píxel se marca observando el área pequeña a su alrededor. En el campo de la segmentación de imágenes, las redes profundas que pueden cubrir una mayor porción de información contextual generalmente logran mejores resultados de segmentación, pero, por supuesto, esto también va acompañado de mayores costos computacionales. Así es como se introdujo el método de extracción de características multiescala.

SLIC (cluster iterativo lineal simple, algoritmo para generar superpíxeles): ¿Qué son los superpíxeles ? De hecho, esto es más fácil de entender: al igual que los "cuadrados pequeños" mencionados anteriormente, la unidad más pequeña que usualmente usamos para procesar imágenes es el píxel, que es el nivel de píxel, y la imagen a nivel de píxel se divide en niveles de distrito. (distrito) . -nivel) imagen, el área se considera como la unidad de procesamiento más básica, que es el superpíxel . Pensamiento algorítmico.

PSPNet: módulo de agrupación piramidal de Pyramid Scene Parsing Network

En la segmentación de escenas, la mayoría de los modelos utilizarán la arquitectura FCN, pero FCN tiene problemas con la relación entre escenas y la capacidad de procesar información global. Los problemas típicos incluyen: 1. La capacidad de inferencia de contexto no es sólida; 2. La relación entre etiquetas es no se maneja bien 3. El modelo puede ignorar cosas pequeñas. Este artículo propone una prioridad global jerárquica que contiene información en diferentes escalas de tiempo en diferentes subregiones, lo que se denomina módulo de agrupación piramidal. Este módulo combina 4 características de diferentes escalas piramidales . La primera fila de color rojo es la característica más gruesa: la agrupación global genera una única salida de contenedor y las siguientes tres filas son características agrupadas de diferentes escalas . Para garantizar el peso de las características globales, si la pirámide tiene un total de N niveles, se utiliza una convolución de 1 × 1 1 × 11 × 1 después de cada nivel para reducir el canal de nivel al 1/N original. Luego use la interpolación bilineal para obtener el tamaño antes de agruparlos y finalmente concatenarlos. El resultado final es que después de fusionar características de diferentes escalas, se logra la fusión de semántica y detalles, y el rendimiento del modelo mejora enormemente. El autor ha entrenado en muchos conjuntos de datos y el resultado final es que el modelo está pre -capacitado en el conjunto de datos MS-COCO. Los mejores resultados son aquellos que han sido entrenados.

7. Métodos de uso de CRF/MRF

        El nombre completo de MRF es Marcov Random Field. El campo aleatorio de Markov es en realidad un algoritmo de segmentación de imágenes basado en estadísticas. El modelo de Markov se refiere a un conjunto de eventos. En este conjunto, los eventos ocurren uno por uno y los eventos del momento siguiente son La ocurrencia solo está determinada por el evento actual y no tiene nada que ver con el estado anterior. El campo aleatorio de Markov es un campo aleatorio con las características del modelo de Markov, es decir, cualquier área en el campo solo está relacionada con sus áreas adyacentes y no tiene nada que ver con áreas de otros lugares. Entonces, los elementos en estas áreas (que pueden ser píxeles en la imagen) El conjunto es un campo aleatorio de Markov.

        El nombre completo de CRF es campo aleatorio condicional. El campo aleatorio condicional es en realidad un campo aleatorio especial de Markov , solo que es un conjunto de variables aleatorias de entrada X bajo la condición de otro conjunto de variables aleatorias de salida Y. Campo aleatorio de Markov , su característica es que Egipto establece las variables aleatorias de salida para formar un campo aleatorio de Markov, que puede considerarse como la generalización del modelo de Markov de máxima entropía en problemas de etiquetado. En el campo de la segmentación de imágenes, uno de los modelos más famosos que utilizan CRF es el campo aleatorio condicional completamente conectado (DenseCRF). Un problema con CRF durante la operación es que solo opera en nodos adyacentes, lo que perderá parte de la información contextual, mientras que está completamente conectado. conectado El campo aleatorio condicional opera en todos los nodos, de modo que se pueda obtener la mayor cantidad posible de información de puntos cercanos, obteniendo así resultados de segmentación más precisos.

[Segmentación semántica] 

Segmentación semántica CV √: en el campo de la visión por computadora, las aplicaciones actuales de las redes neuronales incluyen principalmente reconocimiento de imágenes, posicionamiento y detección de objetivos y segmentación semántica . El reconocimiento de imágenes le dice cuál es la imagen, el posicionamiento y la detección del objetivo le dicen dónde está el objetivo en la imagen y la segmentación semántica responde las dos preguntas anteriores desde el nivel de píxeles . En la actualidad, los principales campos de aplicación de la segmentación semántica incluyen: sistemas de información geográfica, conducción de vehículos no tripulados y análisis de imágenes médicas (con el auge de la inteligencia artificial, la combinación de redes neuronales con diagnóstico médico también se ha convertido en un punto de acceso a la investigación, y la investigación médica inteligente maduró gradualmente En el campo de la medicina inteligente, la segmentación semántica se utiliza principalmente en la segmentación de imágenes de tumores, diagnóstico de caries, etc.), robótica y otros campos.

La segmentación semántica de la imagen (segmentación semántica) significa literalmente dejar que la computadora segmente de acuerdo con la semántica de la imagen. Por ejemplo, cuando la computadora ingresa la imagen izquierda a continuación, puede generar la imagen derecha. La semántica se refiere al significado del habla en el reconocimiento de voz. En el campo de las imágenes, la semántica se refiere al contenido de la imagen y la comprensión del significado de la imagen. Por ejemplo, la semántica de la imagen de la izquierda son tres personas montando tres bicicletas; el significado de segmentación proviene de píxeles. Los diferentes objetos en la imagen están segmentados por ángulo y cada píxel en la imagen original está etiquetado. Por ejemplo, en la imagen de la derecha, el rosa representa personas y el verde representa bicicletas.

Tecnología de aprendizaje profundo en segmentación semántica: lo que persigue la red neuronal totalmente convolucional FCN (2015) es que la entrada sea una imagen y la salida también sea una imagen, aprendiendo el mapeo de píxel a píxel y el mapeo de un extremo a otro. También es el trabajo pionero de aprendizaje profundo aplicado a la segmentación semántica de imágenes y ganó el mejor artículo en CVPR2015. Pero todavía hay muchos problemas que no se pueden evitar, como problemas de precisión, insensibilidad a los detalles, la relación entre píxeles y el descuido de la coherencia espacial.Investigaciones posteriores han mejorado enormemente estos problemas. Se utilizan tres técnicas principales:

 otro:

 【Descripción general】

Full☆ : Segmentación semántica (segmentación semántica de píxeles completos) como un problema clásico de visión por computadora ( clasificación de imágenes, detección de reconocimiento de objetos, segmentación semántica ). Implica tomar como entrada algunos datos sin procesar (por ejemplo, imágenes planas) y convertirlos en máscaras con regiones de interés resaltadas, donde a cada píxel de la imagen se le asigna una identificación de clase según el objeto al que pertenece. Los primeros problemas de visión por computadora solo encontraron bordes (líneas y curvas) o elementos de gradiente, pero proporcionaron comprensión de imágenes a nivel de píxeles exactamente de la misma manera que la percepción humana. La segmentación semántica resuelve este problema agrupando partes de la imagen que pertenecen al mismo objeto , ampliando así sus áreas de aplicación. Vale la pena señalar que la segmentación semántica es completamente diferente y avanzada en comparación con otras tareas basadas en imágenes. Métodos de aprendizaje profundo:

1. Principales aportes del FCN:

Generalizar las redes convolucionales de un extremo a otro a la segmentación semántica;

Reutilice la red Imagenet previamente entrenada para problemas de segmentación;

Utilice capas deconvolucionales para aumentar el muestreo;

Se proponen conexiones de salto para mejorar la tosquedad del muestreo ascendente.

2. Principales aportes de UNet:

U-Net está diseñado para ser aplicado a la segmentación de imágenes médicas. Sin embargo, debido a la particularidad del procesamiento de imágenes médicas en sí, la cantidad de datos que se pueden utilizar para el entrenamiento es todavía relativamente pequeña. El método propuesto en este artículo mejora efectivamente la eficiencia del uso de una pequeña cantidad de conjuntos de datos el efecto de la detección de entrenamiento Se propone un método eficaz para procesar imágenes de gran tamaño.

La estrategia de superposición de mosaicos
utiliza deformación elástica aleatoria para mejorar los datos
mediante pérdida ponderada.

http://t.csdn.cn/Yd8xk

Segmentación semántica : la segmentación semántica es una de las cuestiones clave en el campo de la visión por computadora en la actualidad. Desde una perspectiva macro, la segmentación semántica es una tarea de alto nivel que allana el camino para una comprensión completa de la escena. La importancia de la comprensión de la escena como un problema central de la visión por computadora se ve impulsada por un número cada vez mayor de aplicaciones que infieren conocimiento a partir de imágenes. Algunas de estas aplicaciones incluyen vehículos autónomos, interacción persona-computadora, realidad virtual, etc. En los últimos años, con la popularidad del aprendizaje profundo, muchos problemas de segmentación semántica se están resolviendo utilizando estructuras profundas. La más común es la red neuronal convolucional. , que es muy preciso en términos de precisión , mucho más que otros métodos. y eficiencia. ¿Qué es la segmentación semántica? La segmentación semántica es un paso natural del razonamiento grueso al fino: el origen se puede posicionar en la clasificación, lo que implica hacer predicciones sobre toda la entrada; el siguiente paso es la localización/detección, que proporciona no sólo clases sino también información adicional sobre las ubicaciones espaciales. de estas clases ...

Una arquitectura de segmentación semántica general puede considerarse en términos generales como una red codificadora seguida de una red decodificadora: el codificador suele ser una red de clasificación previamente entrenada, como VGG/RESNET, seguida de una red decodificadora. La tarea del decodificador es proyectar semánticamente las características de reconocimiento (baja resolución) aprendidas por el codificador en el espacio de píxeles (alta resolución) para obtener una clasificación densa.
A diferencia de la clasificación, donde el resultado final de una red profunda solo es importante, la segmentación semántica no solo requiere discriminación a nivel de píxel, sino que también requiere un mecanismo para proyectar las características discriminativas aprendidas en diferentes etapas del codificador en el espacio de píxeles. Diferentes métodos utilizan diferentes mecanismos como parte del mecanismo de decodificación. Explore tres métodos principales:

1-Segmentación semántica basada en regiones

 2- Segmentación semántica de red totalmente convolucional

 3-Segmentación semántica débilmente supervisada

 4. Segmentación semántica utilizando redes totalmente convolucionales.

Otras adiciones:

1. Transforme el problema de detección de puntos clave en un problema de optimización: modelo de forma activa (ASM) y modelo de apariencia activa (AAM): AAM integra más información de apariencia general en la imagen basada en ASM para describir mejor la situación general. solidez y solidez. 

Modelo de forma activa : es un método de posicionamiento de puntos de rasgos faciales relativamente maduro. Utiliza un modelo de textura local para realizar búsquedas locales alrededor de puntos característicos y utiliza un modelo estadístico global para restringir la forma compuesta por conjuntos de puntos característicos. Los dos se iteran repetidamente y finalmente convergen a la forma óptima. Los modelos de formas activas tienen grandes ventajas en cuanto a velocidad y generalmente se utilizan en situaciones con altos requisitos de tiempo real. El modelo de forma activa (ASM) fue propuesto originalmente por Cootes et al. Es ideológicamente similar al modelo de contorno activo, es decir, define una función de energía y minimiza la función de energía ajustando los parámetros del modelo. El modelo de forma activa es un método de posicionamiento de puntos de rasgos faciales maduro y ampliamente utilizado. El posicionamiento de los puntos de los rasgos faciales es uno de los temas centrales del reconocimiento facial. Se refiere a la búsqueda de la ubicación de algunos o todos los rasgos faciales (como ojos, nariz, boca, orejas, etc.) dentro de un área determinada de una imagen. o secuencia de imágenes, puntos clave o contornos. Antes de ubicar los puntos característicos de la imagen en la imagen, la imagen facial es solo una colección de valores de píxeles para la computadora; solo después de ubicar los puntos característicos, la computadora puede interpretar más la imagen facial. De hecho, el posicionamiento de los puntos de rasgos faciales completa la transformación de la semántica de bajo nivel a nivel de píxel a la semántica de alto nivel a nivel de características.

 AAM (Modelo de apariencia activa) es un método de extracción de puntos característicos ampliamente utilizado en el campo del reconocimiento de patrones [26]. En el proceso de establecimiento de un modelo facial, el método de posicionamiento de rasgos faciales basado en AAM no solo considera la información de rasgos locales, sino que también considera de manera integral la información global de formas y texturas.A través del análisis estadístico de los rasgos de forma y textura de la cara, se crea un modelo de mezcla de rostros. establecido. , que es el modelo AAM correspondiente final. En el proceso de comparación de imágenes, para calibrar los rasgos faciales de manera rápida y precisa, se adopta un método de ajuste y coincidencia de imágenes al ubicar los puntos característicos del objeto facial probado, que se puede resumir como "coincidir → comparar" → Ajustar y luego combinar → Comparar de nuevo” .

2. El ML tradicional no es de un extremo a otro, el DL es de un extremo a otro.

Non-end2end: en el aprendizaje automático tradicional, el proceso de aprendizaje generalmente consta de múltiples módulos de procedimiento. Cada uno de estos módulos es responsable de tareas relativamente independientes, pero los resultados de la ejecución de sus tareas a menudo afectan el efecto del siguiente módulo y, en última instancia, afectan el El efecto de toda la capacitación, este modelo de aprendizaje automático no es de un extremo a otro. En los problemas típicos de procesamiento del lenguaje natural, que incluyen múltiples pasos independientes como la segmentación de palabras, el etiquetado de partes del discurso, el análisis sintáctico y el análisis semántico, el efecto del paso principal a menudo afecta los resultados de los siguientes pasos; en los sistemas tradicionales de reconocimiento de voz Incluye módulos de extracción de características, modelo acústico, diccionario de pronunciación, modelo de lenguaje, decodificador y otros módulos. En el reconocimiento de voz tradicional, el modelo de voz y el modelo de lenguaje se entrenan por separado, y la optimización de un solo modelo puede no mejorar necesariamente la tasa de reconocimiento general. .       

end2end: la idea del aprendizaje de un extremo a otro es ingresar datos directamente en el extremo de entrada a través del modelo de aprendizaje profundo, obtener el resultado de la predicción desde el extremo de salida y compararlo con el resultado real para obtener el error. y propagar hacia atrás el error capa por capa en el modelo y ajustarlo Finalice el entrenamiento hasta que el modelo converja o alcance el efecto esperado.

Comprensión y escenarios aplicables : Desventajas de un extremo a otro : exclusión de componentes diseñados manualmente potencialmente útiles 

Comprensión : Al comienzo del aprendizaje automático, las personas no ingresan directamente los datos originales para obtener el resultado final; en cambio, primero realizan un procesamiento preliminar de los datos originales mediante la extracción de características y luego aprenden las características obtenidas para obtener la clasificación o Por lo tanto, en este caso (no de un extremo a otro), la extracción de características tendrá un gran impacto en el rendimiento final del modelo. La redacción de descriptores de características tiene un gran componente empírico, por lo que es una tarea relativamente difícil. El aprendizaje de un extremo a otro consiste en entregar la tarea de extracción de características al modelo, ingresar directamente datos sin procesar o datos ligeramente preprocesados ​​y dejar que el modelo realice la extracción de características por sí solo.

Aprendizaje de representación : Que un algoritmo de aprendizaje automático funcione o no depende no sólo de la correcta selección del algoritmo , sino también de la calidad y representación efectiva de los datos . Para diferentes tipos de datos (texto, imagen, video), diferentes representaciones pueden provocar la pérdida o exposición de información efectiva, lo que determina si el algoritmo puede resolver el problema de manera efectiva. El propósito del aprendizaje de representación es simplificar datos originales complejos, eliminar información no válida o redundante de los datos originales y refinar la información efectiva para formar características . La extracción de características se puede realizar de forma manual o automática con la ayuda de algoritmos específicos . En resumen, el primero es ingeniería de características y el segundo es aprendizaje de representación . Si la cantidad de datos es pequeña , podemos diseñar artificialmente características apropiadas basadas en nuestra propia experiencia y conocimiento previo para usarlas en tareas posteriores, como la clasificación; pero cuando la cantidad de datos es grande y compleja , debemos confiar en la representación automatizada. aprendiendo..

El aprendizaje por representación también juega un papel muy importante en el campo de la inteligencia artificial. Ya sabemos que el procesamiento de la información humana está estrechamente relacionado con la memoria a largo plazo y la memoria a corto plazo. La memoria a corto plazo es la memoria almacenada a corto plazo, y la memoria a largo plazo es el conocimiento almacenado a largo plazo en nuestro cerebro, al igual que los documentos masivos almacenados en una biblioteca. Según este modelo simple de procesamiento de información, junto con la velocidad de cálculo más rápida y el enorme espacio de almacenamiento de las computadoras, la inteligencia artificial debería ser más poderosa que los humanos. Pero al menos hasta ahora, eso no es lo que estamos viendo. Una de las razones importantes de esto es que todavía no hemos podido descifrar cómo el cerebro humano codifica datos y almacena conocimientos . El primer paso para procesar información externa es codificarla y proyectarla en un espacio determinado. Por ejemplo, cuando los humanos solo necesitan unos pocos ejemplos para distinguir entre perros y gatos, pero las máquinas requieren una gran cantidad de datos para entrenar, no podemos evitar querer explorar: ¿Cómo codifican imágenes los humanos? ¿Qué características extrae que se pueden aprender con una pequeña cantidad de muestras? ¿Por qué el conocimiento aprendido por los humanos es más flexible y se puede aplicar en más aspectos, mientras que la versatilidad del modelo del aprendizaje automático suele ser pobre? Este es exactamente el objetivo de la exploración del aprendizaje de representaciones: encontrar mejores representaciones de datos .

Aprendizaje de representación de imágenes: los algoritmos representados se pueden dividir aproximadamente en tres direcciones de investigación:

  • El aprendizaje supervisado requiere una gran cantidad de datos anotados para entrenar el modelo de red neuronal. Utiliza la pérdida de entropía cruzada de la predicción del modelo y la etiqueta real de los datos para realizar la retropropagación. Después de completar el entrenamiento del modelo, elimine la última capa fc y convierte el modelo. La salida es una representación de los datos.

  • Aprendizaje no supervisado El aprendizaje no supervisado , como el análisis de componentes principales (PCA) y el codificador automático, comprime las dimensiones de los datos de entrada para descartar y fusionar información redundante y seleccionar la información condensada más crítica .

  • El aprendizaje autosupervisado utiliza datos no etiquetados a gran escala para seleccionar tareas auxiliares apropiadas (pretexto) y sus propias señales de supervisión. La red se entrena a través de esta señal de supervisión construida, de modo que se puedan aprender las tareas posteriores. Representación valiosa.

¿2stage cuenta como de un extremo a otro? El llamado de un extremo a otro significa que el modelo de entrada de imagen genera directamente los resultados esperados después del procesamiento y los parámetros del modelo se pueden actualizar directamente durante el proceso de capacitación . En cuanto a cuántas etapas tiene, incluso si varias etapas pueden realizar retropropagación de gradiente, la optimización de varios modelos al mismo tiempo también se denomina de extremo a extremo. Por ejemplo, en las tecnologías relacionadas con GAN , hay discriminadores y generadores. Se pueden optimizar dos modelos completamente independientes simultáneamente en un marco, que es un método de entrenamiento de un extremo a otro. Otro ejemplo es R-CNN no es de extremo a extremo . Hay una red RPN que debe entrenarse primero. Después del entrenamiento, se entrena la red de clasificación y regresión posterior. Para lograr un objetivo, el resultado se puede lograr sin entrenamiento de una sola vez . Ni RCNN ni SPPNet antes de fast-RCNN se entrenaron de un extremo a otro porque la clasificación de categoría final y la regresión del cuadro delimitador se realizaron por separado.

Aprendizaje multitarea y de un extremo a otro ,

Redes de reloj de arena

Modelo de aprendizaje profundo basado en una red neuronal convolucional profunda

Supongo que te gusta

Origin blog.csdn.net/sinat_40759442/article/details/127634907
Recomendado
Clasificación