Una imagen para comprender: 14 principios de agrupación y visualizaciones de redes neuronales (MAX, AVE, SUM, MIX, SOFT, ROI, CROW, RMAC)

Pooling Pooling es una operación común en redes neuronales convolucionales: la capa Pooling imita el sistema visual humano para reducir la dimensionalidad de los datos y su esencia es la reducción de dimensionalidad . Después de la capa convolucional, la agrupación se utiliza para reducir la dimensión de la característica de la salida de la capa convolucional, reducir los parámetros de red y los costos computacionales y reducir el sobreajuste.

Max Pooling divide la imagen de entrada en varias áreas rectangulares y genera el valor máximo para cada subárea. Es decir, tomar el punto con mayor valor en el campo receptivo local. De manera similar, la agrupación promedio (Average Pooling) consiste en tomar el valor promedio de la mediana del campo receptivo local.

El funcionamiento de la agrupación máxima se muestra en la siguiente figura: la imagen completa se divide en varios bloques pequeños del mismo tamaño (tamaño de agrupación) sin superponerse. Solo se toma el número más grande en cada bloque pequeño y, después de descartar otros nodos, se mantiene la estructura plana original para obtener el resultado.

La agrupación máxima se realiza por separado en diferentes profundidades y no requiere control de parámetros. Entonces la pregunta es ¿cuál es el papel de la agrupación máxima? ¿No hay ningún impacto después de que se descarte alguna información?

La función principal de Max Pooling es la reducción de resolución, pero no dañará los resultados del reconocimiento. 

La agrupación MAX significa que para cada canal (suponiendo que hay N canales), el valor máximo de los valores de píxeles del mapa de características del canal se selecciona como representante del canal, para obtener una representación vectorial de N dimensiones. . El autor utiliza el método de agrupación MAX en flask-keras-cnn-image-retrieval.

La agrupación MAX es ligeramente mejor que la agrupación SUM y la agrupación AVE. Sin embargo, estos tres métodos de agrupación todavía tienen mejoras limitadas en la recuperación de objetos.

El rol de Max Pooling
Role 1: invariancia (invariancia)
invariancia (invariancia), esta invariancia incluye invariancia de traducción (traducción), invariancia de rotación (rotación), invariancia de escala (escala).

(1) traducción traducción

Las dos imágenes grandes a la izquierda de la imagen representan el número 1, pero las posiciones de las dos son diferentes: la superior se traslada hacia la derecha para obtener la inferior. Después de la combinación, se obtuvo el mismo resultado.

(2) rotación

La imagen grande de la izquierda muestra el carácter chino "uno" (entendámoslo de esta manera, solo entiéndalo). El mismo resultado se obtuvo después de dos combinaciones.

(3) escala

La imagen grande de la izquierda representa el número 0 y se obtiene el mismo resultado después de dos combinaciones.

Otro ejemplo:

Considere la forma negra en el área amarilla ----- "pliegue horizontal". Tras un filtro 2*2 se obtiene una salida 3*3;

Después de la agrupación máxima de 3*3, la salida de 1*1 es 3.

Se puede ver que la forma de "plegado horizontal" tiene el mismo resultado después de la agrupación, lo que reduce el tamaño de entrada de la siguiente capa, reduce la cantidad de cálculo y el número de parámetros, y reduce la dimensión (reduce el tamaño del mapa de características ).

Efecto 2: Ampliar el campo receptivo puede tener alguna relación causal con la conclusión del efecto 1.

En primer lugar, su primera función es reducir el tamaño del mapa de características y reducir los parámetros que deben entrenarse; en segundo lugar, debido a la función de reducción, los 4 píxeles anteriores ahora se comprimen en 1. Entonces, significa que puedo ver los 4 puntos anteriores a través de este 1 punto, que es para ampliar el campo receptivo del mapa actual de una vez.

La agrupación global significa que el tamaño de la ventana deslizante de la agrupación es tan grande como el tamaño de todo el mapa de características. El método de agrupación específico en la ventana deslizante puede ser arbitrario, por lo que se subdividirá en agrupación promedio global, agrupación máxima global, etc.

La agrupación estocástica es una estrategia de agrupación mencionada en el artículo "Agrupación estocástica para la regularización de redes neuronales convolucionales profundas".

Mix Pooling es una estrategia de agrupación derivada de las ventajas de Max Pooling y Average Pooling. Dos estrategias de combinación comunes: empalmar Cat y superponer Add.

SoftPool es una variante de Pooling, que puede minimizar la pérdida de información causada por el proceso de agrupación mientras mantiene la función de la capa de agrupación. La figura anterior muestra la etapa de avance y la etapa de retroceso de la operación SoftPool. El área 6 * 6 representa el mapa de activación a.

La agrupación basada en importancia local propone aprender automáticamente la importancia a través de una subred basada en características de entrada. Es capaz de determinar de forma adaptativa qué características son más importantes y, al mismo tiempo, mejora automáticamente las características de identificación durante el proceso de muestreo. La idea específica es aprender un mapa similar a la atención en el mapa de características original y luego realizar un promedio ponderado con la imagen original. Cabe señalar que el intervalo de muestreo aquí es en realidad fijo, lo que no se ajusta al primer elemento de la descripción anterior, pero el autor cree que, dado que la importancia es variable, se produce un campo receptivo deformado.

S3Pool propone una estrategia de agrupación de ubicación aleatoria, que integra la agrupación aleatoria Stochastic Pooling y la agrupación máxima Max Pooling.

La agrupación de gráficos se basa en campos aleatorios condicionales, que trata la agrupación de gráficos como un problema de agrupación de nodos y utiliza CRF para establecer relaciones entre las asignaciones de diferentes nodos. Y generalice este método combinando información de topología de gráficos, de modo que la agrupación de gráficos pueda controlar camarillas por pares en CRF.

La agrupación de regiones de interés es una operación ampliamente utilizada en tareas de detección de objetivos. Para cada región de interés de la lista de entrada, toma una parte del mapa de características de entrada correspondiente y la escala a un tamaño predefinido. Esto puede acelerar significativamente los tiempos de entrenamiento y prueba, permite reutilizar mapas de características en redes convolucionales y también permite entrenar sistemas de detección de objetos de un extremo a otro.

10.Agrupación de SUMA

El método de representación de características de nivel medio basado en la agrupación SUM se refiere a sumar todos los valores de píxeles del mapa de características del canal para cualquier canal en la capa intermedia (por ejemplo, VGGNet16, pool5 tiene 512 canales), de modo que cada canal obtenga un valor real, N canales eventualmente obtendrán un vector de longitud N, que es el resultado de la agrupación SUM.

11.Agrupación MOP

MOP Pooling se originó a partir de este artículo. El primer trabajo es Yunchao Gong. Cuando estaba trabajando en él antes, leí algunos de sus artículos. Entre ellos, el artículo más representativo es ITQ. El autor también escribió una nota especial. La idea básica de la agrupación MOP es multiescala y VLAD (para conocer el principio de VLAD, consulte la publicación del blog que escribí antes), y los pasos específicos de la agrupación son los siguientes:

12.Agrupación de CUERVO

Para la recuperación de objetos, cuando usamos CNN para extraer características, lo que queremos es realizar la extracción de características en áreas con objetos, al igual que extraer características locales como características SIFT para construir vectores BoW, VLAD y FV, MSER, Saliency, etc. Se puede utilizar como medio para restringir las funciones SIFT a regiones con objetos. También basado en esta idea, cuando usamos CNN para la recuperación de objetos, tenemos dos formas de refinar las características de la recuperación de objetos: una es hacer la detección de objetos primero y luego extraer las características de CNN en el área del objeto detectado; la otra es que aumentar el peso del área del objeto y reducir el peso del área sin objeto mediante algún método de adaptación al peso. La agrupación CROW (ponderación multidimensional para características convolucionales profundas agregadas) es el último método. Al construir ponderaciones espaciales y ponderaciones de canal, la agrupación CROW puede aumentar el peso de la región de interés hasta cierto punto y reducir el peso de la región que no es objeto. región Pesos. El proceso de construcción de representación de características específicas se muestra en la siguiente figura:

El proceso central son los dos pesos de peso espacial y peso de canal. Cuando se calcula el peso espacial, se suma y agrega directamente al mapa de características de cada canal. Este peso espacial en realidad puede entenderse como un mapa de prominencia. Sabemos que a través del filtrado convolucional, los lugares con respuestas fuertes son generalmente los bordes de los objetos, etc., por lo que después de agregar y sumar múltiples canales, aquellas áreas con respuestas grandes y distintas de cero son generalmente las áreas donde se encuentran los objetos, por lo que Puede usarlo como el peso del mapa de características. Channel Weight toma prestada la idea de peso IDF, es decir, para algunas palabras de alta frecuencia, como "el", la frecuencia de dichas palabras parece muy alta, pero en realidad no es muy útil para la expresión de información. , es decir, la cantidad de información que contiene es demasiado pequeña, por lo que en el modelo BoW, dichas palabras vacías deben reducir su peso. Tomando prestado el proceso de cálculo del peso del canal, podemos imaginar tal situación, como en un determinado canal, cada valor de píxel de su mapa de características es distinto de cero y son relativamente grandes. Desde un punto de vista visual, el área blanca ocupa En todo el mapa de características, podemos pensar que el mapa de características de este canal no nos permite ubicar el área del objeto, por lo que necesitamos reducir el peso de este canal, y para el canal cuyo área blanca ocupa un Un área pequeña del mapa de características, creemos que es muy importante para el posicionamiento. Los objetos contienen mucha información, por lo que se debe aumentar el peso de este canal. Y este fenómeno es muy consistente con la idea de IDF, por lo que el autor usa el peso de IDF para definir el peso del canal.

En términos generales, el diseño de Peso espacial y Peso de canal es muy ingenioso, pero dicho método de agrupación solo puede adaptarse al área de interés hasta cierto punto. Podemos echar un vistazo al mapa de calor de Peso espacial * Peso de canal:

Como se puede ver en lo anterior, la parte con mayor peso se encuentra principalmente en la parte de la aguja, que puede considerarse como el área discriminada. Por supuesto, también podemos ver que en otras áreas de la imagen, hay un peso relativamente grande. distribuciones Estas áreas son nuestras no deseadas. Por supuesto, a juzgar por algunas otras imágenes visualizadas por el autor, este método de agrupación de cuervos no siempre tiene éxito, y también hay algunas imágenes cuyas áreas de peso no son el cuerpo principal del objeto en la imagen. Sin embargo, a juzgar por los resultados de decenas de millones de bibliotecas, el crow pooling aún puede lograr buenos resultados.

13.Agrupación de RMAC

El método de agrupación RMAC se deriva del tercer autor, Hervé Jégou (y Matthijs Douze son buenos amigos). En este artículo, el autor propone un método de agrupación de agrupación RMAC. La idea principal es similar a la agrupación MOP mencionada anteriormente. Utiliza un método de ventana variable para deslizar la ventana, pero se desliza Al usar la ventana, en lugar de deslizar la ventana en la imagen, se realiza en el mapa de características (lo que acelera en gran medida la velocidad de extracción de características). Además, al fusionar características locales, la agrupación MOP utiliza el método VLAD para fusionar, mientras que la agrupación RMAC se maneja de manera más simple (simple no no significa que el efecto no sea bueno), agregando directamente las características locales para obtener las características globales finales. El método de ventana deslizante específico se muestra en la siguiente figura:

Fuente de imagen:

La figura muestra tres tipos de tamaños de ventana. La 'x' en la figura representa el centro de la ventana. Para el mapa de características de cada ventana, el documento adopta el método de agrupación MAX. Cuando L = 3, es decir, el gráfico para Con los tres tamaños de ventana que se muestran en , podemos obtener 20 características locales. Además, podemos obtener una característica global haciendo una agrupación MAX en todo el mapa de destino, de modo que para una imagen, podamos obtener 21 características locales (si ponemos The Las características globales obtenidas también se consideran locales), y las 21 características locales se suman y suman directamente para obtener la característica global final. En el artículo, el autor comparó el efecto del número de ventanas deslizantes en mAP: de L = 1 a L = 3, mAP mejora gradualmente, pero cuando L = 4, mAP ya no mejora. De hecho, la función de la ventana diseñada en la agrupación RMAC es localizar la posición del objeto (la agrupación CROW localiza la posición del objeto a través del mapa de peso). Como se muestra en la figura anterior, existe una cierta superposición entre las ventanas y, finalmente, cuando se forman las características globales, se utiliza el método de sumar y sumar, por lo que podemos ver que esas áreas superpuestas se pueden considerar con mayor peso. .

Las 20 características locales y 1 característica global mencionadas anteriormente se fusionan y agregan directamente. Por supuesto, también podemos agregar estas 20 características locales y luego conectarlas con las características globales restantes. Durante el experimento real, se descubrió que el método de conexión en serie tiene una mejora del 2% al 3% con respecto al método anterior. Probado en una galería con un tamaño de 1 millón, la agrupación RMAC puede lograr buenos resultados y, en comparación con la agrupación Crow, no hay mucha diferencia entre los dos.

Aquí se presenta la agrupación de redes neuronales. Bienvenido a recopilar el curso de la Academia CSDN "De 0 a 1 Python Data Science Journey" . El curso tiene una gran cantidad de casos prácticos de modelado de ciencia de datos. Recuerde recopilar el curso.

Declaración de derechos de autor: el artículo proviene de la cuenta oficial (modelo de control de riesgos de Python), sin permiso, sin plagio. Siguiendo el acuerdo de derechos de autor CC 4.0 BY-SA, adjunte el enlace de la fuente original y esta declaración para su reimpresión.

 
Enlaces de referencia:
https://arxiv.org/pdf/1611.05138.pdf
https://arxiv.org/pdf/1301.3557.pdf
https://arxiv.org/pdf/2101.00440.pdf
https://arxiv.org/ pdf/1908.04156.pdf
https://openreview.net/pdf?id=BJxg_hVtwH
https://deepsense.ai/region-of-interest-pooling-explained/
https://arxiv.org/abs/2009.07485
https:/ /www.jianshu.com/p/c3ba4ca849d3
https://blog.csdn.net/jiachen0212/article/details/78548667
https://www.cnblogs.com/ying-chease/p/8658351.html
https:// www.sohu.com/a/160924449_651893
https://www.cnblogs.com/guoyaohua/p/8674228.html
https://blog.csdn.net/dulingtingzi/article/details/79848625
https://blog.csdn .net/u010402786/article/details/51541465
https://blog.csdn.net/weixin_41513917/article/details/102514739
Descripción general de la agrupación sin orden multiescala para activaciones de CNN (MOP-CNN). Nuestra característica propuesta es una concatenación de los vectores de características de tres niveles: (a) Nivel 1, correspondiente a la activación de CNN de 4096 dimensiones para toda la imagen de 256256; (b) Nivel 2, formado extrayendo activaciones de 128128 parches y VLAD combinándolas con un libro de códigos de 100 centros; (c) Nivel 3, formado de la misma manera que el nivel 2 pero con 64*64 parches.

Supongo que te gusta

Origin blog.csdn.net/toby001111/article/details/132436819
Recomendado
Clasificación