Notas de lectura de papel de disección de red

1. Introducción

  Este es un artículo en CVPR 2017 sobre la investigación de la interpretabilidad del aprendizaje profundo. El autor cuantifica la interpretabilidad de las representaciones ocultas de CNN al evaluar la correspondencia entre una sola neurona oculta (unidad) y una serie de conceptos semánticos (concepto).

2. Análisis de red

2.1 Medidas de Interpretabilidad de Representaciones Visuales Profundas

  1. Identificar un conjunto amplio de conceptos visuales etiquetados por humanos.
  2. Recopile respuestas neuronales ocultas a conceptos conocidos.
  3. Cuantificar cómo se mapean (neuronas ocultas, conceptos).

2.2 Conjunto de datos

  El autor estableció un conjunto de datos de prueba completo llamado Broden (Conjunto de datos etiquetados de forma amplia y densa), cada imagen tiene una calibración de píxeles en la escena, el objeto, el material, la textura, el color y otros niveles. En la siguiente figura se muestra un ejemplo del conjunto de datos de Broden .
inserte la descripción de la imagen aquí

2.3 Puntuación de neuronas interpretable

  Alimente cada imagen del conjunto de datos a la red que se va a analizar, obtenga los resultados de respuesta en cada mapa de características, analice más a fondo la relación semántica correspondiente al mapa de características de esta capa y resuma los resultados. El proceso general se muestra en la siguiente figura.
inserte la descripción de la imagen aquí

Para cada imagen de entrada xx   en el conjunto de datos de Brodenx , recolecta cada kernel de convolución internakkEl mapa de activación de k A k ( x ) A_k (x)Ak( X ) . Luego se calculaak a_kak. Para cada unidad kkk , en cada ubicación espacial del mapa de activación en el conjunto de datos, porP ( ak > T k ) = 0,005 P(a_k>T_k)=0,005P ( unk>Tk)=0.005 determina el cuantil superiorT k T_kTk.
  Para comparar el mapa de activación de la unidad de baja resolución con la máscara de anotación de resolución de entrada L c L_cLdoalgunos conceptos de ccc , utilice la interpolación bilineal para activar el mapa de característicasA k ( x ) A_k(x)Ak( x ) escala hasta la resolución de la máscara de entradaS k ( x ) S_k(x)Sk( x ) para fijar la interpolación en el centro del campo receptivo de cada celda.
  EntoncesS k ( x ) S_k(x)Sk( x ) Realizar una segmentación de valores binarios según el umbral:M k ( x ) ≡ S k ( x ) ≥ T k M_k(x)≡S_k(x)≥T_kMETROk( X )Sk( X )Tk, seleccione el mapa de funciones de activación sobre el umbral T k T_kTktodas las áreas de . Para cada par ( k , c ) (k,c)( k ,c ) Calcular la intersecciónM k ( x ) ∩ L c ( x ) M_k(x) ∩ L_c(x)METROk( X )Ldo( x ) , para cada concepto ccen el conjunto de datosc para la evaluación. kk
  por unidadk como conceptoccLa puntuación de segmentación de c se calcula mediante la siguiente IoU
k , c = ∑ ∣ M k ( x ) ∩ L c ( x ) ∣ ∑ ∣ M k ( x ) ∪ L c ( x ) ∣ IoU_{k ,c} = \frac{\sum|M_k(x) ∩ L_c(x)|}{\sum|M_k(x) ∪ L_c(x)|}yo o tuk , c=Mk( X )Ldo( X ) Mk( X )Ldo( X )
Aquí∣ ⋅ ∣ |\cdot| es la cardinalidad de un conjunto. Debido a que el conjunto de datos contiene algunos tipos de etiquetas, estas etiquetas no existen en algunos subconjuntos de entrada, sino solo en el subconjunto de imágenes con al menos uno conccCalcule la suma cuando c tiene la misma etiqueta de concepto. I o U k , c IoU_{k,c}yo o tuk , cEl valor de es la unidad kkconcepto de detección k ccPrecisión de c ; siI o U k , c IoU_{k,c}yo o tuk , csupera un umbral (establecido en 0,04 en el texto), consideramos una unidad kkk como conceptoccdetector c . Tenga en cuenta que una unidad puede ser un detector de múltiples conceptos (y un concepto puede ser detectado por múltiples unidades); para el análisis, seleccionamos las etiquetas mejor clasificadas. Para cuantificar la interpretabilidad de una capa, contamos el número de unidades que detectan conceptos únicos, denominado número de detectores únicos.

3. Experimenta

3.1 Evaluación humana de las interpretaciones

inserte la descripción de la imagen aquí
  En el nivel más bajo, los conceptos de color y textura de bajo nivel disponibles en Broden solo son lo suficientemente buenos para igualar algunas unidades de buena interpretación. El acuerdo humano también es más alto en conv5, lo que sugiere que los humanos son mejores para reconocer y estar de acuerdo con conceptos visuales de alto nivel, como objetos y partes, en lugar de formas y texturas que aparecen en capas inferiores.

3.2 Medición de la Interpretabilidad Alineada al Eje

  Para explorar si la interpretabilidad (Interpretability) de la red está relacionada con la disposición y distribución de las unidades (unidades), el autor realiza una combinación lineal aleatoria (Q en la figura a continuación) para todas las unidades de una determinada capa, es decir, interrumpe el arreglo, y luego se restaura el orden desordenado ( Q − 1 Q^{-1} en la figura a continuaciónq1 ), observe el cambio de concepto para obtener el resultado. Específicamente, como se muestra en la siguiente figura:
inserte la descripción de la imagen aquí
entre ellos, el tamaño de la rotación representa el grado de Q aleatorio, y la interrupción de la disposición de estas unidades no afectará el resultado final de la red y no cambiará la capacidad expresiva de la red ( poder discriminatorio).

inserte la descripción de la imagen aquí
  Se puede encontrar a partir de los resultados que a medida que la rotación aumenta gradualmente, el número de detectores únicos comienza a disminuir drásticamente, por lo que la interpretabilidad de la red CNN se ve afectada por el ordenamiento de la unidad.

3.3 Comprender los conceptos de capas

inserte la descripción de la imagen aquí
  Confirmando la intuición, los conceptos de color y textura son dominantes en los conv1 y conv2 inferiores, mientras que aparecen más detectores de objetos y partes en conv5.

3.4 Arquitectura y supervisión de la red

inserte la descripción de la imagen aquí
  En términos de arquitectura de red, encontramos interpretabilidad ResNet > VGG > GoogLeNet > AlexNet. Las arquitecturas más profundas parecen permitir una mayor interpretabilidad.

inserte la descripción de la imagen aquí
  Los modelos autosupervisados ​​crean muchos detectores de textura, pero relativamente pocos detectores de objetos; claramente, las tareas de aprendizaje autosupervisado son mucho menos interpretables que las tareas de aprendizaje supervisado en grandes conjuntos de datos anotados.

3.5 Condiciones de Entrenamiento vs Interpretabilidad

inserte la descripción de la imagen aquí
  La figura anterior representa la interpretabilidad de las instantáneas del modelo de referencia en diferentes iteraciones de entrenamiento. Podemos ver que los detectores de objetos y partes comienzan a emerger en alrededor de 10,000 iteraciones (256 imágenes por iteración). No encontramos evidencia de transiciones entre diferentes categorías de conceptos durante el entrenamiento. Por ejemplo, las unidades en conv5 no se convierten en detectores de texturas o materiales antes de convertirse en detectores de objetos o partes.
inserte la descripción de la imagen aquí
  Repetir1, repetir2 y repetir3 en la figura anterior representan tres métodos de inicialización de peso diferentes, y los resultados indican:

  1. Comparando diferentes inicializaciones aleatorias, los modelos convergen a niveles similares de interpretabilidad en términos de número de detectores únicos y totales;
  2. Para la red sin Dropout, hay más detectores de texturas, pero menos detectores de objetos;
  3. La normalización por lotes parece reducir significativamente la interpretabilidad.

3.6 Clasificación vs Interpretabilidad de Redes

inserte la descripción de la imagen aquí
  Como puede verse en la figura anterior, existe una correlación positiva entre la capacidad de clasificación y la interpretabilidad.

3.7 Ancho de capa frente a interpretabilidad

inserte la descripción de la imagen aquí
  Los núcleos de convolución de conv5 se han aumentado de 256 a 768, lo que tiene una precisión de clasificación similar a la de AlexNet estándar en el conjunto de validación, pero hay muchos detectores y detectores independientes en conv5; también aumentamos la cantidad de unidades de conv5 a 1024 y 2048 , pero el número de conceptos independientes no aumentó significativamente más. Esto puede indicar la capacidad limitada de AlexNet para separar factores explicativos, o puede indicar que limitar el número de conceptos separados ayuda a resolver la tarea principal de clasificación de escenas.

4. Preguntas y respuestas

  En las siguientes referencias [2], [3], [4], se registran algunas preguntas respondidas por el propio autor, que pueden ayudar a comprender mejor el artículo.

referencia

[1] Disección de red:
cuantificación de la interpretabilidad de las representaciones visuales profundas

[2] Notas de papel: "Disección de red: cuantificación de la interpretabilidad de las representaciones visuales profundas" - CSDN
[3] Explicación de sus características de caja negra desde la perspectiva de la esencia de las redes neuronales profundas - Zhihu
[ 4] Zhihu God Zhou Bolei: uso de la "disección de redes" para analizar la interpretabilidad de las redes neuronales convolucionales

Supongo que te gusta

Origin blog.csdn.net/qq_49323609/article/details/131795734
Recomendado
Clasificación