Notas en papel de destilación de conocimientos adversarios en línea a nivel de mapa de características

Notas en papel de destilación de conocimientos adversarios en línea a nivel de mapa de características

Dirección en papel: https://arxiv.org/abs/2002.01775v1
Dirección de github: Inédito

Motivación

Los mapas de características contienen una gran cantidad de información de imágenes, como la correlación espacial. Sin embargo, en la tarea de clasificación, la destilación de conocimiento en línea anterior solo usaba probabilidad de categoría para el aprendizaje. Por lo tanto, este artículo propone usar el método de entrenamiento de confrontación para aprender la distribución de características. mapas en línea. , y combinado con el aprendizaje de probabilidad de categoría original para mejorar aún más la precisión de la clasificación.

Método

Marco básico del modelo
El autor propone un diagrama de marco como se muestra en la figura anterior, que se llama AFD ( Online Adversarial Feature map Distillation ). En la figura para entrenar dos redes Θ 1 , Θ 2 \varTheta_1, \varTheta_2el1,el2Por ejemplo, agregue un juicio basado en un mapa de características a la predicción original basada en logit. donde basado en logit logitl o g i tpérdida pérdidal o s s consta de dos partes, una parte es la entropía cruzada tradicional y la otra parte es lapérdidal o s s (pérdida de destilación mutua), basada en la pérdida del mapa de características, aprende a destilar el mapa de características indirectamente a través del discriminador discriminador. En este marco, la formaciónde KKLas redes K requierenKKK determinantes, cada uno de los cuales corresponde a una red, la salida del mapa de características de la red es juzgada como falsa por el juez correspondiente, y la salida del mapa de características de otra red es juzgada como real, para que la red pueda aprender de otra red. distribución de características del mapa de características.

  • Pérdida de conocimiento mutuo basada en logit
    L logit 1 = L ce ( y , σ ( z 1 ) ) + T 2 × L kl ( σ ( z 2 / T ) , σ ( z 1 / T ) ) L logit 2 = L ce ( y , σ ( z 2 ) ) + T 2 × L kl ( σ ( z 1 / T ) , σ ( z 2 / T ) ) \mathcal{L}_{logit}^{1}=\mathcal{L }_{ce}\left( y,\sigma \left( z_1 \right) \right) +T^2\times \mathcal{L}_{kl}\left( \sigma \left( z_2/T \right ) ,\sigma \left( z_1/T \right) \right) \\ \mathcal{L}_{logit}^{2}=\mathcal{L}_{ce}\left( y,\sigma \left ( z_2 \right) \right) +T^2\times \mathcal{L}_{kl}\left( \sigma \left( z_1/T \right) ,\sigma \left( z_2/T \right) \ bien)Liniciar sesión _ _ _1=Lc e( y ,pag( z1) )+T2×Lkl _( pag( z2/ T ),pag( z1/ T ) )Liniciar sesión _ _ _2=Lc e( y ,pag( z2) )+T2×Lkl _( pag( z1/ T ),pag( z2/ T ) )
  • Entrenamiento adversario para KD basado en mapas de características
    LD 1 = [ 1 − D 1 ( T 2 ( G 2 ( x ) ) ) ] 2 + [ D 1 ( T 1 ( G 1 ( x ) ) ) ] 2 LG 1 = [ 1 − re 1 ( T 1 ( GRAMO 1 ( x ) ) ) ] 2 \mathcal{L}_{D_1}=\left[ 1-D_1\left( T_2\left( G_2\left( x \right) \ derecha) \derecha) \derecha] ^2+\izquierda[ D_1\izquierda( T_1\izquierda( G_1\izquierda( x \derecha) \derecha) \derecha) \derecha] ^2 \\ \mathcal{L}_{ G_1}=\izquierda[ 1-D_1\izquierda( T_1\izquierda( G_1\izquierda( x \derecha) \derecha) \derecha) \derecha] ^2LD1=[ 1D1( T2( G2( x ) ) )]2+[ D1( T1( G1( x ) ) )]2LGRAMO1=[ 1D1( T1( G1( x ) ) )]2

Al mismo tiempo, se propone un método de aprendizaje cíclico para el modo de entrenamiento simultáneo de múltiples redes. Este método es un entrenamiento de ciclo único, transfiriendo el conocimiento de cada red a la siguiente red y transfiriendo el conocimiento de la última red a la primera red. La función principal de este método es reducir el número de dispositivos de decisión.

Experimento

Los resultados de la ejecución de métodos existentes: estudio basado en la distancia y ablación (estudio de ablación): estudie el rendimiento de la red eliminando parte de la red. Comprenda el rendimiento de la red a través de diferentes configuraciones para comparar el rendimiento de diferentes métodos: incluidas aplicaciones
Comparación de resultados con métodos existentes
Resultados del estudio de ablación
para la misma red y diferentes redes Estructura y entrenamiento de múltiples
conjuntos de datos de red: CIFAR-100
Número de repeticiones del experimento: 5 55
Tamaño de lote: 128 1281 2 8
época: 300 300LR para 3 0 0
clasificación:SGD0.1 0.10 _ 1 ,0,01 a 150 0,01 a 1500 _ 0 1 @ 1 5 0 ,0.001 @ 225 0.001 @ 2250 _ 0 0 1 @ 2 2 5
impulso: 0.9 0.90 _ 9 , disminución del peso:1 0 − 4 10^{-4}1 04
mapa de características的lr:ADAM2 × 1 0 − 4 para 2\times10^{-4} para2×1 04 paraDyy_a n d G,2 × 1 0 − 6 @ 75 2\times10^{-6}@752×1 06 @75,2 × 1 0 − 7 @ 150 2\times10^{-7}@1502×1 07 @150época
Decaimiento de peso: 0.1 0.10 _ 1
Comparación de resultados de entrenar la misma red
Comparación de los resultados del entrenamiento de diferentes redes

Análisis

Los autores usan L 1 / L 2 L1/L2L 1 / L 2 similitud de distancia ycoseno cosenoLos dos métodos de similitud coseno detectan la similitud de los mapas de características generados al entrenar diferentes redes de tres maneras y analizan las razones cualitativa y cuantitativamente .
detección de similitud
visualización de mapa de características

Supongo que te gusta

Origin blog.csdn.net/qq_43812519/article/details/104582716
Recomendado
Clasificación