Papeles netos bi-comprensión real

Tema: Bi-real neto: Mejora del rendimiento de CNNs de 1 bit con capacidad representacional mejorada y avanzada Formación Algorithm_ECCV2018
citas: 27
Código: Caffe versión: https: //github.com/liuzechun/Bi-Real-net

punto

  • La introducción de una capa por conexiones forma de acceso directo de bloque,
  • El montaje de una función cuadrática utilizando operaciones con números reales activan señal,
  • Introducción de los pesos pesados ​​en el rango de pesos de actualización real real,
  • modelo de pre-formación utiliza la función de pinza en lugar RELU sea la formación

Mejorar el rendimiento en grandes conjuntos de datos (ILSVRC IMAGEnet) de

Conduce a problemas

método de compresión Binarización será en un gran conjunto de datos grande tal reducción Imagenet en la precisión de un núcleo es un problema de cuantización,

El artículo, esta disminución de la precisión se debe principalmente a dos aspectos:

  • expresión CNN 1-bit en sí es muy limitado, la red no lo hace con precisión valor.
  • 1 bit CNN hay un problema durante el entrenamiento desajuste Derivado hace que sea difícil para converger a una buena precisión.

Aquí Insertar imagen Descripción
Valor de conexión de bitcount XNOR-Net (XNOR) generado de una manera todavía números reales, se pierde la expresión binaria directa. Cómo se usa

Mejora de la red de

una capa por conexiones de acceso directo forma de bloque

Primero implementado en una estructura de red de un acceso directo de conexión uno por forma de bloque de capa, es decir, actual verdadero resultado 1 bit de convolución o salida BN al siguiente resultado real de 1 bit de convolución o salida BN añadido directamente, lo que aumenta el valor indica el alcance de la red (Valor rango), la estructura de acceso directo es el siguiente:
Aquí Insertar imagen Descripción

La izquierda es una red neuronal convencional, una característica de gradación continua en la figura de cada pasada, cuando 1-bit de convolución, se binariza. Por lo tanto, proponemos en la figura valor de la característica antes de ser di, en el que figura el uso de acceso directo para pasar a estos valores, por lo que la información puede ser retenido sustancialmente en la red, el aumento de la capacidad de expresión de la red.
Aquí Insertar imagen Descripción

la mejora de los métodos de entrenamiento

Entrenamiento de la red binaria marco presentado en este documento como se muestra, comprende un proceso hacia delante (operación sesión de activación real, el peso de los pesos reales de operación Magnitud-consciente Señal, 1bit Conv, BN, etc.) y el proceso hacia atrás (peso binario el binario De peso pesado y actualización de la guía de peso real, etc.):

Aquí Insertar imagen Descripción

valor de activación Binarización derivación

Montaje del signo de la derivada de segundo orden como ApproxSign signo de la derivada

Dado que la función de signo no se activa, método previamente utilizado es para uso de clip (-1, x, 1) para ajustarse al signo de la derivada de la derivada de la fórmula (1) F () de Clip ()Este cálculo sería llevar el tema de los llamados valores derivados no coinciden.
Aquí Insertar imagen Descripción
Sin embargo, este efecto es causado por la red cuando la pérdida del cálculo hacia adelante se ve como una señal para una función no lineal de la red,
y cuando el cálculo inverso de los gradientes se realiza de acuerdo a una función no lineal de la pinza de red cálculo. Como la función de pinza y la brecha de la función signo, este método de cálculo sería llevar el tema de los llamados valores derivados no coinciden.
Basado en esto, proponemos una señal de ajuste de la derivada de segundo orden ApproxSign como un signo de la derivada, reduciendo así el valor de la derivada no coincide con el problema. Esto ha dado lugar a un aumento de rendimiento del 12%.
Fórmula:
Aquí Insertar imagen Descripción
la figura
Aquí Insertar imagen Descripción

Derivados en base a la magnitud real (banda de amplitud) de

En el tiempo binarizada parámetros se actualizan, ya que el parámetro de binarización es discreto, el valor derivado demasiado a menudo insuficiente para cambiar su signo, de modo se emplea el primer método parámetros con valores reales se almacenan en el tiempo de actualización los parámetros de red calculados los parámetros binarios derivados actualizan valores reales,
en el proceso de propagación hacia adelante, los parámetros numéricos establecidos por la señal real binarizada para obtener parámetros actualizados binarizadas.

Sin embargo, la sustancia es de tal manera para actualizar los parámetros determinados por el valor binarizada del derivado se aplica a los valores reales almacenados. En el momento binarizada derivado, función de signo considera realmente único signo de los parámetros reales para ser almacenados, pero no tiene en cuenta el orden de almacenamiento de parámetros reales , ya que los valores de los parámetros consideraciones algún tipo de formación, la red de valor real interno, tienden a concentrarse cerca de 0, directamente binariza a 1 o -1, el valor derivado se calcula hará que la red a la que los parámetros de referencia y parámetros de red en realidad actualizan gran brecha, de modo que la red es difícil para converger a una precisión más alta. que

En la fase de entrenamiento, por lo general debido a la pequeña pérdida de gradiente en los pesos binarios, y por lo tanto más difícil a causa del cambio en el peso de los pesos reales.

Aquí Insertar imagen Descripción
Basándose en esta observación, se propone, en el momento de la formación, el valor real de la orden incluye en las consideraciones de almacenamiento en red.
Artículos para esta introduce pesos pesados reales amplitud de la información,
es decir, durante la formación de los pesos reales sesión operativo operación magnitud con signo-conscientes reemplazado puede aumentarse gradiente binario ponderado en los pesos reales, aumentando así los pasos de actualización de peso real, hay ayudan a acelerar la convergencia del modelo:

Aquí Insertar imagen Descripción
El peso final para la actualización de los pesos reales fórmula recursiva como sigue:
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
en donde el término producto tamaño de paso de actualización del gradiente para la pérdida en la activación real, BN coeficiente capa Gamma, la activación binario, y el funcionamiento gradiente sesión Magnitud-consciente. Gradiente Magnitud-conscientes operación sesión, es decir, el peso binario en el peso de los pesos sólidos gradiente expresa como (función de derivación sesión todavía utilizan la aproximación función Clip):
Aquí Insertar imagen Descripción
Debido a que la fase de despliegue modelo de razonamiento, el peso de los pesos reales todavía binarización utilizando convencional sesión operación, por lo que una operación Magnitud consciente de sesión y luego un modelo de formación convergen, Señal operación necesitan varios actualización formación adicional época BN parámetros de la capa en movimiento (velocidad de aprendizaje en este momento se pone a cero), con el fin de satisfacer las necesidades de despliegue real.

Este enfoque reduce considerablemente la brecha entre los dos parámetro un valor de parámetro a la red para la actualización de la memoria interna de valor real, el 23% de la precisión relativa de la red de actualización.

método de inicialización de la red Binarización

Puede verse en el proceso de actualización de parámetros binarizada, el valor real del valor almacenado representante interna de la probabilidad de los dos parámetros puede cambiar el símbolo, y por lo tanto la selección de la inicialización de valor real es importante. Antes de que el trabajo se utiliza directamente inicialización aleatorio (XnorNet), ya sea directamente a la red de inicialización relu de valor real función no lineal.
Dado que el valor de salida de binarización de la red de {-1,1}, que no contiene elemento cero, así que en la pre-formación para actualizar el modelo de parámetros, para seleccionar una función alternativa clip de relu como la función de activación no lineal se pueden obtener mejores resultados de inicialización, traerá nuevas mejoras de rendimiento.
Aquí Insertar imagen Descripción

Mientras que una red binaria formación de fase, la decadencia de peso a cero, es decir, no hay necesidad de rehacer los pesos reales L1 o L2 limitaciones de regularización. Y dos atajo una capa por estructura de bloque es mejor que un acceso directo de dos capas según la estructura de bloque, en particular, ver el análisis experimental.

Los resultados experimentales muestran que el rendimiento de Bi-real neta sobre CIFAR10 / 100, IMAGEnet que no sea el conjunto de datos XNOR-net, ABC-net y similares, y una menor cantidad de parámetros, por se despliega el terminal móvil, y con el conjunto de instrucciones NEON aceleración:

Publicados 452 artículos originales · ganado elogios 271 · vistas 730 000 +

Supongo que te gusta

Origin blog.csdn.net/qq_35608277/article/details/104905554
Recomendado
Clasificación