Norte, Shang propuso un nuevo algoritmo de binarización red IR-Net, en el extremo Haoshi no?

[Nota del editor] RDCC en CVPR 2020, Shang Instituto vínculos con el grupo y la Universidad de Aeronáutica y Astronáutica equipo maestro Liu Xianglong Beijing hecho antes y después de un dispositivo compilado pretende optimizar la difusión del flujo de información práctica, eficiente red de binarización nuevo algoritmo IR-Net. A diferencia de las redes neuronales binarios de avance y retroceso anteriores se refieren sobre todo sobre el error de cuantificación, el presente trabajo estudió por primera vez la red binaria desde la perspectiva de una información unificada para el proceso de comunicación, proporciona una nueva perspectiva para el estudio del mecanismo de la red binaria. Al mismo tiempo, la primera vez que el trabajo en dispositivos ARM de verificación de la eficiencia algoritmo de binarización avanzada, mostrando un excelente rendimiento y una disponibilidad muy alta cuando el despliegue de IR-Net, ayuda a las preocupaciones de la industria de direcciones de red neuronal de aterrizaje binarización el tema central.

Producido | AI campamento de base tecnológica (ID: rgznai100)

motivación

redes neuronales binarios, debido a su pequeña capacidad de almacenamiento, alta eficiencia de razonamiento y la preocupación generalizada en la sociedad [1]. Sin embargo, en comparación con un método correspondiente al completo precisión, la exactitud del método de cuantificación convencional sigue siendo disminución significativa.

La investigación indica que la red neuronal, la diversidad red tecla [2] el modelo para lograr un alto rendimiento, esta diversidad es crítica para mantener: (1) la red de propagación hacia adelante capaz de llevar información suficiente, (2) proceso de propagación hacia atrás, el gradiente precisa proporciona la información correcta para la optimización de la red. Binaria disminución de rendimiento de la red neuronal se compone principalmente de la representación binaria de la capacidad limitada y la causa discreta, lo que condujo a una grave pérdida de información hacia adelante y revertir la propagación de una fuerte disminución de la diversidad de modelos. Mientras tanto, en las redes neuronales binarios proceso de formación, el gradiente binarizada discreta a menudo conduce a inexacta y optimizar la dirección equivocada. Cómo resolver los problemas anteriores, para obtener una mayor precisión redes neuronales binarias? Este problema se refieren a los investigadores generalizadas, la motivación de este trabajo es: la idea de retención de información, diseño de redes neuronales más alto rendimiento binario.

Por estos motivos, el papel estudió primero desde el punto de vista de la red de información binaria del flujo, presenta una explotación nueva información de la red (IR-Net) :( 1) introducir un primer parámetro que se refiere como la difusión Libra binarización (libra-PB) método de cuantificación de equilibrio estandarizado, se minimiza el error de parámetro de cuantificación entropía de información y la maximización de cuantificación; (2) el atenuador de error estimador (EDE) para calcular el gradiente de propagación hacia atrás para asegurarse de inicio de formación totalmente actualizada y precisa gradiente al final del entrenamiento cuando.

IR-Net proporciona un nuevo enfoque para la comprensión de cómo la red neuronal binario está en funcionamiento, y tener una buena versatilidad, puede ser optimizada en un proceso de formación de red estándar. La tarea de clasificación de imágenes usos de autor en cifar-10 y IMAGEnet conjuntos de datos para evaluar la propuesta de IR-Net, mientras que el razonamiento binario por medio de bibliotecas de código abierto daBNN ha desplegado la verificación eficiencia.

Métodos de diseño

Dos cuello de botella precisión formación de redes neuronales principalmente grave pérdida de información en el proceso de formación. En serio que afecta a los valores de precisión de dos anticipativo método de redes neuronales a la pérdida de información causada por el gradiente de la función y el signo. Para resolver este problema, se propone un modelo de nueva información de la red de retención (IR-Net), que conserva la información en el proceso de formación, para lograr un modelo de binarización de alta precisión.

propagación hacia adelante en Libra Parámetro Binarización (Libra-PB)

Previamente, la mayoría de los intentos de método de binarización red para reducir el error de cuantificación de la operación de binarización. Sin embargo, sólo para obtener una buena red binaria mediante la minimización del error de cuantificación no es suficiente. Por lo tanto, el diseño de la llave es Libra-PB: utilizando el índice de entropía de información, maximizando el flujo binario antes de la propagación de la red.

Según la definición de la entropía, en la red binaria, parámetro binario Qx (x) es la entropía puede ser calculado por la siguiente ecuación:

Si se minimiza simplemente la búsqueda del error de cuantificación, en casos extremos, parámetro de cuantificación entropía puede incluso estar cerca de cero. De acuerdo con ello, Libra-PB error de cuantificación de la cuantificación y el valor binario entropía del parámetro como la optimización simultánea objetivo, se define como:

En hipótesis de distribución de Bernoulli, la entropía cuando p = 0,5, el valor máximo del valor cuantificado.

Por lo tanto, el normalizado peso de equilibrio Libra-PB obtenido se muestra en la Fig. 2 a través de la normalización y la operación de equilibrado, en la distribución de Bernoulli, la cuantificación de parámetros Libra-PB tiene una entropía máxima. Curiosamente, los pesos de la simple transformación también pueden mejorarse en gran medida antes de la activación de la corriente de proceso. Debido a que en este momento, las capas de valor de activación entropía de información binaria también pueden ser maximizada, lo que significa que la información característica puede ser retenido en la figura.

En el método de binarización convencional, a fin de reducir el error de cuantificación, casi todos los enfoques introducen flotante parámetros de factor de escala punto de la aproximación numérica de la original, lo que sin duda alto punto introducido en el mismo flotante. En Libra-PB, con el fin de reducir aún más el error de cuantificación, evitando al mismo tiempo el método de binarización convencional caro de punto flotante, número entero cambio Libra-PB introdujo s escalares, el peso de los pesos de capacidad de representación binaria prolongados.

Así, el final, Libra para avance binarización parámetro de propagación se puede expresar como sigue:

principales operaciones aritméticas IR-Net se pueden expresar como:

El contador de errores de propagación Decay Estimador (EDE)

Desde discontinuidad binarización, la aproximación del gradiente para la transmisión inversa es inevitable, esta pérdida de información trae dos clases de función de signo aproximación gradiente, incluyendo la pérdida de información fuera de la actualización de parámetros gama truncamiento debido a la capacidad reducida y la pérdida de información dentro de la gama de aproximadamente errores de truncamiento causado. Con el fin de retener mejor la información derivada por la función de pérdida de propagación hacia atrás, cada uno de los requisitos de saldo gradiente fase de entrenamiento, introduce EDE una aproximación progresiva de dos etapas del método de gradiente.

La primera etapa : para retener la capacidad de actualizar el algoritmo de retropropagación. La función de valor derivado estimación gradiente mantuvo cerca de un nivel, y después de corte gradualmente valor de un gran número abajo a 1. Con esta regla, la función aproximada evolucionó de acercarse a la función del clip de identidad a la función, lo que garantiza la renovación anticipada de entrenamiento.

La segunda etapa : los parámetros están cerca de 0 a actualizar con mayor precisión. 1 restos truncados, y evolucionaron gradualmente en una forma de la curva derivada de una función paso. Con esta regla, la función aproximada evolucionado a partir de la función de firmar la función del clip, lo que garantiza la consistencia de la transmisión hacia adelante y hacia atrás.

EDE cambio de forma de las diversas etapas en la Fig. 3 (c), Fig. Mediante este diseño, el valor de EDE para reducir la diferencia entre la función aproximada, y todos los parámetros se puede obtener las funciones y razonable para actualizar los dos hacia adelante.

Los resultados experimentales

Los autores utilizaron dos conjuntos de datos de referencia: cifar-10 y IMAGEnet (ILSVRC12) experimentos realizados. Los resultados experimentales muestran que los dos conjuntos de datos, IR-Net más competitivo que los métodos de la técnica convencionales.

Eficiencia despliegue

A fin de verificar la eficiencia de la IR-Net desplegado en un dispositivo móvil real, los autores consiguen además en el IR-Net Frambuesa Pi 3B 1,2 GHz 64-bit de cuatro núcleos ARM Cortex-A53 y se ensayaron para su verdadera velocidad en aplicaciones prácticas. La tabla 5 muestra, razonamiento IR-Net mucho más rápido, el tamaño del modelo se reduce considerablemente, y la operación de desplazamiento del razonamiento IR-Net tiempo y almacenamiento de consumir poco más.

Papeles dirección: https: //arxiv.org/abs/1909.10788

Dirección del proyecto: https: //github.com/htqin/IR-Net

Referencia

[1] Rastegari M, Ordóñez V, Redmon J, et al. Xnor-net: clasificación Imagenet usando redes neuronales convolucionales binarias [C] // ECCV. Springer, Cham, 2016: 525-542.

[2] Xie B, Liang Y, Song L. Diversos aprende de redes neuronales verdaderos funciones objetivo [J]. arXiv arXiv: 1611.03131, 2016.

【Fin】

lectura recomendada 

no era de código, el programador cómo mantener sus puestos de trabajo?

participar en vano! Acoplable rápidamente se extraen en la puerta | programa de la Fuerza

biología de aprendizaje automático: PCA utilizando las K-medias y análisis de la secuencia del genoma COVID-19 a continuación cómo las mutaciones?

bytes latidos Wuhan recluta a 2.000 personas, de los fabricantes ofrecen, se corta de este Java seco! | Programa de Trabajo

utilizar Java para desarrollar su propio controlador Kubernetes, quieres probar?

todo el mundo puede leer la "Plaza de Ethernet 2.0 fragmentación Diseño"

Nos fijamos en cada punto, en serio como favorito

Liberadas 1887 artículos originales · ganado elogios 40000 + · Vistas 17,180,000 +

Supongo que te gusta

Origin blog.csdn.net/csdnnews/article/details/105154335
Recomendado
Clasificación