Incremental Red Cuantificación: Hacia Lossless CNNs con bajo peso precisión 论文

Instituto de Investigación de China Intel

método de compresión convencional tiene dos desventajas de cuantificación: una pérdida de precisión en el proceso de cuantificación todavía no puede ser ignorado; 2 La mayoría método de compresión de cuantificación sólo se aplica a una estructura de modelo de proceso específica y tipos específicos de capas, la generalización algo limitante. y la capacidad de cuantificar el rendimiento de compresión (aquí se refiere a las muchas maneras de compresión capa fc es más efectivo, resultando en relación de compresión relativamente grande es una gran parte de la contribución fc); además de la formación de peso durante mucho tiempo y así sucesivamente;

INQ (Incremental red de cuantificación). El método se puede convertir en precisión completa red de baja precisión CNN, sin pérdida de precisión o incluso mejorado, de tal manera que los pesos son 0 o una potencia de 2 (tal como embebido en el dispositivo FPGA puede cambiar el funcionamiento).

Se propone red neuronal progresiva la idea de cuantificación introducido tres operaciones: la agrupación de parámetro, cuantificación, reciclaje
Aquí Insertar imagen Descripción
en primer lugar ciertos criterios (se mencionará más adelante, basado en al azar o poda) el peso pesado de cada capa se divide en dos complementaria parte (Fig. 1 (b)), en el que una porción de la cuantifica directamente a baja precisión (Fig. 1 (b) verde) y uno para la reconversión (Fig. 1 (b) azul) para compensar la pérdida de precisión causada por la cuantificación.

cuantización

El propósito de cuantificación se le da una precisión completa CNN entrenado modelo de red, todos los pesos del número de coma flotante de 32 bits en una potencia entero de 2 o 0 sin pérdida de precisión.

Cada valor se cuantifica y los valores W correspondiente a Pl, es decir, un número entero de 0 o 2 a la potencia de
los th L-pesos de precisión completos Aquí Insertar imagen Descripción, cuantificó como Aquí Insertar imagen Descripciónperteneciente Aquí Insertar imagen Descripción
donde n_1 y n_2 dos números enteros, y n_2 <= n_1 , bit conjunto anchura b, se puede determinar por el n_1 n_2 y b

Aquí Insertar imagen Descripción
Un valor absoluto de menos de 2 y n_2 peso correcto se cuantifican a 0

de reglas de cuantificación

Aquí Insertar imagen Descripción
Cuando alfa y beta son dos elementos adyacentes P_L

grupo de peso

Aquí Insertar imagen Descripción
En el que, A_l ^ (1) es una necesidades de la pieza a ser cuantificados, A_l ^ (2) es una parte de la reconversión necesidad.
La referencia aquí basa en el paquete de "cirugía red dinámica para DNNS eficientes" , seleccionado a partir de dos métodos: la aleatorización y el paquete de ciruela pasa (poda-inspirado partición).
Aleatorizado, por definición, al azar divididos. Equiprobables
paquetes de poda comparando el peso del valor absoluto de los pesos, la capa determinado por capa cada Umbrales propios, es decir, una relación de división dado (relación de división) se divide. Se encontró, los paquetes de ciruela mejor que al azar, los paquetes de modo poda se utilizan en el presente documento.
Aquí Insertar imagen Descripción

La estructura de una matriz binaria como un índice T_L En la bandera, elemento después de la división que indica es A1 o A2 dentro de los elementos
Aquí Insertar imagen Descripción
Aquí Insertar imagen DescripciónAquí Insertar imagen Descripción
de ese grupo valor maquillaje de cuantificación más grande

El entrenamiento con pesas

L con la primera capa, por ejemplo, para la función de optimización
Aquí Insertar imagen Descripción
en
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
el que, por el paquete precedente Pl se determina valor cuantificado; Tl es una máscara, que representa los pesos de los paquetes de cada paso: T = 0 ya está representado en quant sección, T = 1 indica una necesidad de porción de reacondicionamiento;
actualizado sólo cuando porción de reacondicionamiento de reacondicionamiento (T = 1) que corresponde a la porción de sujeción 32 es también los pesos. (Y no se ha actualizado Hansol única afines quitar la conexión)

proceso algorítmico

Aquí Insertar imagen Descripción
Ordenar:
n-L debe ser
1. Se datos de entrada de entrenamiento, modelo de pre-formados, cada uno del umbral;
2. salida de resultado cuantificado de cada capa
3. Los pesos determinados de acuerdo con el paquete sigma-capa, los paquetes de actualización de A1, A2, Tl;
4. capa determinada por capa en la Pl A1 propio conjunto de cada capa;
5 capa por cuantificación capa;
6. Calcular la pérdida, la parte de actualización de parámetros A2;

INQ red de cuantificación progresiva ejemplar: Primera línea: el orden del paquete de parámetro, cuantificación, el entrenamiento con pesas; segunda línea: proceso iterativo
(verde indica que los parámetros actuales de la red que se han cuantificado, región púrpura representa la red parámetros necesitan reconversión)
Aquí Insertar imagen Descripción
cuantificación vectorial (Gong et al., 2014), Hansol pesos finales o flotador método, pero se obtiene INQ binariza parámetros pueden sustituir a la multiplicación en coma flotante original con una simple operación de desplazamiento binario, simplificado computing hardware

REF
https://blog.csdn.net/cookie_234/article/details/75386737
https://www.itread01.com/content/1544467885.html
https://www.itread01.com/content/1546293635.html

Publicados 452 artículos originales · ganado elogios 271 · vistas 730 000 +

Supongo que te gusta

Origin blog.csdn.net/qq_35608277/article/details/104891277
Recomendado
Clasificación