INT8 cuantificar

 

Sentimiento más profundo aprendizaje en terminales móviles plena floración en los últimos dos años, de hecho, el sentimiento ha empezado a florecer.

En primer lugar hablar de cuantificar cómo es, en estos momentos en el caffe, tensorflow marco para la formación y otros modelos (avance y retroceso) están utilizando el flotador 32, en comparación con el int 8, se necesita más espacio de almacenamiento, pero la precisión mejor.

Cuantificar la situación actual, hay dos maneras, una es a través de la formación cuantificar afinar el modelo original, el otro es directamente en el modelo y el cálculo de cuantificar. En este artículo por primera vez en términos de no usar Finetune, modelo directo es entrenado de cuantificar completado.

estudio en profundidad, el flotador 32 para ser cuantificado int 8, por lo que los modelos más pequeños, la inferencia más rápida, menor consumo de energía. El único inconveniente, la exactitud del modelo se reducirá.

En primer lugar comparar, flotar y 32 int 8 ¿Cuál es la diferencia

Rango Dinámico (dos tipos de rango de valores de datos)

FP32 -3,4 x 10 ^ 38 ~ 3.4 x 10 ^ 38

INT8 -128 ~ 127

De hecho, el proceso de cuantificación es simple mapeo, más precisa de la gama de baja precisión.

[Oficial]

[Oficial]

[Oficial]

Cuando el sesgo de cuantificación = 0, la positiva y la simetría negativo está hecho de un simétrico

Las imágenes de la "inferencia de 8 bits con tensor de la RT", pertenece a todos los nvidia

En el proceso de cuantificación, y se puede dividir en dos partes, una pesos de parámetros del modelo, el modelo general se puede utilizar directamente No saturación de cuantificar directamente  [Oficial] .

Otra parte es calcular el valor del proceso de activaciones de cuantificación, esta parte que elegir saturar el enfoque que hay un proceso de selección de umbral.

En "inferencia 8 bits con tensor RT" artículo, la elección del umbral de la utilización de la entropía relativa (divergencia kl), la entropía relativa en el caso discreto [Oficial]

En un conjunto de datos de validación, un lote a un ejemplo, cada capa de la frecuencia de cálculo de lote histogramas (FP32 histograma H con 2048 bins: bin [0], ..., bin [2047])

Las imágenes de la "inferencia de 8 bits con tensor de la RT" es de todos nvidia

Por supuesto, los métodos cuantitativos en este artículo es bastante simple, por Resnet, redes más complejas googlenet red como, el efecto es bueno, es relativamente pequeña pérdida de precisión, pero para la clase de MobileNet, shufflenet de por sí más ágil pérdida de precisión es bastante evidente, sobre todo en la detección de la arquitectura de aplicación de red del tiempo.

Además un artículo de Google "Cuantificación de las redes de profundidad convolucionales para la inferencia eficiente: Un libro blanco". Este documento se ha optimizado en el enfoque cuantitativo, hay dos aspectos complementarios de los métodos anteriores.

Propuso por primera vez el concepto de una simétrica y asimétrica Cuantificar Cuantificar, que en la fórmula sesgo (1) está en nvidia artículo, sesgo = 0 (mencionado en su artículo no requiere el sesgo) es la cuantificación simétrica concepto, cuantificado después de 0 o 0;  [Oficial] la situación es cuantificar asimétricos, pero que necesita ser observado que el sesgo es un número entero, como en profundidad modelo de aprendizaje, hay demasiados existen 0-relleno, y si no sesgo entero, entonces habrá un gran número de precisión numérica recibido 0 pérdida en el proceso de cuantificación.

El concepto segunda capa de cuantización capa por canal y la cuantificación, cuantificados dos muy fácil de entender la distinción literal, también vemos un método de cuantificación utilizando una capa por capa en el método de la Nvidia, cada capa utiliza el mismo valor umbral de cuantificar. Es el canal cuantificada por canal para cada canal de cada capa tiene su propio umbral, hay una mejora buena precisión.

Es para seleccionar la cuantificación se calcula umbral, el artículo usando un método más simple. Para pesos, utilizando los valores máximos y mínimos reales determinados parámetro de cuantificación. Para activar la salida, utilizando un lote cruz (lotes) valores máximo y mínimo de la media móvil para determinar un parámetro de cuantificación.

Por último, mirada a los resultados, el artículo sólo a la red clasificada, los resultados de la exactitud de la detección de caída de la red, todavía experimentar.

Las imágenes de los "Cuantificación de las redes de profundidad convolucionales para la inferencia eficiente: Un libro blanco" es de todos Google

Así como la formación en términos cuantitativos, después de que el artículo revisita.

Liberadas 2718 artículos originales · ganado elogios 1004 · Vistas 5,36 millones +

Supongo que te gusta

Origin blog.csdn.net/jacke121/article/details/104761170
Recomendado
Clasificación