nvidia [GPU contraste desarrollo de la arquitectura]


1 Introducción

fácil recuperación

2 Glosario

FLOPS : "operaciones de punto flotante por segundo", "segunda velocidad pico" es una abreviatura de "número de operaciones de punto flotante por segundo ejecutados" (operaciones de coma flotante por segundo ) de. El llamado "punto flotante", de hecho, incluye todas las operaciones con decimales. Tales operaciones ocurren a menudo en ciertos tipos de software de aplicación, sino que también pasan más tiempo que la aritmética de enteros. La mayoría de los procesadores modernos, el proceso tiene una aritmética de punto flotante dedicada a "operador de coma flotante" (FPU). Flops y por lo tanto la medición, de hecho, la velocidad de ejecución de la FPU. La medida más comúnmente utilizada FLOPS un programa de referencia (benchmark), es Linpack.

  • A MFLOPS (megaflops) equivale a un millón por segundo (= 10 ^ 6) veces las operaciones de punto flotante,
  • A GFLOPS (GigaFLOPS) gigabits iguales por segundo (= 10 ^ 9) veces las operaciones de punto flotante,
  • A TFLOPS (teraFLOPS) es igual a un billón de dólares por segundo (= 10 ^ 12) veces las operaciones de punto flotante, (1 tirón también)
  • A PFLOPS (petaFLOPS) igual a mil billones de veces por (= 10 ^ 15) veces las operaciones de punto flotante,
  • A EFLOPS (exaFLOPS) Jing es igual a cien por segundo (= 10 ^ 18) veces las operaciones de punto flotante,
  • A ZFLOPS (zettaFLOPS) es igual a cien mil por segundo Beijing (= 10 ^ 21) veces las operaciones de punto flotante.

De punto flotante de precisión : la mitad de precisión, precisión simple, doble precisión. El papel blanco nvidia oficial que implica: FP16 medio precisión (número de coma flotante de 16 bits); FP32 es una precisión simple (número de coma flotante de 32 bits); FP64 es un doble precisión (número de coma flotante de 64 bits).

INT8: 8-bit aritmética de enteros (un byte), el nuevo número entero mayor apoyo de 8 bits está en un período de la 32-bit embalado en los cuatro números enteros de 8 bits (denotado: A0A1A2A3), completa funcionamiento: y = A0 * B0 + A1 * B1 + A2 * B2 + A3 * B3 + X en la que X e y son números enteros de 32 bits, a y b son número entero bits 8 INT8 teóricamente capaz de 400%. rendimiento (en comparación con float) punto de terminación multiplicación entero de 8 bits y las operaciones se acumulan. uso popular reciente de redes neuronales para derivar útil.

referencias:

Supongo que te gusta

Origin www.cnblogs.com/shouhuxianjian/p/9817243.html
Recomendado
Clasificación