Al final del artículo, potencia de cálculo | recomendación de herramientas: ruedas de alto rendimiento diseñadas para GPU

https://mp.weixin.qq.com/s/w1iN4PgA-cp75lAihcr2aw

By 超神经

GPU 和数据库各有所长,GPU 擅长处理机器学习等任务,而数据库擅长有特定要求的计算,比如复杂的连接计算。

目前有一些提供 GPU 加速的数据库解决方案产品,其中有大家熟悉的 MapD、Kinetica,我们今天要介绍是一款年轻的开源产品 BlazingSQL。

Al final del artículo, potencia de cálculo | recomendación de herramientas: ruedas de alto rendimiento diseñadas para GPU

BlazingSQL es una herramienta de consulta de base de datos acelerada por GPU construida sobre RAPIDS. BlazingSQL extiende RAPIDS y permite a los usuarios ejecutar consultas SQL directamente en Apache Arrow en la memoria de GPU.

Además del grado de adaptación y velocidad de la GPU, que es mucho más rápido que otros productos similares, la mayoría de los almacenes de datos SQL requieren que las empresas extraigan y copien los datos por sí mismas, mientras que BlazingDB puede leer directamente los datos de Apache Parquet, lo que simplifica los canales de datos. La arquitectura también puede soportar cargas de alto rendimiento.

Más importante aún, BlazingSQL también ha recibido inversiones de NVIDIA y Samsung, y ha mantenido una muy buena relación de cooperación con NVIDIA.

Evaluación del desempeño

Para comparar el rendimiento entre herramientas, debe comparar la prueba bechmark, primero ejecute una carga de trabajo de análisis de un extremo a otro.

  • Los pasos son: lago de datos> ingeniería de funciones FTL> entrenamiento de XGBoost

  • Creamos dos clústeres a precios comparables en GCP, utilizando Apache Spark y BlazingSQL respectivamente.

Al final del artículo, potencia de cálculo | recomendación de herramientas: ruedas de alto rendimiento diseñadas para GPU

* El resultado final es que BlazingSQL se ejecuta 5 veces más rápido que Apache Spark.

* Con la misma carga de trabajo, la nueva versión se ejecuta 20 veces más rápido que Apache Spark.

Al final del artículo, potencia de cálculo | recomendación de herramientas: ruedas de alto rendimiento diseñadas para GPU

Un buen caballo con una buena silla

La razón por la que Blazing SQL puede obtener resultados de ejecución eficientes es también porque la GPU T4 de GCP se usa de manera extravagante, que es una nueva GPU de nivel de entrada que es barata pero tiene un gran rendimiento.

El uso de la nueva GPU T4 redujo nuestros costos a la mitad y, para mantener el precio constante, redujimos el clúster Apache Spark a 4 nodos de CPU.

Al final del artículo, potencia de cálculo | recomendación de herramientas: ruedas de alto rendimiento diseñadas para GPU

Pero el resultado final es que incluso si la memoria de la GPU se reduce a la mitad, la carga de trabajo general se acelerará significativamente.

Los ingenieros de Blazing SQL también desarrollaron un kernel de ejecución de GPU creado específicamente para GPU DataFrames (GDF), que se denomina "intérprete de expresiones SIMD".

Se necesita mucho espacio para describir el intérprete de expresiones SIMD. Simplemente compartiré algunos detalles aquí sobre cómo funciona y por qué produce tal mejora en el rendimiento.

La mejora del rendimiento del intérprete de expresiones SIMD se realiza principalmente a través de estos pasos clave:

  1. La máquina admite múltiples entradas. Estas entradas pueden ser columnas, texto y funciones GDF.

  2. Al cargar estas entradas, el intérprete de expresiones SIMD optimiza la asignación de registros en la GPU, lo que aumenta la tasa de ocupación de la GPU y, en última instancia, mejora el rendimiento.

  3. Además, la máquina virtual procesa estas entradas y genera múltiples salidas simultáneamente. Por ejemplo, asumiendo la siguiente consulta SQL: SELECT colA + colB * 10, sin (colA) - cos (colD) FROM tableA

Son estos esfuerzos los que hacen que BlazingSQL tenga una mejora tan grande en eficiencia.

Potencia informática de GPU gratuita

¡Feliz Festival de los Faroles!
Nerve Miss Sister envió los beneficios de cálculo del Festival de los Faroles!

Nuestros fabricantes asociados están llevando a cabo actividades de pruebas internas para la nube pública de aprendizaje automático.
Actualmente, hay 50 lugares de prueba internos abiertos, incluido el tiempo de uso de CPU y GPU (NVIDIA T4).

Agregue el WeChat de Miss Nervous Sister (sin verificación) para obtener el código de invitación de registro
Al final del artículo, potencia de cálculo | recomendación de herramientas: ruedas de alto rendimiento diseñadas para GPU

Enciclopedia súper nerviosa

Medida de similitud

La medida de similitud se usa para estimar el grado de similitud entre diferentes muestras y, a menudo, se usa como criterio para problemas de clasificación.

En el aprendizaje automático y la minería de datos, debe conocer el tamaño de las diferencias entre las personas y luego evaluar la similitud y la categoría de las personas.

Los más comunes son el análisis de correlación en el análisis de datos, los algoritmos de clasificación y agrupamiento en minería de datos, como K vecinos más cercanos y K medias.

Dependiendo de las características de los datos, se pueden utilizar diferentes métodos de medición.

Al final del artículo, potencia de cálculo | recomendación de herramientas: ruedas de alto rendimiento diseñadas para GPU

Supongo que te gusta

Origin blog.51cto.com/14929242/2535594
Recomendado
Clasificación