À la fin de l'article, puissance de calcul | recommandation d'outils: roues hautes performances conçues pour GPU

https://mp.weixin.qq.com/s/w1iN4PgA-cp75lAihcr2aw

By 超神经

GPU 和数据库各有所长,GPU 擅长处理机器学习等任务,而数据库擅长有特定要求的计算,比如复杂的连接计算。

目前有一些提供 GPU 加速的数据库解决方案产品,其中有大家熟悉的 MapD、Kinetica,我们今天要介绍是一款年轻的开源产品 BlazingSQL。

À la fin de l'article, puissance de calcul | recommandation d'outils: roues hautes performances conçues pour GPU

BlazingSQL est un outil de requête de base de données accéléré par GPU construit sur RAPIDS. BlazingSQL étend RAPIDS et permet aux utilisateurs d'exécuter des requêtes SQL directement sur Apache Arrow dans la mémoire du GPU.

En plus du degré d'adaptation et de la vitesse du GPU, qui est beaucoup plus rapide que d'autres produits similaires, la plupart des entrepôts de données SQL exigent que les entreprises extraient et copient les données elles-mêmes, tandis que BlazingDB peut lire directement les données d'Apache Parquet, ce qui simplifie les canaux de données. L'architecture peut également prendre en charge des charges hautes performances.

Plus important encore, BlazingSQL a également reçu des investissements de NVIDIA et de Samsung, et a maintenu une très bonne relation de coopération avec NVIDIA.

Évaluation des performances

Pour comparer les performances entre les outils, vous devez comparer le test bechmark, d'abord exécuter une charge de travail d'analyse de bout en bout.

  • Les étapes sont: Data Lake> Ingénierie des fonctionnalités FTL> Formation XGBoost

  • Nous avons construit deux clusters à des prix comparables sur GCP, en utilisant respectivement Apache Spark et BlazingSQL.

À la fin de l'article, puissance de calcul | recommandation d'outils: roues hautes performances conçues pour GPU

* Le résultat final est que BlazingSQL fonctionne 5 fois plus vite qu'Apache Spark.

* Sous la même charge de travail, la nouvelle version s'exécute 20 fois plus vite qu'Apache Spark.

À la fin de l'article, puissance de calcul | recommandation d'outils: roues hautes performances conçues pour GPU

Un bon cheval avec une bonne selle

La raison pour laquelle Blazing SQL peut obtenir des résultats d'exécution efficaces est également due au fait que le GPU T4 de GCP est utilisé de manière extravagante, qui est un nouveau GPU d'entrée de gamme bon marché mais offrant de bonnes performances.

L'utilisation du nouveau GPU T4 a réduit nos coûts de moitié et, afin de maintenir le prix constant, nous avons réduit le cluster Apache Spark à 4 nœuds CPU.

À la fin de l'article, puissance de calcul | recommandation d'outils: roues hautes performances conçues pour GPU

Mais le résultat final est que même si la mémoire du GPU est divisée par deux, la charge de travail globale sera considérablement accélérée.

Les ingénieurs de Blazing SQL ont également développé un noyau d'exécution GPU spécialement conçu pour les GPU DataFrames (GDF), appelé «interpréteur d'expression SIMD».

La description de l'interpréteur d'expression SIMD prend beaucoup de place. Je vais simplement partager ici quelques détails sur son fonctionnement et pourquoi il produit une telle amélioration des performances.

L'amélioration des performances de l'interpréteur d'expression SIMD passe principalement par ces étapes clés:

  1. La machine prend en charge plusieurs entrées. Ces entrées peuvent être des colonnes GDF, du texte et des fonctions.

  2. Lors du chargement de ces entrées, l'interpréteur d'expression SIMD optimise l'allocation des registres sur le GPU, ce qui augmente le taux d'occupation du GPU et améliore finalement les performances.

  3. De plus, la machine virtuelle traite ces entrées et génère plusieurs sorties simultanément. Par exemple, en supposant la requête SQL suivante: SELECT colA + colB * 10, sin (colA) - cos (colD) FROM tableA

Ce sont ces efforts qui permettent à BlazingSQL d'améliorer considérablement son efficacité.

Puissance de calcul GPU gratuite

Bonne fête des lanternes!
Nerve Miss Sister a envoyé les avantages de calcul du Festival des Lanternes!

Nos fabricants partenaires mènent des activités de test internes pour le cloud public de l'apprentissage automatique.
Actuellement, 50 sites de test internes sont ouverts, y compris le temps d'utilisation du CPU et du GPU (NVIDIA T4)!

Ajoutez le WeChat de Miss Nervous Sister (sans vérification) pour obtenir le code d'invitation à l'inscription
À la fin de l'article, puissance de calcul | recommandation d'outils: roues hautes performances conçues pour GPU

Encyclopédie super nerveuse

Mesure de similarité

La mesure de similarité est utilisée pour estimer le degré de similitude entre différents échantillons et est souvent utilisée comme critère pour les problèmes de classification.

Dans l'apprentissage automatique et l'exploration de données, vous devez connaître la taille des différences entre les individus, puis évaluer la similitude et la catégorie d'individus.

Les plus courants sont l'analyse de corrélation dans l'analyse des données, les algorithmes de classification et de clustering dans l'exploration de données, tels que K voisins les plus proches et K moyennes.

En fonction des caractéristiques des données, différentes méthodes de mesure peuvent être utilisées.

À la fin de l'article, puissance de calcul | recommandation d'outils: roues hautes performances conçues pour GPU

Je suppose que tu aimes

Origine blog.51cto.com/14929242/2535594
conseillé
Classement