記事の最後に、コンピューティングパワー|ツールの推奨事項:GPU用に設計された高性能ホイール

https://mp.weixin.qq.com/s/w1iN4PgA-cp75lAihcr2aw

By 超神经

GPU 和数据库各有所长,GPU 擅长处理机器学习等任务,而数据库擅长有特定要求的计算,比如复杂的连接计算。

目前有一些提供 GPU 加速的数据库解决方案产品,其中有大家熟悉的 MapD、Kinetica,我们今天要介绍是一款年轻的开源产品 BlazingSQL。

記事の最後に、コンピューティングパワー|ツールの推奨事項:GPU用に設計された高性能ホイール

BlazingSQLは、RAPIDS上に構築されたGPU高速化データベースクエリツールです。BlazingSQLはRAPIDSを拡張し、ユーザーがGPUメモリ内のApache Arrowで直接SQLクエリを実行できるようにします。

ほとんどのSQLデータウェアハウスでは、GPUの適応度と速度に加えて、他の同様の製品よりもはるかに高速ですが、BlazingDBはApache Parquetから直接データを読み取ってデータチャネルを簡略化できるため、企業自身でデータを抽出してコピーする必要があります。アーキテクチャは、高性能ロードもサポートできます。

さらに重要なことに、BlazingSQLはNVIDIAとSamsungからも投資を受けており、NVIDIAとの非常に良好な協力関係を維持しています。

性能評価

ツール間のパフォーマンスを比較するには、ベックマークテストを比較する必要があります。まず、エンドツーエンドの分析ワークロードを実行します。

  • 手順は次のとおりです。データレイク> FTL機能エンジニアリング> XGBoostトレーニング

  • GCPでは、Apache SparkとBlazingSQLをそれぞれ使用して、2つのクラスターを同等の価格で構築しました。

記事の最後に、コンピューティングパワー|ツールの推奨事項:GPU用に設計された高性能ホイール

*最終結果は、BlazingSQLがApache Sparkの5倍の速度で実行されることです。

*同じワークロードの下では、新しいバージョンはApache Sparkの20倍の速度で実行されます。

記事の最後に、コンピューティングパワー|ツールの推奨事項:GPU用に設計された高性能ホイール

良いサドルを持つ良い馬

Blazing SQLが効率的な実行結果を得ることができる理由は、GCPのT4 GPUが贅沢に使用されているためでもあります。これは、安価で強力なパフォーマンスを持つ新しいエントリレベルのGPUです。

新しいT4 GPUを使用するとコストが半分になり、価格を一定に保つために、Apache Sparkクラスターを4 CPUノードに削減しました。

記事の最後に、コンピューティングパワー|ツールの推奨事項:GPU用に設計された高性能ホイール

ただし、最終的な結果として、GPUメモリが半分になっても、全体的なワークロードが大幅に加速されます。

ブレイジングSQLエンジニアは、GPU DataFrames(GDF)用に特別に構築されたGPU実行カーネルも開発しました。これは、「SIMD式インタープリター」と呼ばれます。

SIMD式インタープリターを説明するには多くのスペースが必要ですが、ここでは、SIMDがどのように機能するか、なぜそのようなパフォーマンスの向上がもたらされるのかについて、いくつかの詳細を共有します。

SIMD式インタープリターのパフォーマンス向上は、主に以下の重要なステップによるものです。

  1. マシンは複数の入力をサポートしています。これらの入力は、GDF列、テキスト、関数にすることができます。

  2. これらの入力が読み込まれると、SIMD式インタープリターはGPU上のレジスターの割り当てを最適化します。これにより、GPUの占有率が向上し、最終的にパフォーマンスが向上します。

  3. さらに、仮想マシンはこれらの入力を処理し、複数の出力を同時に生成します。たとえば、次のSQLクエリを想定します。SELECT colA + colB * 10、sin(colA)— cos(colD)FROM tableA

これらの取り組みにより、BlazingSQLの効率が大幅に向上しています。

無料のGPUコンピューティングパワー

ハッピーランタンフェスティバル!
ナースミスシスターがランタンフェスティバルの計算特典を送ってくれました!

パートナーベンダーは、機械学習のパブリッククラウドの内部テストアクティビティを実施しています。
現在、CPUとGPU(NVIDIA T4)の使用時間を含む50の内部テスト場所がオープンしています。

WeChat of Miss Nervous Sister(確認なし)を追加して、登録招待コードを取得します
記事の最後に、コンピューティングパワー|ツールの推奨事項:GPU用に設計された高性能ホイール

超神経百科事典

類似度

類似度は、異なるサンプル間の類似度を推定するために使用され、分類問題の基準としてよく使用されます。

機械学習とデータマイニングでは、個人間の差異のサイズを把握し、個人の類似性とカテゴリを評価する必要があります。

最も一般的なものは、データ分析における相関分析、データマイニングにおける分類およびクラスタリングアルゴリズム(K最近傍やK平均など)です。

データの特性に応じて、さまざまな測定方法を使用できます。

記事の最後に、コンピューティングパワー|ツールの推奨事項:GPU用に設計された高性能ホイール

おすすめ

転載: blog.51cto.com/14929242/2535594
おすすめ