リアルタイムデータウェアハウスを構築するための最初の選択肢、クラウドネイティブデータウェアハウステクノロジーの復号化

Alibaba Cloud分析データベースが基本バージョンを立ち上げ、ユーザーがデータウェアハウスを構築するためのしきい値を大幅に削減しました。MySQLとの互換性が高く、使用コストが非常に低く、パフォーマンスが非常に高いため、中小企業はリアルタイムデータウェアハウスを簡単に構築して、エンタープライズデータのオンライン価値を実現できます。

AnalyticDB for MySQLの製品シリーズには、基本バージョン(スタンドアロンバージョン)とクラスターバージョンが含まれています。基本バージョンは単一ノードにサービスを提供し、最小限のアーキテクチャは基本バージョンのコストを大幅に削減します。ストレージとコンピューティングの分離アーキテクチャ、行と列の混合ストレージテクノロジー、軽量のインデックス構築方法、および分散型ハイブリッドコンピューティングエンジンにより、基本バージョンの強力な分析パフォーマンスが保証されます。特別なビッグデータチームを設立する必要なく、年間コストが10,​​000未満のリアルタイムデータウェアハウスを構築でき、企業の数百万のコストを節約できます。

1.基本バージョンの技術アーキテクチャ

以下はアーキテクチャ図の基本バージョンで、全体はコーディネーターとワーカーで構成されており、それぞれの役割は以下のとおりです。

img

1.1コーディネーター:フロントエンド制御ノード、責任には以下が含まれます

(1)MySQLプロトコルレイヤーアクセス、SQL分析

(2)認証と認証。より完全で詳細なアクセス許可システムモデル、ホワイトリストとクラスターレベルのRAM制御、およびすべてのSQL操作の監査とコンプライアンスレコードを提供します。

(3)クラスター管理:メンバー管理、メタデータ、データ整合性、ルート同期、バックアップとリカバリ(データとログの管理)

(4)バックグラウンド非同期タスク管理

(5)トランザクション管理

(6)オプティマイザ、実行計画の生成

(7)タスクスケジューリングを担当するコンピューティングスケジューリング

1.2ワーカー:ストレージおよびコンピューティングノード。

(1)計算モジュール

分散MPP + DAGハイブリッドコンピューティングエンジンおよびオプティマイザは、より高い複雑なコンピューティング能力と混合負荷管理機能を実現しました。Alibaba Cloudコンピューティングプラットフォーム上のリソースの柔軟なスケジューリングの利点を使用して、コンピューティングリソースの柔軟なスケジューリングが実現されます。コンピューティングワーカーノードは個別にプルアップでき、ビジネスニーズに応じて数分または数秒で拡張して、リソースを最も効率的に使用できます。

(2)ストレージモジュール

ストレージモジュールはより軽量で、リアルタイムの書き込みおよび読み取り機能を備えており、スループットデータが大きくなります。書き込みパフォーマンスは、以前のバージョンの同じ仕様よりも約50%高くなっています。顧客のリアルタイム分析のニーズを満たすためにミリ秒単位で表示されます。

ストレージノードは、完全な増分バックアップおよびリカバリ機能を提供します。クラウドディスクの定期的なスナップショットとログはリアルタイムで同期され、OSSに保存されます。これにより、ユーザーデータのセキュリティが向上し、データベースの問題が発生したときにユーザーが最大限にリカバリできるようになります。

(3)労働者グループ

ストレージモジュールを備えたワーカーノードはワーカーグループに分けられます。クラスタバージョンはストレージの3つのコピーを提供します。Raft分散整合性プロトコルを通じて全体のように機能し、一部のワーカーノードが引き続き障害を提供できるようにします。サービス、ベーシックバージョンはサービスの単一のコピーのみを提供します。

2. 基本バージョンオプティマイザー

オプティマイザーは、パーサーによって生成された構文ツリーの処理を担当し、最適化アルゴリズムによって生成された最適なコストは計算エンジンに提供されます。計画コストはクエリのパフォーマンスに直接影響するため、オプティマイザはデータベースのコアモジュールの1つです。基本バージョンは、クラスターバージョンと同じ強力なオプティマイザーを使用します。これには、ルール、コスト、モードに基づく複数の複合最適化手法が含まれます。

image.png

複雑な分析クエリには複数テーブルの結合が含まれることが多く、テーブルの結合順序はクエリのパフォーマンスに直接影響します。AnalyticDBオプティマイザーは、コスト見積もりとリアルタイムサンプリング情報に基づいた結合順序最適化アルゴリズムを使用します。これにより、基になるデータベースに格納されたデータの分布を把握できます。オプティマイザーは、AnalyticDBのフルインデックス機能を使用して、フィルター係数推定の精度を向上させます。複雑な結合の場合、オプティマイザはデータ分散情報に基づいて結合順序を動的に調整し、同時にデータ再編成のコストを評価して、グローバルコストのディメンションから最適な実行プランを選択します。

AnalyticDBオプティマイザーは、古典的なルールベースオプティマイザー(ルールベースオプティマイザー)に基づいてコスト見積もりと反復最適化を追加し、Cascades CBO(コストベースオプティマイザー)最適化フレームワークを統合します。CBO検索フレームワークは、プロパティ実施モジュールを呼び出して分散実行プランを生成し、次にコスト見積もりモジュールを呼び出して各候補プランのコストを評価し、最適な分散実行プランを選択します。結合順序の最適化効果と効率をさらに改善するために、AnalyticDBオプティマイザーは、履歴ベースの最適化テクノロジー(履歴ベースオプティマイザー)、一般的なSQLパターンに基づく動的最適化テクノロジー(パターンベースオプティマイザー)、およびデータ駆動型インテリジェンスも使用します自動分析モジュールなどのテクノロジーは統計情報を自動的に収集して、オプティマイザが最適なプランを検索するための正確なデータサポートを提供します。

さらに、AnalyticDBオプティマイザーは、複合フィルター条件、集約演算子、および複雑なクエリでよく見られる関連サブクエリに対して一連の最適化処理を実行して、パフォーマンスを向上させます。たとえば、プッシュダウン最適化テクノロジーは、計画されたフィルター条件と集計演算子をリンク全体の最下部のモジュールに可能な限りプッシュして実行します。これにより、最下位の演算子の効率が向上するだけでなく、上流の演算子によって処理されるデータの量が減り、クエリ全体が向上します。パフォーマンス。関連するサブクエリステートメントの場合、オプティマイザは関連するサブクエリをリレーショナル代数変換を介して意味的に等価な非関連プランに書き換え、計算エンジンを効率的にパイプライン化できるようにします。

3.計算エンジンの基本バージョン

image.png

AnalyticDB計算エンジンは、大規模な並列処理MPP + DAGアーキテクチャと、高同時実行性と低待機時間の特性を持つメモリベースのパイプライン実行モードを採用しています。複雑な式の評価を高速化し、実行パフォーマンスを最適化するために、計算エンジンはランタイムにランタイムCodegenを介してJVMバイトコードを生成し、生成されたオブジェクトのインスタンスを動的にロードし、実行中の仮想関数呼び出しを減らし、CPU集中型タスクを改善します。効率。計算エンジンは、ベクトル化された実行モデルを使用して式の評価を処理し、CPU SIMD命令セットを使用して評価計算を高速化します。

4.基本バージョンのストレージエンジン

image.png

AnalyticDBストレージエンジンは、混合ストレージ設計を使用します。示されているように。テーブル(行グループ)内のデータのk行ごとに、データの各列は個別のデータブロックに継続的に格納され、各行グループの列ブロックはディスクに継続的に格納されます。行グループの列Blockのデータは、指定された列に従って並べ替えて保存できます。これにより、この列でクエリを実行するときのディスクのランダムIOの数を大幅に減らすことができます。この設計の独自の利点は、行ストレージ(OLTPポイントクエリに適している)と列ストレージ(OLAP多次元分析に適している)の両方の利点があり、さまざまなタイプのワークロードのニーズを満たすことです。

  • OLTPタイプのポイントクエリの場合、詳細データの完全な行を選択する必要があります。行と列が混在する設計では、列ストレージの完全なランダム読み取りが順次読み取りに変換されます
  • OLAPタイプの多次元分析:大規模データ統計分析のダウンストリームストレージの読み取りと拡大の問題を解決するだけでなく、列ストレージの順次読み取りを単一行IOの実行時に順次スキップ読み取りに変換し、複数行IOの実行時にランダム読み取りを順次に変換します。読む
  • 大規模な書き込みスループット:列ストレージ中のランダム書き込みは順次書き込みに変換されます

AnalyticDBストレージエンジンは、インテリジェントフルインデックスを使用して、データの各列の値から行番号までの逆索引を作成します。クエリを実行すると、複数のSQL条件式のANDおよびORがブールクエリに変換され、同時にインデックスが付けられます。検索を通じてwhere条件を満たす結果セットの行番号が取得されます。高速多重化がサポートされ、ミリ秒レベルで条件を満たす結果を見つけることができます。セット。

5.基本バージョンの利点

基本バージョンは、データウェアハウスを構築するためのユーザーのしきい値を大幅に削減します。ビッグデータ(Hadoop、Spark、EMR)およびOLTPウェアハウスの構築方法と比較して、コストパフォーマンスが高くなります。

(1)使用閾値を下げる

ベーシック版は最低1.75元/時、860元/月で、クラスター版に比べて約1/3の値下げ。ディスク容量はわずか0.6元/ GBで、ディスク容量の上限は4Tです。必要に応じていつでも拡張でき、中小企業向けのリアルタイムデータウェアハウスの複雑な分析と構築のしきい値を大幅に削減できます。

(2)高性能

同じ構成で、そのデータクエリのパフォーマンスはMySQLの約10倍であり、これはユーザーが遅いMySQLの複雑な分析の問題点を解決するのに役立ちます。

(3)豊富な仕様

基本バージョンは、T8、T16、T32、およびT52の4つの仕様をサポートします。仕様は、ビジネスのさまざまな要件に応じて選択および調整できます。

(4)生態学的透明性

上流および下流のエコシステムは、クラスターバージョンと完全に互換性があり、ユーザーに対して透過的です。

6.顧客に適しています

次のグループに特に適しています:

(1)Hadoop / Sparkおよび他の中小企業で、複雑すぎてデータ変換を迅速に実現したい場合。

(2)レポートデータベースクエリは遅く、インタラクティブなBI分析を備えたSMEは魅力的です。

(3)データウェアハウスを選択するためのテスト環境を迅速に構築する必要があるユーザー。

(4)学習グループ、AnalyticDB for MySQLをすばやく理解できるユーザー。

もっと詳しく

ライブ放送をご覧
ください:https : //yq.aliyun.com/live/2527製品の詳細:https : //promotion.aliyun.com/ntms/act/adbformysqljichuban.html

元のリンク
この記事はYunqiコミュニティの元のコンテンツであり、許可なしに複製することはできません。

元の記事2315件を公開 2062件のいいね 158万回

おすすめ

転載: blog.csdn.net/yunqiinsight/article/details/105420059