HashDataベースのレイクストレージ統合ソリューションの探索と実践

2023年4月7日、中国DBA連合(ACDU)とMotianlun Communityが共催する第12回「データテクノロジーカーニバル」(DTC 2023)がクラウンプラザ北京新雲南で盛大に開幕した。HashData のシニア ソリューション アーキテクトである Li Jun 氏は、 4 月 8 日に特別セッション 6-「融合アプリケーション: Hucang Technology Innovation 」で「湖および倉庫向け HashData ベースの統合ソリューションの探索と実践」に関する特別講演を行いました。

この記事は実際のスピーチの録音をもとにまとめたもので、スピーチの本文は以下の通りです(全文を読むには20分以上かかります)。

1. レイクと倉庫の統合の進化

データ ウェアハウスの概念は、Bill Inmon が 1991 年に出版した書籍「Building the Data Warehouse」を正式に提唱してから広く受け入れられました。30 年の開発期間を経て、金融、通信、航空などのさまざまな業界で広く使用されています。

データ ウェアハウスには、BI およびレポート システムへの簡単なアクセス、および強力なデータ管理および制御機能という利点がありますが、ビッグ データの台頭により、非構造化データ、高コストの独自システム、独自のデータ形式、および柔軟性が低いという欠点があります。

データ レイクの概念は、2010 年頃のビッグ データの出現から生まれました。データ レイクはストレージ コストが低く、非構造化データをサポートします。データ レイクはかつてデータ ウェアハウスに代わるものだと考えられていましたが、データ レイクが実用化されるにつれて、人々は徐々にその欠点、つまり BI システムのサポートが不十分であること、クエリ パフォーマンスが低いこと、非リアルタイム データ インタラクション、信頼性が低いことを認識するようになりました。

データ レイクとデータ ウェアハウスの間では、学界と産業界で激しい議論が行われてきましたが、最終的に、データ ウェアハウスとデータ レイクはリンゴとオレンジのようなものであり、まったく別のものであり、互いに置き換えることはできないという基本的な合意に達しました。

データ ウェアハウスとデータ レイクは相互に置き換わることはなく、共存して企業のデータ プラットフォームを形成します。Gartner が提案した論理データ ウェアハウスの概念には、データ ウェアハウスとデータ レイクの 2 つの部分が含まれており、これはほとんどの企業の現状でもあります。

しかし、イノベーターは現状に満足せず、2020 年頃、Databrick が率先してレイクハウスの概念を提案し、中国ではレイクハウス統合またはレイクハウスと訳されました。

Lakehouse が前半の Data Lake のソースであり、後半の Data Warehouse であることを理解するのは難しくありません。その意味するところは、Lakehouse がデータ レイクとデータ ウェアハウスの利点を吸収して新しいプラットフォームを作成するということです。

Lakehouse は、データ形式、データ型、データ アクセス、信頼性、ガバナンスとセキュリティ、パフォーマンス、スケーラビリティ、およびユーザー シナリオのサポートに関する新しい要件を提示します。

上記の新しい要件を満たすために、レイクハウスには次の主要な機能が必要です。

  • 預金と計算の分離

データレイクが改善する必要がある主な機能は次のとおりです。

  • 事務

  • BI支持

  • パフォーマンス

  • データガバナンスとセキュリティ

データ ウェアハウスが改善する必要がある主な機能は次のとおりです。

  • 複数のデータ型

  • 機械学習

  • 料金

2. 海外の湖上倉庫技術開発の紹介

外国のレイク ウェアハウス テクノロジーに関して、最も議論されている 3 つのオープンソース ソリューションは、Databrick、Hudi、および Iceberg です。Databrick のホーム ソリューションは DeltaLake です。私は DeltaLake の製品トレーニングとトライアルに参加する光栄に恵まれました。トランザクション、BI サポート、パフォーマンスなどの主要な機能を備えており、その経験は非常に良好でした。

 Apache Hudi は DeltaLake の競合製品です。

 Apache Iceberg も DeltaLake の競合他社です。DeltaLake が商用からオープンソースへの変更を余儀なくされたのは、まさにオープンソースの Hudi と Iceberg の急速な発展のおかげです。

Iceberg に関しては、概念に焦点を当てる必要があります。テーブル フォーマット (データ テーブル フォーマット)、テーブル フォーマットは、コンピューティング エンジンが基礎となるストレージ フォーマット (ORC、Parquet など) を直接処理するのではなく処理するのに役立つ抽象化レイヤーです。基礎となるストレージを以前と同様に操作します。この概念は非常に重要であり、後の技術共有で使用されます。

 上記の 3 つのオープンソース ソリューション (Apache DeltaLake/Apache Hudi/Apache Icerberg) はすべて、データ レイクをデータ ウェアハウスに統合するための技術的なルートです。データ ウェアハウス ソリューションとして、HashData は、誰もがデータ ウェアハウスを統合するための新しい視点を開きます。データレイク。

3. HashData のイノベーションと探索の実践

HashData の元の製品プロトタイプは、典型的な MPP アーキテクチャである Greenplum に基づいていますが、ストレージと計算が結合されています。つまり、データ ストレージとデータ計算がすべて 1 つのデータ ノード内にあります。

 クラウドネイティブ向けに反復設計を行った結果、HashData v3 のアーキテクチャは次のようになります。これは、サービス、コンピューティング、ストレージを分離するアーキテクチャであり、従来の MPP のバレル効果の問題を効果的に解決し、HashData データ ウェアハウスが超大規模クラスターをサポートできるようにします。

HashData は、C 銀行の超大規模データ ウェアハウス サービスへの適用に成功しました。2022 年末までに、現在 20,000 を超えるデータ ノードが本番環境で実行され、データ ストレージは約 13PB になります。

データ ウェアハウスをデータ レイクに統合する際のもう 1 つの課題は、低コストのソリューションをどのように提供するかです。Huawei Cloud の公式 Web サイトのデータによると、オブジェクト ストレージのコストはディスクや SSD の価格のわずか数十分の 1 です。すべてのデータがオブジェクト ストレージに保存されている場合、ソリューション全体は大幅に削減されます。残念ながら、オブジェクト ストレージは IO にあまり適していないため、パフォーマンスが犠牲になります。価格とパフォーマンスの間で、当社はマルチレベル ストレージ テクノロジーを採用しています。つまり、永続データはオブジェクト ストレージに保存され、ホットスポット キャッシング テクノロジーがコンピューティング層に追加されるため、この問題はうまく解決されます。

 オブジェクト ストレージを使用した HashData データ レイク ソリューションの全体コストは元の 1/10 に削減できますが、ホットスポット キャッシュ テクノロジによってパフォーマンスが保証されています。関連するベンチマーク データ レポートは、パフォーマンスが元のレベルに非常に近いことを示しています。

 IoT データなどの機械生成データの場合、HashData はストリーミング コンピューティング エンジンの準リアルタイム書き込みをサポートするため、データ分析の効率が向上します。

 エネルギーグループAの場合、統合データレイクにはすでに油田、地質、探査、生産など1.7PBのデータが蓄積されており、もちろん上記の機械や設備が生成するストリーミングデータも存在します。

半構造化データについては、基本的にデータベースで適切にサポートされていますが、これについては繰り返しません。非構造化データに焦点を当てています。データベースは実際には画像をバイナリ形式で保存できますが、使用が面倒であり、これは良い解決策ではありません。

非構造化分析の場合、現在提供されているソリューションは 2 つの部分に分かれています。

  1. RAW ファイルはオブジェクト ストレージに保存されます。

  2. 解析された構造化データはデータベースに保存され、簡単に検索および比較できます。

    以下は、高速道路での銃剣データ分析の事例をさらに詳しく説明したものです。カメラがナンバー プレート情報を取得した後、元の写真が元の証拠としてオブジェクト ストレージに保存されます。解析されたナンバー プレートの番号、色、時刻は HashData データベースに保存され、交通統計の監視、通行料金回避の監査、その他のアプリケーションをサポートします。

  3. 機械学習の場合、HashData は、ライブラリ内で機械学習を実行するための SQL での関数の呼び出しをサポートし、さらにオープンな Python ネイティブ サポートをサポートするようになりました。要約すると、HashData Lake Warehouse 統合ソリューションは、サービス、コンピューティング、ストレージを分離する技術アーキテクチャに基づいており、データ ウェアハウス、データ レイク、データ要素市場を含む複数のシナリオに対応するソリューションです。

 

4. 湖と倉庫の一体化の考え方と展望

レイク ウェアハウスの融合後、統合されたストレージ + マルチ コンピューティング エンジンのパターンが形成されます。データ形式の融合については、HashData は今後、TableFormat として Iceberg を導入する予定です。

本日共有される技術的なプラットフォーム統合の詳細、モデル、データ ガバナンス、データ資産管理に関するその他のトピックについては、上記の 2 つの雑誌を参照してください。

おすすめ

転載: blog.csdn.net/m0_54979897/article/details/130153833