データウェアハウス、データレイク、データセンター、レイクウェアハウスの4D詳細説明

この記事ディレクトリ:

1.はじめに
2.コンセプト分析

  1. データベース
  2. データレイク
  3. データセンター

第三に、特定の違い

  1. データウェアハウスとデータレイク
  2. データウェアハウスVSデータセンター
  3. 要約する

4、湖と倉庫の統合

  1. 現在のデータストレージソリューション
  2. データレイクハウス

I.はじめに

デジタルトランスフォーメーションの波は、あらゆる種類の新旧の概念を巻き起こしました。データレイク、データウェアハウス、データミドルプラットフォームが交代で友達の輪の中で画面をスワイプしています。「データミドルプラットフォームは何もない、データ湖はトレンドです」と言う人もいます。「さようなら」と言う人もいます。データレイク、データウェアハウス、データミドルオフィスが気候になっています。

オフラインとリアルタイムをカバーする、デジタル倉庫建設に関する50,000語の詳細な乳母レベルのチュートリアル

企業がデジタル化への扉を開く前に、それは最初にさまざまな概念に遭遇しました。では、3つの違いは何ですか?心配しないでください。最初に2つの興味深いアナロジーを紹介します。

1.図書館VS露店

データウェアハウスを「図書館」に例えると、データレイクは「露店」になります。図書館に行って本(データ)を借りれば、本の品質は保証されますが、待たなければなりません。何を待っていますか?管理者がその本がどのカテゴリに属し、どの棚にあるかを確認した場合にのみ、必要な本を入手できます。屋台では誰もあなたをチェックしません。あらゆる種類の本があり、検索できます。自分では、図書館よりもはるかに便利なプロセスですが、本を探すプロセスは経験が浅く、再利用できます。場合によっては、取る量が増えるかどうかわからないことがあります。

2.アップグレードされた銀行

データウェアハウス、データレイク、データセンターはすべて銀行であり、現金や金などのさまざまなサービスを提供できると想定されています。以前は、銀行に入る前に、誰もがドアマンに尋ねなければなりませんでした。各ドア番号の番号はどのサービスに対応していますか?現金ですか、それとも金ですか?次に、対応するドアを押して開き、アイテムを取り出します。「データセンター」銀行では、入金するとすぐに「現金」と「金」の漢字でマークされたウィンドウを見ることができます。

上記の2つの例は必ずしも包括的ではありませんが、基本的に3つの長所と短所を説明できます。データウェアハウスは標準化されていますが、データの取得と使用のプロセスは長く、データレイクはよりリアルタイムで大容量のストレージを備えていますが、データ品質を保証することは困難です。データセンターはビジネスニーズに正確に対応できます。迅速に、そしてビジネス側に最も近いです。

3つをより明確に区別するために、それぞれの定義とアプリケーションの違いを見てみましょう。

2.コンセプト分析

1.データウェアハウス

データウェアハウスは1990年に誕生し、間違いなく「昔ながらの」ものであり、比較的特殊な機能概念です。データウェアハウスの現在の主流の定義は、複数のデータベースにある大容量のリポジトリです。その機能は、大量の構造化データを格納し、企業がビジネスインテリジェンス(BI)を構築するのに役立つ頻繁で反復可能な分析を実行することです。

具体的な定義

データウェアハウス(Data Warehouse)は、サブジェクト指向(Subject Oriented)、統合(Integrated)、比較的安定(Non-Volatile)であり、履歴変更(Time Variant)データ収集を反映し、管理上の決定とグローバルに共有される情報をサポートするために使用されます。その主な機能は、情報システムのオンライントランザクション処理(OLTP)を通じて長年にわたって蓄積された大量のデータを分析し、データウェアハウス理論に固有のデータストレージ構造を通じて貴重な情報を分析することです。

  • いわゆるトピック:ユーザーがデータウェアハウスを使用して意思決定を行う際に気にする重要な側面を指します。たとえば、収益、顧客、販売チャネルなどです。いわゆるトピック指向とは、データウェアハウスは、ビジネスとは異なり、トピックごとに編成されています。サポートシステムは、ビジネス機能に従って編成されています。

  • いわゆる統合とは、データウェアハウス内の情報がさまざまなビジネスシステムから単純に抽出されるのではなく、一連の処理、並べ替え、および集計プロセスを経ることを意味します。したがって、データウェアハウス内の情報は、企業全体に関する一貫したグローバル情報です。 。

  • いわゆる経時変化:データウェアハウス内の情報は、企業の現状を反映するだけでなく、過去のある時点から現在の段階までの情報を記録することを意味します。この情報を通じて、企業の発展の歴史と将来の傾向について定量的な分析と予測を行うことができます。

データウェアハウスの役割:

データウェアハウスシステムの役割は、ビジネスラインとシステム間のデータ統合を実現し、管理分析とビジネスの意思決定のための統合されたデータサポートを提供することができます。データウェアハウスは、基本的に、会社の運用データを価値の高いアクセス可能な情報(または知識)に変換し、適切な情報を適切な人に適切なタイミングで適切な方法で提供するのに役立ちます。

  • これは、企業の中堅および上級管理職向けのデータ統合、分析、およびビジネス分析と業績評価の提示のためのツールです。

  • これは主に、履歴、包括的、および詳細なデータ分析に使用されます。

  • データソースはERP(例:SAP)システムまたはその他のビジネスシステムです。

  • 柔軟で直感的、簡潔で操作が簡単な多次元クエリ分析を提供できます。

  • これは日常のトランザクションオペレーティングシステムではなく、トランザクションデータを直接生成することはできません。

リアルタイムデータウェアハウス

リアルタイムデータウェアハウスはオフラインデータウェアハウスと非常によく似ています。その誕生の背景は、主に近年、企業がリアルタイムデータサービスをますます要求していることです。内部のデータモデルも、中間プラットフォームのように、ODS、CDM、ADSなどのいくつかのレイヤーに分割されます。ただし、リアルタイムパフォーマンスの全体的な要件は非常に高いため、一般的なストレージではログベースMQであるKafkaの使用を検討し、コンピューティングエンジンはFlinkなどのストリームコンピューティングエンジンを使用します。

2.データレイク

データレイクは、ビッグデータの保存、処理、分析のための進化し続けるスケーラブルなインフラストラクチャです。企業の多様な生データを保存するための大規模な倉庫のようなものです。データ指向であり、あらゆるソース、あらゆる速度、あらゆるものを実現します。あらゆるタイプのデータのスケール、完全な取得、完全なストレージ、マルチモード処理、および完全なライフサイクル管理強力な情報処理機能と、事実上無制限の同時タスクまたはジョブを処理する機能を備えています。

データレイクは、企業の複数のデータソースから元のデータを取得します。データは、構造化データから完全に非構造化データまで、あらゆるタイプの情報であり、さまざまな外部の異種データソースとの相互作用および統合を通じてさまざまな企業をサポートします。レベルのアプリケーション。高度なデータサイエンスと機械学習テクノロジーを組み合わせることで、企業はより最適化された運用モデルを構築できます。また、予測分析や推奨モデルなど、その後の企業機能の成長を促進できる他の機能を企業に提供できます。

インターネット時代に入ると、2つの最も重要な変化があります。

1つは、データの規模が前例のないことです。成功するインターネット製品は、1日あたり1億人のアクティブユーザーを超える可能性があります。おなじみのToutiao、Douyin、Kuaishou、NetEase Cloud Musicと同様に、毎日数千億のユーザー行動が生成されます。従来のデータウェアハウスは拡張が難しく、そのような大量のデータを伝送することはできません。

もう1つは、データ型が異質になっていることです。インターネット時代には、ビジネスデータベースからの構造化データに加えて、アプリやWebからのフロントエンドの埋め込みデータ、またはビジネスサーバーのバックエンドの埋め込みログもあります。これらのデータは通常、半構造化されているか、構造化されていない場合もあります。従来のデータウェアハウスでは、データモデルに厳しい要件があります。データをデータウェアハウスにインポートする前に、データモデルを事前に定義し、モデルの設計に従ってデータを保存する必要があります。

したがって、データスケールとデータタイプの制限により、従来のデータウェアハウスはインターネット時代のビジネスインテリジェンスをサポートできません。

2005年に、Hadoopが誕生しました。Hadoopには、従来のデータウェアハウスに比べて2つの主な利点があります。

  • 完全に分散され、拡張が容易で、低コストのマシンを使用して、大量のデータの処理要件を満たす強力なコンピューティングおよびストレージ機能を備えたクラスターを構築できます。

  • データ形式が弱くなっています。データがHadoopに統合された後は、データ形式を保持できません。データモデルはデータストレージから分離されます。データ(元のデータを含む)を使用すると、異なる方法で読み取ることができます。異種データのニーズを満たすためのモデル。柔軟な分析のニーズ。データウェアハウスは、事実に基づいて使用できるデータにさらに注意を払っています。

Hadoopとオブジェクトストレージの成熟に伴い、データレイクの概念は10年で提案されました。データレイク(データレイク)は、データを生の形式で保存するリポジトリまたはシステムです(つまり、データレイクの基礎となるレイヤーはストレージカップリングに関連付けられていません)。

同様に、データレイクが適切に管理されていない場合(メタデータの欠如、データソースの定義、データアクセスポリシーとセキュリティポリシーの開発、データの移動、データのカタログ化)、データレイクはデータの沼になります。

製品形式に関しては、データウェアハウスは独立した標準化された製品であることがよくあります。データレイクは一種のアーキテクチャガイダンスのようなものです。ビジネスに必要なデータレイクを実現するには、一連の周辺ツールと連携する必要があります。

3.データセンター

大規模なデータの適用は、徐々にいくつかの問題を明らかにしました。

ビジネス開発の初期段階では、ビジネス要件を迅速に満たすために、煙突スタイルの開発により、企業のさまざまなビジネスライン間、さらには同じビジネスラインのさまざまなアプリケーション間でさえデータの断片化が発生しました。2つのデータアプリケーションの同じ指標は一貫性のない結果を示し、その結果、データに対する操作の信頼性が低下します。運用中の場合、商品の売り上げを確認すると、2つのレポートの売り上げと呼ばれる指標に2つの値が表示されます。どのように感じますか?最初の反応は、データが間違っているということです。あえてこのデータを使い続けないでください。

データの断片化のもう1つの問題は、計算と開発を何度も繰り返すと、R&D効率の浪費、コンピューティングおよびストレージリソースの浪費につながり、ビッグデータのアプリケーションコストがますます高くなることです。

  • オペレーションの場合、データが必要な場合、開発では少なくとも1週間かかると言われますが、遅すぎると考えなければなりません。もっと速くできるでしょうか。

  • あなたがデータ開発者である場合、多くの要求に直面したとき、あなたは要求が多すぎて人が少なすぎて仕事ができないと不平を言う必要があります。

  • あなたがビジネスのオーナーである場合、毎月の請求額が指数関数的に増加しているのを見ると、それは高すぎるか、もう少し節約できるか、または多すぎると考える必要があります。

これらの問題の根本は、データを共有できないことです。2016年、アリババは「データセンター」のスローガンを掲げて主導権を握りました。データセンターの中核は、データの繰り返し計算を回避し、データの共有能力を向上させ、データサービスを通じてデータアプリケーションを強化することです以前は、データは何もありませんでした、そして、中間データは共有するのが難しくて、蓄積することができませんでした。データセンターを構築した後は、やりたいことができるようになりました。データアプリケーションの研究開発の速度は、データ開発の速度に制限されなくなりました。一晩で、シーンに応じて多くのデータアプリケーションをインキュベートできます。これらのアプリケーションはデータを価値あるものにします。

データセンターテンプレート

Zhongtaiを構築する過程で、次の点が一般的に強調されます。

  • 効率、品質、およびコストは、データがビジネスを適切にサポートできるかどうかを判断するための鍵です。データミドルプラットフォームを構築する目的は、高効率、高品質、および低コストを実現することです。

  • データを1回だけ処理することは、データセンターを構築するためのコアです。これは、基本的に、パブリックコンピューティングロジックのシンクと再利用を実現することです。

  • 企業に3つ以上のデータアプリケーションシナリオがあり、データ製品がまだ開発および更新されている場合は、データセンターの構築を真剣に検討する必要があります。

次に、Alibabaのデータミドルプラットフォームの実践を見てみましょう。

前述のように、データを1回だけ処理することは、データセンターを構築するためのコアであり、本質的には、パブリックコンピューティングロジックのシンクと再利用を実現することです。Ali Data Centerは、次のようなさまざまなアイデアについて言及しました。

  • OneData:公開データのコピーが1つだけ保存されます
  • OneService:サービスインターフェイスを介して公開

第三に、特定の違い

1.データウェアハウスとデータレイク

それに比べて、データレイクは、アーキテクチャが進化している比較的新しいテクノロジーです。データレイクは、生データを任意の形式(構造化および非構造化を含む)および任意の形式(テキスト、オーディオ、ビデオ、および画像を含む)で保存します。定義上、データレイクはデータガバナンスの対象ではありませんが、専門家は、データレイクがデータスワンプに変わるのを防ぐために優れたデータ管理が不可欠であることに同意しています。データレイクは、データの読み取り中にスキーマを作成します。データウェアハウスと比較すると、データレイクは構造化されておらず、柔軟性が高く、俊敏性が高くなっています。データレイクは、データマイニングやデータ分析など、機械学習や深層学習を使用してさまざまなタスクを実行したり、非構造化データを抽出したりするのに理想的です。

2.データウェアハウスVSデータセンター

データウェアハウスと従来のデータプラットフォームの出発点は、サポートする技術システムです。つまり、最初に自分が持っているデータを検討し、次に何ができるかを検討する必要があるため、データ品質とメタデータ管理に特に重点が置かれます。出発点データではなくビジネスです。最初は、システムにあるデータを確認する必要はありませんが、ビジネス上の問題を解決するために必要なデータサービスの種類を確認する必要があります。

特定の技術処理リンクでは、この2つも大幅に異なり、データ前処理プロセスは従来のETL構造からELT構造に変更されています。従来のデータウェアハウス統合処理アーキテクチャはETL構造です。これは、データウェアハウスを構築する上で重要な部分です。つまり、ユーザーはデータソースから必要なデータを抽出し、データのクリーニング後にデータをデータウェアハウスにロードします。ビッグデータのコンテキストでのアーキテクチャシステムはELT構造であり、上位層のアプリケーション要件に従ってモデリングと分析を行うために、いつでもデータセンターから目的の生データを抽出します。

3.まとめ

上記の概念の説明とデータウェアハウス、データレイク、データセンターの比較に従って、次の要約を作成します。

  • データセンター、データウェアハウス、データレイクの間には直接的な関係はありません。

  • データセンター、データウェアハウス、およびデータレイクは、特定の次元でビジネスの価値を生み出す形に異なる重点を置いています。

  • データセンターはエンタープライズレベルの論理概念であり、エンタープライズデータがビジネス価値に変換する能力を反映しています。ビジネスにサービスを提供する主な方法はデータAPIです。

  • データウェアハウスは比較的特殊な機能概念であり、1つ以上のサブジェクトデータのストレージと管理のコレクションです。ビジネスにサービスを提供する主な方法は、レポートを分析することです。

  • データセンターはビジネスに近く、ビジネスおよびアプリケーション開発のニーズにより迅速に対応できるため、ビジネスにより迅速なサービスを提供できます。

  • データウェアハウスは、管理の意思決定と分析をサポートするためのものであり、データセンターは、データを提供した後にビジネスシステムにデータを提供します。これは、分析シナリオだけでなく、トランザクションシナリオにも適用されます。

  • データセンターは、データウェアハウスとデータプラットフォーム上に構築でき、データからビジネス価値への企業のプロセスを加速する中間層です。

4、湖と倉庫の統合

「湖と倉庫の統合が次のビーコンになり、データウェアハウスとデータレイクアーキテクチャはまもなくグループチャットから撤退する」と言う人もいます。

2020年、Big DataDataBricksは最初にDataLakehouseの概念を提案し、データレイクとデータウェアハウスのテクノロジーを1つに統合することを望んでいました。この概念が発表されるとすぐに、さまざまなクラウドベンダーがそれに続きました。

Data Lakehouseは、データウェアハウスとデータレイクの利点を同時に吸収する新しいデータアーキテクチャです。データアナリストとデータサイエンティストは、同じデータストレージ内のデータを操作でき、会社のデータガバナンスの利便性も向上します。 。

1.現在のデータストレージソリューション

これまで、データを構造化するために2つのデータストアを使用してきました。

  • データウェアハウス:主にリレーショナルデータベースによって編成された構造化データを格納します。データは変換、統合、およびクリーンアップされ、ターゲットテーブルにインポートされます。データウェアハウスでは、データストレージの構造は定義されたスキーマと強く一致しています。

  • データレイク:写真やドキュメントなどの非構造化データを含む、あらゆるタイプのデータを保存します。データレイクは通常大きく、ストレージコストは安くなります。そこに格納されているデータは特定のスキーマを満たす必要はなく、データレイクは特定のスキーマを強制しようとはしません。代わりに、データの所有者は通常、データを読み取るときにスキーマを解析し(schema-on-read)、対応するデータを処理するときにスキーマに変換を適用します。

今日、多くの企業は、データウェアハウスとデータレイクの2つのストレージアーキテクチャを同時に構築することがよくあります。1つは大きなデータウェアハウスで、もう1つは複数の小さなデータレイクです。このようにして、データは2つのストレージである程度の冗長性を持ちます。

2.データレイクハウス

データレイクハウスの出現により、データウェアハウスとデータレイクの違いを統合しようとしています。データレイク上にデータウェアハウスを構築することで、ストレージがより安価で柔軟になります。同時に、レイクハウスはデータ品質を効果的に向上させ、データの冗長性を減らすことができますレイクハウスの構築において、ETLは非常に重要な役割を果たし、非構造化データのレイクレイヤーデータをデータウェアハウスレイヤーの構造化データに変換できます。

以下について詳しく説明します。

データレイクハウス

DataBricksのLakehouseの定義によると、データレイクとデータウェアハウスの利点を組み合わせ、データレイクの制限に対処する新しいパラダイムです。Lakehouseは、新しいシステム設計を使用しています。データレイクの低コストストレージに直接、データウェアハウスと同様のデータ構造とデータ管理機能を実装しています。

説明展開

レイクとウェアハウスの統合、簡単な理解は、企業指向のデータウェアハウステクノロジーとデータレイクストレージテクノロジーを組み合わせて、企業に統合された共有可能なデータベースを提供することです。

従来のデータレイクとデータウェアハウス間のデータ移動を回避し、生データ、処理およびクリーンアップされたデータ、モデル化されたデータを統合された「レイクウェアハウス」に保存します。これにより、ビジネスで高い同時実行性、精度、高効率を実現できます。パフォーマンス履歴データ、リアルタイムのデータクエリサービスであり、分析レポート、バッチ処理、データマイニング、その他の分析サービスを実行できます。

湖と倉庫の統合ソリューションの出現は、企業が新しい統合データプラットフォームを構築するのに役立ちます。機械学習とAIアルゴリズムのサポートにより、データレイクとデータウェアハウスの閉ループが実現され、ビジネス効率が向上します。データレイクとデータウェアハウスの機能は完全に組み合わされて補完性を形成し、同時に上位層の多様なコンピューティングエコロジーに接続します。

Lakehouseには次の主要な機能があります

  • トランザクションサポート:Lakehouseエンタープライズアプリケーションでは、多くのデータパイプラインがデータの読み取りと書き込みを同時に行うことがよくあります。通常、複数の関係者がSQLを使用して同時にデータの読み取りまたは書き込みを行い、LakehouseはACIDトランザクションの整合性をサポートすることを保証します。

  • スキーマの実装とガバナンス:Lakehouseは、スキーマの実装と進化をサポートし、star/snowflake-schemasなどのDWスキーマ仕様をサポートする方法を備えている必要があります。システムは、データの整合性について推論できる必要があり、堅牢なガバナンスと監査のメカニズムを備えている必要があります。

  • BIサポート:Lakehouseは、ソースデータに対して直接BIツールを使用できます。これにより、失効と遅延が減少し、最新性が向上し、データレイクとウェアハウスでデータの2つのコピーを操作する必要があるコストが削減されます。

  • ストレージとコンピューティングの分離:実際には、これはストレージとコンピューティングが別々のクラスターを使用することを意味します。したがって、これらのシステムは、より多くの同時ユーザーとより大きなデータ量に拡張できます。一部の最新のデータウェアハウスにもこのプロパティがあります。

  • 互換性:Lakehouseで使用されるストレージ形式は、Parquetなどのオープンで標準化されており、機械学習やPython / Rライブラリなどの複数のAPIを提供するため、さまざまなツールやエンジンがデータに直接効率的にアクセスできます。

  • 非構造化データから構造化データまでの複数のデータ型をサポート:Lakehouseを使用して、画像、ビデオ、オーディオ、半構造化データ、テキストなど、多くの新しいデータアプリケーションに必要なデータ型を保存、最適化、分析、アクセスできます。

  • データサイエンス、機械学習、SQL分析など、さまざまな作業シナリオをサポートします。これらは、作業シナリオをサポートするために複数のツールに依存している場合があり、それらはすべて同じデータリポジトリに依存しています。

  • エンドツーエンドのストリーミングタスク:リアルタイムのレポートは、多くの企業にとって日常的に必要とされています。ストリーム処理のサポートにより、リアルタイムデータアプリケーションの提供専用の別のシステムが不要になります。

上の図は、DataBricksによって提供されたアーキテクチャの進化の参照図です。

従来のデータウェアハウスには非常に明確な目標があり、さまざまなビジネスデータソースをマージした後のビジネスBI分析およびレポートに適していることがわかります。企業が顧客の行動、IoT、写真、ビデオなどを含むますます多くの種類のデータを処理する必要があるため、データの規模は飛躍的に増大します。

データレイクテクノロジーが導入され、一般的なデータストレージおよび処理プラットフォームの役割を担うために使用されました。データレイクは、その分散ストレージおよびコンピューティング機能により、マシンラーニングコンピューティングをより適切にサポートできます。データレイクの時代には、通常、 ToDataLakeとDataWarehouseは引き続き同時に存在します。

ビッグデータの時代の到来とともに、ビッグデータテクノロジーが従来のデータウェアハウスに取って代わり、統一されたデータ処理アーキテクチャを形成することは可能ですか?

参考

  1. データウェアハウス構築仕様の最も強力で包括的なガイド
  2. Meituanデータプラットフォームとデータウェアハウス建設の実践、100,000語以上の要約
  3. デジタル倉庫建設のための看護レベルのチュートリアル
{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/4789384/blog/5458633