データ ウェアハウスとデータ レイクの違い

データ ウェアハウス プラットフォームは、BI レポート ベースから分析ベース、予測ベース、そしてオペレーショナル インテリジェンスを目標に徐々に移行しています。

過去に何が起こったかを報告する ---> 過去になぜそれが起こったのかを分析する ---> 将来何が起こるか ---> 何が起こっているのか ---> 正しいことを起こさせる Data Warehouse (データ ウェアハウス) は、
A主題指向(Subject Oriented)、統合(Integrated)、比較的安定(Non-Volatile)、および歴史的変化を反映(Time Variant)したデータ収集。経営上の意思決定と情報のグローバル共有をサポートするために使用されます。

いわゆるテーマ:データ ウェアハウスを使用して意思決定を行う際にユーザーが気にする主要な側面 (収入、顧客、販売チャネルなど) を指します。サポート システムはビジネス機能ごとに編成されています。
いわゆる統合とは、データ ウェアハウス内の情報がさまざまなビジネス システムから単に抽出されるのではなく、一連の処理、並べ替え、要約のプロセスを経て、データ ウェアハウス内の情報がシステム全体に関する一貫したグローバル情報になることを意味します。企業。
いわゆる経時的変化:データ ウェアハウス内の情報が企業の現在の状態を反映しているだけでなく、過去のある時点から現在の段階までの情報が記録されていることを意味します。これらの情報を通じて、企業の発展の歴史と将来の傾向を定量的に分析および予測することができます。
データ ウェアハウス システムには、分析製品自体に加えて、データ統合、データ ストレージ、データ計算、ポータル表示、プラットフォーム管理などの一連の製品も含まれています。

 

Pentaho の CTO James Dixon が提案した Data Lake (Data Lake) は、データ ストレージの概念、つまりシステムまたはリポジトリに自然な形式でデータを保存する方法です。
データ レイクは、企業のさまざまな生データを保存する大規模な倉庫であり、その中のデータにアクセスし、処理、分析、送信することができます。データ レイクは、ネイティブ形式 (通常はオブジェクト BLOB またはファイル) で保存されたデータのシステムまたはリポジトリです。データ レイクは通常、ソース システム データの生のコピーや、レポート、視覚化、分析、機械学習などのタスクのために変換されたデータを含む、企業のすべてのデータを格納する単一のストアです。データ レイクには、リレーショナル データベースの構造化データ (行と列)、半構造化データ (CSV、ログ、XML、JSON)、非構造化データ (電子メール、ドキュメント、PDF)、バイナリ データ (画像、音声、ビデオ) を含めることができます。
現在、Hadoop はデータ レイクの展開に最も一般的に使用されているテクノロジであるため、多くの人がデータ レイクを Hadoop クラスターだと考えています。データレイクは概念であり、Hadoop はこの概念を実現するために使用されるテクノロジーです。

おすすめ

転載: blog.csdn.net/qq_35240226/article/details/108078890