ハイブの開発者は、データウェアハウスの設計の4つのレベルを知っている必要があります

 データウェアハウスは:包括的なデータウェアハウスシステムは、データソース、データの標準化、検証、クリーニングのためのETLプロセスを受け、最終的にデータマートにロードされ、データマート支援システムの分析を介してデータのクエリは、全体のデータウェアハウスは、4つのレベルが含まれています。

1. 4つのデータ・ウェアハウスの動作を
       一時的中間層にデータを抽出するETL(extractiontransformationローディング)責任を分散異種データソース後は洗浄、変換、統合、及び最終的にデータウェアハウスまたはデータマートに充填しました。ETLは、データウェアハウスの実施形態では、ワークロードの80%に全体のデータ・ウェアハウスには60%を構築するための課金ルールのETL設計と実装の心と魂である。
      1.データの抽出(抽出)初期データロードとデータのリフレッシュ含む:プライマリ初期化データのローディングを懸念は、ディメンションテーブル、ファクトテーブル、データテーブルに対応するデータを作成する方法であり、データは、(関心は、データウェアハウス内の対応するデータは、さらに、ソースデータの変更を維持し、更新されたときにどのように更新しますたとえば、スケジュールされたタスク、またはトリガのタイミングデータの更新の形で)を作成することができます。

      2.データ・クレンジングは、主にあいまいさのソース・データベースに表示され、複製、不完全、またはビジネスロジックのデータの問題に違反する統一されたプロセスを支配しています。これは、ビジネスや無駄なデータを満たしていない清めています。ハイブは、要件を満たしていない洗浄又はMRフィールド長データなどにより調製しました。

      前記データ変換(変換)は、主にデータウェアハウスのデータに変換するために必要な洗浄:同一又は異なるデータフィールドのデータフォーマットから辞書データは、IDと呼ばれるテーブルなどの異なるソースシステム(であってもよいです、B表)がIDSと呼ばれる、データ・ウェアハウス内のデータのコンテンツの統一されたデータ・ディクショナリと形式でそれらを提供するために必要なのは正規化される。一方、データウェアハウスの特定のフィールドの内容は、ソース・システムを必要とすることができますそれは持っていますが、ソースシステムの複数のフィールドの内容を決定するために一緒に作業する必要はありません。

    前記データローディング(装填)は、データマート、さらに可視化に利便性を提供するために、対応する記憶領域(のMySQL、等)に最後に処理されたデータの上に導入されます。

     データと利便性の大企業、一般的に安全な運用のために、カプセル化されたデータは、独自のプラットフォームとプラットフォームのタスクスケジューリングされている、そのようなクラスタ、スパーククラスタ、sqoop、ハイブ、zookeepr、HBaseのが唯一のWebインターフェイスを提供し、用としてボトムパッケージHadoopの大規模なデータクラスタ異なる権限を持つ別の従業員も、そしてその後、別の操作や通話をクラスタ化します。データウェアハウスは、例えば、データ・ウェアハウスは、ロジックのいくつかのレベルに分けられます。データ操作のさまざまなレベルのために、タスクの異なるレベルを作成して、タスク・フローの実行(通常は毎日実行数千人、数千人のさえ十を待っているタスクをスケジュールしている大企業のクラスタ内で異なるレベルで配置することができ、それが異なるに分かれていますレベル・タスク・フローは、対応するタスク・フローの実行、管理および保守にタスクの異なるレベル)は、より便利であろう。

2.データウェアハウスの4レベル論理アーキテクチャは
       、標準的なデータ・ウェアハウスには4つの層に分けることができます。しかし、これが唯一の部門ではなく、名前のことに注意して、位置の数は、通常は4ですが、異なる企業は異なる名前をことがあります。例えば、ここにコピー層SSAと呼ばれる一時的な層、JingdongははBDMと呼ばれているのです。alibabaのは、具体的には、5階建ての倉庫構造の同じ数であるが、核となるアイデアは、4層モデルからのデータです。それぞれ、以下の命名レベルとのJingdongとアリババ倉庫の数を示します。

 


1.複製層(SSA、システムのレコード -stagingエリア)
      (例えば、処理されていない全てのハイブのテーブルの同じ構造に導入されたのMySQLからデータを読み出す、など)を直接SSAソースシステムコピーされたデータ、及び維持しよう元のサービスデータは、唯一の違いを持つデータ・ソース・システムは、SSAのデータは、ソース・データ・ベース・システム内のタイムスタンプ情報、履歴データのバージョンの複数に追加されます。

2.原子層(SOR、システム・オブ・レコード)
     モデルを開発したコンプライアンスルール3NFパラダイムに基づいて、SORテーブル構造は、データウェアハウスの最高レベルを格納し、データ分類のための異なる対象領域に応じてストレージ; SORは、設計プロセスに十分持っている必要があり、全体のデータウェアハウスの中核と基礎であり、SOR職員、学生、教育、研究の4つの主要テーマストレージによるデータ層の学校の一部の現在のニーズに基づいて、大学の統計情報サービスプラットフォームなどさらにアップグレードや更新をサポートすることができながら、複数の分析ニーズをサポートするために、より多くのデータソースを追加するには応じることができるようにするための柔軟性。

3.概要層(SMA、サマリー・エリア)
    DMデータ粒度が傾向がある高さは正規化されたデータSORがあるため、このクエリを完了するためのSMAと中間SORのDM(公正層)の遷移は、関連する多くの作業を必要としますSOR DMで出産するために集約されたデータのよりもはるかに高いが、ささやかな抗ファンをSORし、この、SMAは、データ仕事の概要の多くを必要とする(例えば、設計された幅の広いテーブル構造情報担当者、幹部とオンデマンドで他の情報テーブルマージされたデータ)と、(例えば、いくつかの共通ヘッダ要約要約機構、等)、凝集、それによって、データウェアハウスのクエリのパフォーマンスを向上させることができます。

4.市場層/プレゼンテーション層(DM、データマート)
    ; DM主なものは、によって、データの粒度のすべての種類であるエンドユーザーのアクセスデータを最終的に確認したいとDMを理解することができる:データDMは、ユーザーに直接アクセスするために保存しましたデータサービスプラットフォームのDMの統計データ、さまざまなニーズに適応するために、異なる粒子サイズのデータを、訪問の数を提供

 

おすすめ

転載: www.cnblogs.com/panchangde/p/11572663.html