総括する一般的な単語:
実際には、開発の進展に応じて、以下の順序である必要があります。
データベース - >データウェアハウス - >データ湖
|データマート|
ステージ1(独立したデータベースアプリケーション):
さまざまなビジネスアプリケーションは、データベースに依存しているデータを収集する役割を果たしています。
フェーズII(データマイニングデータを収集するために):
ビジネス・アプリケーションは、比較的独立したユニットのトピックは、データは各アプリケーションシステムを収集する必要がある有用な情報を掘ることができ、集計分析を可能に行います。
その後、それは、データウェアハウスの概念を生じた:データウェアハウスを経営上の意思決定をサポートするために構築され、サブジェクト指向、統合された、安定し、時間的に変化するデータの収集と。
特徴:そのデータではなくアプリケーション間でのアプリケーション保存されたデータによるよりも、テーマ別です。例えば、製品のテーマ、売上テーマ。
ボトルネック:より多くのデータ交通システムとして、データウェアハウスのボトルネックは(店舗およびクエリに)来ました:
1.データウェアハウスは、リレーショナルデータベースであるので、貯蔵の面でスケールアップすることができます。
2.複雑なクエリの効率大きいデータ量より低い、下部及び下部取得します。
データマートは、特定の部門やユーザーのニーズを満たすためにある、インデックスが生成された多次元キューブの意思決定のカスタム指向分析の寸法やニーズに応じて算出されます。また、データウェアハウスであることができる、データ・ソース・データベース・ビジネス・アプリケーションであってもよいです。
フェーズIII :(データウェアハウス、ビッグデータの概念を導入)のボトルネックを解決します:
HDFSのHadoop誕生、データリードアウト湖のコンセプト、それはストレージ・フレームをHadoopのさ
データウェアハウス・ソリューションにおけるボトルネックの場合:
まず、データが外向きに拡張可能、及び横方向伸長HDFS安いハードウェアベースのストレージを介して搬送されます。
2.ディスクは、コンピューティングのHadoopのMapReduceのフレームワークまたは弾性記憶スライスに基づいてスパークRDDデータセットを算出します。
特徴:
ストレージ:データは、リレーショナルデータベース(行と列)から構造化データ、半構造化データ(CSV、XML、JSONログ)、非構造化データ(電子メール、文書、PDF)およびバイナリデータが含まれる(画像、音声、ビデオ)データの全ての形態を保持するために集中データ格納を形成するように。
データウェアハウス/データ湖(ビッグデータ)の有意差:
1.異なる参照データ:データウェアハウス参照コースETLであり、データは、データ参照湖ELTプロセスです。
2.ストレージ:データウェアハウスは、構造化されたデータであり、自然湖は様々な構造を格納する、データ・フォーマットです。
3.データアクセス:データウェアハウスSQLであり、データは湖のディレクトリアクセス(外部プログラム)/ SQLクラスプログラムです。