データウェアハウスシステムビッグデータの構築

ビッグデータの時代には、データウェアハウスシステムは、大規模なデータの生成は、非常に一般的であるにも良い機会であるにアップグレードしてください。あなたが大規模なデータウェアハウス、データシステムの設計を勉強したい場合は、個人的にビット(前)ビデオ共有レッスンの建築家によって推奨されます。http://t.cn/EJ07vuaは主に実際の戦闘の15例があり、より多くの乾燥+ 3 + 3プロジェクト。


まず、データベースは何ですか?

1.データベース(データベース)は、コンピュータ記憶装置記憶に基づいて、データ構造に従って編成およびデータウェアハウスの管理されました

2.データベースの構成は、コンピュータでの長期保存、共有可能なデータの収集です。データベース内のデータは、特定によって定義されています

   最小の可能な冗長性、高い拡張性と容易なデータの独立して説明したと一緒に保存された組織のデータモデル、


   そして、範囲内の特定の機能は、複数のユーザーで共有します


データウェアハウスの定義:


サブジェクト指向、統合された、比較的安定し、経営の意思決定をサポートするために、データ収集の歴史的変化を反映しています。






データウェアハウスとデータベースの比較:




また、OLAPとして知られ、多くの場合、OLTP、分析のためのデータウェアハウスと呼ばれるビジネス指向データベース、


データウェアハウスの第二に、開発

さまざまにシステムアーキテクチャおよびビジネスプロセスの分析を提供することが望ましい1970年代に遡るデータウェアハウスの概念、

レベル

番号:はっきり分析システムの4つのコンポーネントが定義され、1980年代に、TA2の確立(技術Architecture2)仕様

データ収集、データアクセス、ディレクトリ、顧客サービス

1988年に、IBMは、最初のデータウェアハウスの概念が導入されました:構造化された環境は、彼らのビジネス全体を管理するために、エンドユーザーをサポートするために、

そして、データの品質を確保するためのIT部門をサポートするため、抽象基本コンポーネント:データの抽出、変換、検証、ロード、キューブ

開発、データウェアハウス、骨格構造の主な原理、および分析システムの基本的な基本原則を定義


1991年、ビル・インモンは、「データウェアハウスの構築」を出版、より具体的なデータウェアハウスの原則を提唱:

1.データウェアハウスは、サブジェクト指向であります

2.統合

履歴を含む3。

4.更新しないでください

5.指向の意思決定支援

企業全体のための6

7.最も詳細なデータストレージ

式8.データ取得データのスナップショット


いくつかの理論は、まだ議論の余地があるが、この本のおかげで、「父データ・ウェアハウスの」賞を受賞しましたが、


ビル・インモンは、トップダウンのエンタープライズ・データウェアハウスの構築を提唱し、データウェアハウスは、全体的なビジネス・インテリジェンス・システムの一部と見なされます。

会社は、唯一のデータ・ウェアハウス、データウェアハウスからの情報のデータマート・ソース、データ・ウェアハウス、最初の行に格納された情報を有しています


三つのパラダイム、大まかなアーキテクチャ:




建設を推進し、ボトムアップのデータウェアハウスを提唱し、「データウェアハウスのツールキット」のラルフ・キンボール出版


李データマート、データウェアハウスは、企業内のすべてのデータマートのコレクションとみなされ、情報が常にではそのアイデア多次元モデルに格納されます。




二つのアイデアや意見は、最終的にはビル・インモンが新しいBIアーキテクチャCIF(株情報の工場を)提案するまで、データマートは、部屋が含まれ、実際の動作完成したプロジェクトの配信で成功することは非常に困難です。CIFは、コア倉庫アーキテクチャの数などの一般的なODS、DW、DM、実際のシーンに基づいて、異なる建物プログラムと各などの異なるシナリオのニーズを満たすために、異なるレベルに分割され、アイデアは、現在のデータウェアハウスアーキテクチャ建物を変更することですガイドが、トップダウンかボトムアップのデータウェアハウスの構築ではなく、団結。


機能の数に基づいて、大規模なデータウェアハウスの構築


私たちはIT時代からのDTの時代に移動すると、データはまた、インターネットの発展を伴って蓄積量が、増加して、シナリオが増えて生成された、従来のデータ処理は、保存方法は、需要を満たすことはできません。インターネット業界では、データウェアハウスを構築するためにビッグデータに基づいて、より複雑なアプリケーションのシナリオ、従来のインターネット業界と新しいものの業界で受け入れに比べて高いが初の試みとなっています。


データウェアハウスのモデリング手法は同じですが、業界では、大規模なデータフローを構築し、データウェアハウスに基づいて、インターネットの分野では、場面に直面しているので、元のプロジェクトに従うことができない、開発モデル、組み合わせる必要のよりが需要志向に迅速に対応するように調整新技術システム、柔軟なビジネスシナリオ。


アプリケーションシナリオの広い範囲


1)従来のビンDSS、CRM、BIシステム、あまり厳しい熟成長い建設期間、安定性要件、の数。


2)大迅速応答ニーズの構築のためのデータウェアハウスのデータ要件に基づいて、一方の需要柔軟、変更、DSS、BIおよび他の伝統的な用途を除いて、リアルタイム要件の程度が変化するだけでなく、ユーザの肖像に応答して、パーソナライズされた推薦、機械学習、データ分析やその他の複雑なシナリオ。


テクノロジー・スタック、より包括的かつ複雑な


従来の倉庫には、Teradataの、オラクル、インフォマティカおよび他の比較的洗練された技術システムとして実績のあるデータ統合プラットフォームに基づいて、ビジネスのより多くの数を構築するが、比較的閉鎖され、技術的、専門的な要件の加害者は、比較的単純な、より一般的なアプリケーションです銀行、保険、通信、その他の「お金」業界インチ

、非商用、オープンソース技術に基づいており、一般的にいくつかの大規模なデータウェアハウスの構築に構築された生態系の共通のHadoopに基づいており、より広範な技術と複合体を伴う、商用製品に関して、安定性、およびサービスサポートと同時に弱く、より独自のメンテナンスを必要とします多くの技術的なフレームワーク。


第三に、技術スタックの変更

 




より柔軟な数値倉庫モデルの設計

1箇所の伝統的な数は、より安定的なビジネスシナリオと、比較的信頼性の高いデータ品質を持っているだけでなく、いくつかの位置の建設のためのより安定した需要がより完全なプロジェクトのプロセス管理とコントロールを持っている、倉庫モデルのデザインの数は、厳格かつ安定した建築基準があります。

インターネット業界では2:

インターネットが可能な産業がある一方、1)業界、ビジネスの柔軟性の急速な変化、速度に依存しています


データソースの2)多種多様な構造化データベース、nginxのログ、ユーザのブラウジング軌道、非構造化および半構造化データ


3)データの品質が比較的悪く、不均一なレベル


だから、インターネットの分野では、ウェアハウス設計モデルの数は、より迅速にビジネスや運用上の問題指向、高速なデータアクセス、迅速なサービスへのアクセスを解決するために、市場の変化に柔軟、迅速な応答と応答についてもっと心配ありませんが、一度、すべての一切あり。


第四に、アプリケーションとの見通しデータウェアハウスの適用範囲

既存倉庫の数を意味




主にインターネット業界で使用されているデータに基づいて第五に、大規模なデータウェアハウス


おすすめ

転載: blog.51cto.com/14485508/2426997