ビッグデータのオフライン分析の完全なプロセス

1. ビッグデータのオフライン分析の完全なプロセスは通常、

1. データ収集: さまざまなソースからデータを収集します。利用可能なコンポーネントは次のとおりです。
Flume: 大量のデータを効率的に収集、集約、移動します。
Kafka: ストリーミング データの収集、保存、送信に使用されます。
Sqoop: リレーショナル データベースから Hadoop にデータをインポートするために使用されます。

2. データの前処理: 収集されたデータのクリーンアップ、重複排除、フィルタリングなどを行います。使用できるコンポーネントには次のものがあります。
Hadoop MapReduce: データの分散処理と変換用。
Pig: 大規模データのデータ分析と変換用。
Hive: データ ウェアハウジングとデータ分析に使用され、SQL ステートメントを MapReduce タスクに変換できます。

3. データ ストレージ: 前処理されたデータを HDFS またはその他の分散ストレージ システムに保存します。使用できるコンポーネントには次のものがあります。
HDFS: Hadoop 分散ファイル システム。
HBase: 大規模なデータ セットをリアルタイムで読み書きするための分散列ストア データベース。
Cassandra: 高可用性、高性能ビッグ データ ストレージ用の分散 NoSQL データベース。

4. データ分析: HDFS に保存されている大規模なデータ セットを分析します。使用できるコンポーネントは次のとおりです。
Spark: 大規模なデータ処理と分析に使用され、複数のデータ ソースとデータ形式をサポートします。
Mahout: 機械学習モデルの構築とデプロイ用。
Flink: ストリーミングおよびバッチ データの処理と分析用。

5. データの視覚化: 分析結果を視覚的に表示します。利用可能なコンポーネントは次のとおりです。
Tableau: データの視覚化と対話型分析用。
Power BI: データの視覚化とレポート用。
D3.js: Web ベースのデータ視覚化用。

2. 余談: データ ウェアハウス

データ ウェアハウスは論理的にのみ階層化されており、物理的に階層化されておらず、データベース テーブル名によって区別できます。
DW は主題指向であり、データが統合されており、比較的安定している必要があり、歴史的な変化を反映できる必要があります。データ ウェアハウスのデータ品質などの他の問題については後ほど説明するとして、ここではいくつかの簡単な概念について説明します。
データ ウェアハウスには通常、ODS、DWD、DWM、DIM、DWS、DM (ADS) レイヤーの 5 つのレイヤーがあります。

ビッグ データ コンポーネント Hiveは、データ ウェアハウス ODS、DWD、DWM、DIM、および DWS レイヤー
の DM (ADS) レイヤーとして使用できます。DM レイヤーは、通常、MySQL、Clickhouse、そしてドリス。

ODS、DWD: 3NF モデリング。
DIM: 時間ディメンション、地域ディメンション、品質ディメンションなど、さまざまなディクショナリ テーブルと同様。
DWM、DWS、DM: 次元モデリング。

データ解析モデル:スターモデル(一般的に使用されるモデル)、スノーフレークモデル、星座モデル

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/Wxh_bai/article/details/129971179