【ビッグデータアプリ開発】ビッグデータのコンセプト

1.ビッグデータの概念

ウィキペディアの定義:
ビッグデータとは、一般的なソフトウェアツールを使用して、許容時間よりも長いデータをキャプチャ、管理、処理するデータセットを指します。

2.ビッグデータ4V機能

  • ボリューム:巨大なボリューム
  • 速度:高速処理速度
  • 多様性:多くのタイプ(構造化、半構造化、非構造化)
  • 値:低い値の密度

3.ビッグデータの主流技術

  • データ収集前処理
  1. Flumeはストリーミングログデータを収集できます
  2. sqoopはリレーショナルデータベースと対話してデータをインポートおよびエクスポートできます
  3. クローラー技術を使用して、インターネット上の大量のWebデータをクロールできます
  • データの保存と管理
    ビッグデータは、分散ファイルシステムHDFS、HBase、およびHiveを利用して、構造化、半構造化、および非構造化データを保存および管理します。
  • データの処理と分析
    分散並列プログラミングモデルとコンピューティングフレームワークを、機械学習とデータマイニングアルゴリズムと組み合わせて使用​​して、大量のデータの処理と分析を実現します。

4.ビッグデータアプリケーション

ここに画像の説明を挿入

5.シーンソリューション:

1.オフラインバッチ処理

1.1コンセプト:

オフラインバッチ処理とは、大量の履歴データを処理および分析して、次のデータアプリケーションの結果データを生成するプロセスを指します。
オフラインバッチ処理では、データ処理に長いレイテンシは必要ありませんが、処理されるデータの量は多く、大量のコンピューティングストレージリソースを消費します。通常、これは、MR操作、Spark操作、またはHQL操作を通じて実装されます。

1.2機能:

  • 低い処理時間要件
  • 膨大なデータ量
  • さまざまな形式のデータの処理
  • より多くのコンピューティングストレージリソースを占有する

1.3フローチャート

ここに画像の説明を挿入

2.リアルタイム検索

2.1コンセプト:

つまり、リアルタイム検索とは、システム内の一部の情報をキーワードに従って瞬時にすばやく検索し、インスタント検索の効果を達成することです。重要なのは、リアルタイムの低レイテンシです。

2.2コアアピール

  • 高い検索パフォーマンス要件
  • 高同時クエリ
  • 大量のデータ
  • 構造化および非構造化をサポート
  • 効率的なデータ読み込み
  • グラフ検索をサポート

2.3フローチャート

ここに画像の説明を挿入

3.リアルタイムストリーム処理

3.1コンセプト:

リアルタイムストリーム処理とは、通常、リアルタイムデータソースがすばやく分析され、次のアクションがすばやくトリガーされるシナリオを指します。リアルタイムデータは、非常に高い分析と処理速度、巨大なデータ処理スケール、およびCPUとメモリに対する高い要件を必要としますが、通常、データは着陸せず、ストレージ容量も大きくありません。リアルタイム処理は通常、構造化ストリーミングまたはFlinkタスクによって実現されます。

3.2異議申し立て:

  • 高速データ処理
  • 高スループット
  • 強い耐衝撃性
  • 高い信頼性
  • 水平拡張
  • マルチデータソースのサポート
  • データの権限とリソースの分離
  • サードパーティツールのドッキング

3.3フローチャート

ここに画像の説明を挿入

4.データウェアハウスの融合

4.1コンセプト:

データが大量のデータ処理量、低いデータ処理遅延、多様な​​データ処理フォーマットの要件を徐々に提示しているため、モジュール式ストレージに基づくデータウェアハウスの重要性が高まっていますが、新しい問題も発生しています。
精密マーケティング、顧客の肖像画、インターネットプラットフォームなどのサービスの開始に伴い、非構造化データを導入し、リアルタイムデータの計算および処理能力を向上させる必要があります。上記のビジネスニーズを満たすためには、ビッグデータプラットフォームを確立する必要があります。

4.2異議申し立て

  • 統合データストレージ
  • データのサイロと冗長性を削減
  • 1つの統合(古いビジネスと新しいビジネスをシームレスに統合できます)
  • 大きなクラスター

4.3フローチャート

ここに画像の説明を挿入

元の記事を30件公開 9 件を獲得 1120件を訪問

おすすめ

転載: blog.csdn.net/TKE_Yolanda/article/details/105494715