1.ビッグデータの概念
ウィキペディアの定義:
ビッグデータとは、一般的なソフトウェアツールを使用して、許容時間よりも長いデータをキャプチャ、管理、処理するデータセットを指します。
2.ビッグデータ4V機能
- ボリューム:巨大なボリューム
- 速度:高速処理速度
- 多様性:多くのタイプ(構造化、半構造化、非構造化)
- 値:低い値の密度
3.ビッグデータの主流技術
- データ収集前処理
- Flumeはストリーミングログデータを収集できます
- sqoopはリレーショナルデータベースと対話してデータをインポートおよびエクスポートできます
- クローラー技術を使用して、インターネット上の大量のWebデータをクロールできます
- データの保存と管理
ビッグデータは、分散ファイルシステムHDFS、HBase、およびHiveを利用して、構造化、半構造化、および非構造化データを保存および管理します。 - データの処理と分析
分散並列プログラミングモデルとコンピューティングフレームワークを、機械学習とデータマイニングアルゴリズムと組み合わせて使用して、大量のデータの処理と分析を実現します。
4.ビッグデータアプリケーション
5.シーンソリューション:
1.オフラインバッチ処理
1.1コンセプト:
オフラインバッチ処理とは、大量の履歴データを処理および分析して、次のデータアプリケーションの結果データを生成するプロセスを指します。
オフラインバッチ処理では、データ処理に長いレイテンシは必要ありませんが、処理されるデータの量は多く、大量のコンピューティングストレージリソースを消費します。通常、これは、MR操作、Spark操作、またはHQL操作を通じて実装されます。
1.2機能:
- 低い処理時間要件
- 膨大なデータ量
- さまざまな形式のデータの処理
- より多くのコンピューティングストレージリソースを占有する
1.3フローチャート
2.リアルタイム検索
2.1コンセプト:
つまり、リアルタイム検索とは、システム内の一部の情報をキーワードに従って瞬時にすばやく検索し、インスタント検索の効果を達成することです。重要なのは、リアルタイムの低レイテンシです。
2.2コアアピール
- 高い検索パフォーマンス要件
- 高同時クエリ
- 大量のデータ
- 構造化および非構造化をサポート
- 効率的なデータ読み込み
- グラフ検索をサポート
2.3フローチャート
3.リアルタイムストリーム処理
3.1コンセプト:
リアルタイムストリーム処理とは、通常、リアルタイムデータソースがすばやく分析され、次のアクションがすばやくトリガーされるシナリオを指します。リアルタイムデータは、非常に高い分析と処理速度、巨大なデータ処理スケール、およびCPUとメモリに対する高い要件を必要としますが、通常、データは着陸せず、ストレージ容量も大きくありません。リアルタイム処理は通常、構造化ストリーミングまたはFlinkタスクによって実現されます。
3.2異議申し立て:
- 高速データ処理
- 高スループット
- 強い耐衝撃性
- 高い信頼性
- 水平拡張
- マルチデータソースのサポート
- データの権限とリソースの分離
- サードパーティツールのドッキング
3.3フローチャート
4.データウェアハウスの融合
4.1コンセプト:
データが大量のデータ処理量、低いデータ処理遅延、多様なデータ処理フォーマットの要件を徐々に提示しているため、モジュール式ストレージに基づくデータウェアハウスの重要性が高まっていますが、新しい問題も発生しています。
精密マーケティング、顧客の肖像画、インターネットプラットフォームなどのサービスの開始に伴い、非構造化データを導入し、リアルタイムデータの計算および処理能力を向上させる必要があります。上記のビジネスニーズを満たすためには、ビッグデータプラットフォームを確立する必要があります。
4.2異議申し立て
- 統合データストレージ
- データのサイロと冗長性を削減
- 1つの統合(古いビジネスと新しいビジネスをシームレスに統合できます)
- 大きなクラスター