ビッグデータ|データレイクの基本概念【学習ノート】

学習ドキュメント: [フロンティア] データレイクを 1 つの記事で詳しく説明 - Wisdom Yuyi (オリジナルではありません)


データレイクの定義
  • 十分なデータストレージ容量があること
  • 構造化データ、構造化データ、非構造化データを含むあらゆるタイプのデータを保存可能
  • データはすべて生データです
  • データ管理機能がある
  • 多彩な分析力を保有
  • 完全なデータライフサイクル管理機能を備えています(さまざまなタイプの処理の中間結果の保存、データ分析と処理プロセスの記録)
  • 完全なデータ取得および公開機能を備えています (さまざまなデータ ソースをサポートし、さまざまなアクセス要件をサポートしています)
  • スケーラブルな大規模ストレージと処理機能
データレイクの基本的な特徴
  • データの「忠実性」: 元のデータのコピーをデータ レイクに保存する必要がある
  • データの「柔軟性」: 「読み取りベースのスキーマ」を重視し、柔軟性を維持し、設計を延期します。
  • データは「管理可能」です: データ ソース、データ接続、データ形式、データ スキーマ、およびデータ権限管理機能
  • データの「トレーサビリティ」: データのアクセス、保存、処理、消費のプロセスを追跡できます。
  • リッチ コンピューティング エンジン: 少なくともバッチ処理、ストリーミング コンピューティング、インタラクティブ コンピューティング、機械学習などをサポートする必要があります。
  • マルチモーダル ストレージ エンジン: さまざまな応答時間、同時実行性、アクセス頻度、コスト、その他の要素の要件を満たすことができるマルチモーダル ストレージ エンジン
データレイクの基本アーキテクチャ
  • 第 1 段階: Hadoop に代表されるオフライン データ処理インフラストラクチャ (Tez、Spark、Presto、DAG モデルなどのコンピューティング エンジン、KV 操作用の HBase、SQL 操作用の Hive)
  • 第 2 段階: Lambda アーキテクチャ、ストリームとバッチの統合 (Storm、Spark Streaming、Flink などのストリーミング コンピューティング)
  • 第 3 段階: Kappa アーキテクチャ
データレイクのデータ管理コンポーネント

データ アクセス、データ移行、データ ガバナンス、品質管理、資産カタログ、アクセス制御、タスク管理、タスク オーケストレーション、メタデータ管理

さまざまなベンダーのデータ レイク ソリューション
メーカー データアクセス データストレージ コンピューティングエンジン
AWS クラウド上のデータソース S3 SQL、Sparkストリーム処理(GLUE)
ファーウェイ クラウド データ ソース、クロスクラウド データ アクセス、ストリーミング データ OBS SQL、Spark、Flink
アリ クラウド データ ソースと自己構築データベース OSS SQL、スパーク
アズール クラウド上のデータソース Azure オブジェクト ストレージ U-SQL、Haddop、Spark
データウェアハウス/データミドルプラットフォーム構築の基本プロセス
  1. データマッピング: データソース、データタイプ、データ形式、データパターン、総データ量とデータ増分などを明確にします。
  2. モデルの抽象化: さまざまな種類のデータを整理および分類して、データ管理用のメタデータを形成します。
  3. データアクセス
  4. 統合ガバナンス: データを処理してさまざまな中間データ/結果データを形成する
  5. ビジネス支援
データレイクの将来の方向性
  • クラウド ネイティブ アーキテクチャ: ストレージとコンピューティングの分離、マルチモーダル コンピューティング エンジンのサポート、サーバーレス サービスの提供
  • データ管理機能: データ ソース管理、データ カテゴリ管理、処理フロー オーケストレーション、タスク スケジューリング、データ トレーサビリティ、データ ガバナンス、品質管理、権限管理など。
  • データベース エクスペリエンス、データ レイクの機能を SQL 形式でリリース
  • 完全かつ視覚的でスケーラブルな統合開発環境
  • ビジネスとの深い統合と統合

おすすめ

転載: blog.csdn.net/Changxing_J/article/details/133106574