学習ドキュメント: [フロンティア] データレイクを 1 つの記事で詳しく説明 - Wisdom Yuyi (オリジナルではありません)
データレイクの定義
- 十分なデータストレージ容量があること
- 構造化データ、構造化データ、非構造化データを含むあらゆるタイプのデータを保存可能
- データはすべて生データです
- データ管理機能がある
- 多彩な分析力を保有
- 完全なデータライフサイクル管理機能を備えています(さまざまなタイプの処理の中間結果の保存、データ分析と処理プロセスの記録)
- 完全なデータ取得および公開機能を備えています (さまざまなデータ ソースをサポートし、さまざまなアクセス要件をサポートしています)
- スケーラブルな大規模ストレージと処理機能
データレイクの基本的な特徴
- データの「忠実性」: 元のデータのコピーをデータ レイクに保存する必要がある
- データの「柔軟性」: 「読み取りベースのスキーマ」を重視し、柔軟性を維持し、設計を延期します。
- データは「管理可能」です: データ ソース、データ接続、データ形式、データ スキーマ、およびデータ権限管理機能
- データの「トレーサビリティ」: データのアクセス、保存、処理、消費のプロセスを追跡できます。
- リッチ コンピューティング エンジン: 少なくともバッチ処理、ストリーミング コンピューティング、インタラクティブ コンピューティング、機械学習などをサポートする必要があります。
- マルチモーダル ストレージ エンジン: さまざまな応答時間、同時実行性、アクセス頻度、コスト、その他の要素の要件を満たすことができるマルチモーダル ストレージ エンジン
データレイクの基本アーキテクチャ
- 第 1 段階: Hadoop に代表されるオフライン データ処理インフラストラクチャ (Tez、Spark、Presto、DAG モデルなどのコンピューティング エンジン、KV 操作用の HBase、SQL 操作用の Hive)
- 第 2 段階: Lambda アーキテクチャ、ストリームとバッチの統合 (Storm、Spark Streaming、Flink などのストリーミング コンピューティング)
- 第 3 段階: Kappa アーキテクチャ
データレイクのデータ管理コンポーネント
データ アクセス、データ移行、データ ガバナンス、品質管理、資産カタログ、アクセス制御、タスク管理、タスク オーケストレーション、メタデータ管理
さまざまなベンダーのデータ レイク ソリューション
メーカー | データアクセス | データストレージ | コンピューティングエンジン |
---|---|---|---|
AWS | クラウド上のデータソース | S3 | SQL、Sparkストリーム処理(GLUE) |
ファーウェイ | クラウド データ ソース、クロスクラウド データ アクセス、ストリーミング データ | OBS | SQL、Spark、Flink |
アリ | クラウド データ ソースと自己構築データベース | OSS | SQL、スパーク |
アズール | クラウド上のデータソース | Azure オブジェクト ストレージ | U-SQL、Haddop、Spark |
データウェアハウス/データミドルプラットフォーム構築の基本プロセス
- データマッピング: データソース、データタイプ、データ形式、データパターン、総データ量とデータ増分などを明確にします。
- モデルの抽象化: さまざまな種類のデータを整理および分類して、データ管理用のメタデータを形成します。
- データアクセス
- 統合ガバナンス: データを処理してさまざまな中間データ/結果データを形成する
- ビジネス支援
データレイクの将来の方向性
- クラウド ネイティブ アーキテクチャ: ストレージとコンピューティングの分離、マルチモーダル コンピューティング エンジンのサポート、サーバーレス サービスの提供
- データ管理機能: データ ソース管理、データ カテゴリ管理、処理フロー オーケストレーション、タスク スケジューリング、データ トレーサビリティ、データ ガバナンス、品質管理、権限管理など。
- データベース エクスペリエンス、データ レイクの機能を SQL 形式でリリース
- 完全かつ視覚的でスケーラブルな統合開発環境
- ビジネスとの深い統合と統合