データ ガバナンス プロフェッショナル認定 CDMP 学習ノート (マインド マップと知識ポイント) - 第 5 章 データ モデリングと設計...

皆さんこんにちは。私は元港湾石炭労働者で、現在は国有企業のビッグデータ担当者として、公式アカウントのビッグデータフローのマネージャーとして働いているDugufengです。会社のニーズとビッグデータの発展傾向のため、ここ 2 年間でデータ ガバナンスについて学び始めました。

データ ガバナンスを真に習得するには体系的な学習が必要であり、データ ガバナンスの学習能力と知識の習熟を証明するには専門試験の認定も必要です。データ ガバナンスおよびデータ ガバナンス認定 CDMP について質問がある場合は、私の以前の記事で詳細な紹介を参照してください。

データガバナンスの始め方を5000語で解説(国際データガバナンス認定試験・CDMPスタディグループ付き)

CDMP とは正確には何ですか - データ ガバナンスの国際認証への超包括的な入門書

総テキスト数: 6099 ワード、写真 10 枚

推定読了時間: 16 分

このドキュメントは、データ ガバナンスに関する学習資料の照合に基づいており、データ ガバナンス プロフェッショナル認定資格 CDMP の学習ノート (マインド マップとナレッジ ポイント)用に照合されています。

記事が長いのでブックマークしてから読むことをお勧めします。

以降のドキュメントについては、公式アカウントのビッグデータフローに注意して、更新を続けてください~

このドキュメントは、データ モデリングと設計のメモ、マインド マップ、およびナレッジ ポイントの一部です6 つのパートに分かれていますが、ページ表示の都合上、一部の階層を展開しきれない部分があります。その構造を下図に示します。

dd5fa83c1c774fa229a749f8f6795daa.png

1. データモデルとデータモデリング

データ モデリングの定義: データ要件を発見、分析、決定し、それらのデータ要件をデータ モデルと呼ばれる正確な形式で表現して伝達するプロセス。このプロセスは反復的であり、概念モデル、論理モデル、物理モデルが含まれる場合があります。

データ モデルは、組織が資産を理解するのに役立ちます。

6 つの一般的なデータ モデルがあります。 1. リレーショナル モデル。2. 多次元モード。3. オブジェクト指向モード。4. ファクトモード。5. 時系列モデル。6. NoSQL モード。詳細な説明のさまざまなレベルに従って、次のように分類できます。 概念モデル。論理モデル。物理モデル。

データ モデリングと設計の意味関係図は次のとおりです。

3d0d68c3103acaf5ced17a487ffc99fe.png

ビジネス推進要因: 1) データに関する一般的な用語を提供します。2) 組織内のデータやシステムに関する詳細情報を取得し、記録する。3) プロジェクト内の主要なコミュニケーション ツールとして。4) アプリケーションのカスタマイズ、統合、さらには置き換えの開始点を提供します。

データ モデルはメタデータの重要な形式です。

データ モデリングと設計の目標: さまざまな観点からデータ要件の理解を確認および記録し、アプリケーションが現在および将来のビジネス ニーズにより適合していることを確認し、より多くのデータ アプリケーションやマスター データなどのデータ管理の基礎を築くこと管理およびデータ ガバナンス プロジェクト。

データのモデリングと設計の役割、さまざまな観点からデータ要件の理解を確認および記録することは、次の目的に役立ちます。 1. データの構造のフォーマットと標準化。2. 範囲を定義し、境界を定義します。3. 知識の保持記録。情報の保持。

データ モデリングと設計アクティビティ: 1 データ モデリングを計画します。2 データ モデルを構築します (概念的、論理、物理モデルを作成します)。3 データ モデルを確認します。4 データモデルを保守します。

入力: 既存のデータ モデルとデータベース。データ標準。データセット。初期データ要件。生データの要件。データアーキテクチャ。ビジネス分類。成果物: 概念的、論理的、物理的なデータ モデル。

メソッド: 命名規則。データベース設計仕様。データベースの種類の選択。

ツール: データモデリングツール。データリネージツール。データ分析ツール。メタデータ リポジトリ (データ モデルに関する説明情報を保存します)。データ モデル パターン (基本パターン、スイート パターン、統合パターン)。業界データモデル。

メトリクス: データモデル検証メトリクス。

理解しやすいように、この部分のマインドマップを次のように整理します。

86e032faef15ff71a581291812b632fc.png

2. 基本的な考え方

1. モデル化されたデータ型

モデル化されたデータ型:

1 カテゴリ情報。色や型番など、物を分類したり種類を割り当てたりするデータ。

2 リソース情報、製品や顧客などの運用プロセスを実装するために必要な基本データ。リソース エンティティは参照データと呼ばれることもあります。

3 ビジネス イベント情報、顧客の注文などの業務中に作成されるデータ。

4 販売システムやセンサーによって生成される詳細な取引情報。トレンド分析やビッグデータに使用されます。これら 4 種類は静的データですが、システムのスキームなど一部の動的データもモデル化できます。

2. データモデルのコンポーネント

データ モデル コンポーネント: エンティティ、関係、属性、ドメイン。

【実在物】

実体:他のものとは異なるもの。

誰が、何を、いつ、どこで、なぜ、どのように測定するかを説明します。

エンティティの別名はモデルの種類によって異なります。リレーショナル モデルは「エンティティ」を使用し、ディメンション モデルは「ディメンション」と「ファクト テーブル」を使用し、オブジェクト指向型は「クラス」または「オブジェクト」を使用し、基本時間モデルは「センター」、「サテライト」、および「 「リンク」、リレーショナル型は「ファイル」、「ノード」を使用します。エンティティのエイリアスは、概念モデルでは「概念」および「用語」と呼ばれます。これらは、論理モデルでは「エンティティ」と呼ばれます。物理モデルでは「テーブル」と呼ばれます。エンティティの定義はコア メタデータに属します。

これは一般に長方形で表され、長方形の中央はエンティティ名、エンティティおよびエンティティ インスタンスです。エンティティ インスタンスは、特定のエンティティの具体化または値です。

高品質のデータ定義には、明確さ、正確さ、完全性という3 つの特徴があります。

【関係】

関係とは、エンティティ間の関連付けです。関係は、概念的なエンティティ間の高レベルの相互作用、論理的なエンティティ間の詳細な相互作用、および物理的なエンティティ間の制約をキャプチャします。関係には、ディメンション モデルでは「ナビゲーション パス」が使用され、NoSQL では「境界」や「リンク」が使用されます。概念的および論理レベルでは「関係」を使用し、物理レベルでは「制約」と「参照」を使用します。関係は、データ モデリング図上で線として表されます。

関係のカーディナリティ: エンティティが他のエンティティと参加する関係の数を示します。「0、1、たくさん」があります。

関係のアリティ:関係に関与するエンティティの数。一方向の関係、双方向の関係、三方向の関係。単項関係: 再帰的関係、自己参照関係。1 対多: 階層関係。多対多: ネットワーク関係またはグラフ。二項関係: 2 つのエンティティが関与する関係。三項関係: 3 つのエンティティが関与する関係。

外部キー 外部キー: 物理モデル モデリングにおける関係を表し、データベース内に外部キーを確立して関係を定義します。

【属性】

属性 属性: エンティティの側面の性質を定義、説明、または測定します。属性にはドメインが含まれる場合があります。属性は、図では実線の長方形内のリストとして表されます。エンティティ内の属性の物理的表現は、テーブル、ビュー、ドキュメント、グラフ、またはファイル内の列、フィールド、タグ、またはノードです。

識別子(キー) は、エンティティ インスタンスを一意に識別する 1 つ以上の属性のコレクションです。キー構造は、単一キー、結合キー、複合キー、代理キーに分けることができ、機能に応じて候補キー、主キー、予備キーに分けることができます。

キー構造のタイプ:単一キー: エンティティ インスタンスを一意に識別するプロパティ。サロゲートキー: これも単一のキーであり、テーブルの一意の識別子であり、通常はカウンターであり、システムによって自動的に生成されます。整数であり、意味は値とは何の関係もなく、技術的なものであり、ユーザーに表示されるべきではありません。複合キー: エンティティ インスタンスを一意に識別する 2 つ以上の属性のセット。複合キー: 組織キーと、少なくとも 1 つの他の単一キー、複合キー、または非キー属性が含まれます。

キーの機能タイプ:スーパーキー: エンティティのインスタンスを一意に識別する属性のセット。候補キー: エンティティ インスタンスを識別する属性の最小セット。これには 1 つ以上の属性が含まれる場合があります。最小限とは、候補キーの任意のサブセットがエンティティ インスタンスを一意に識別できないことを意味します。エンティティは複数の候補キーを持つことができます。候補キーはビジネス キー (自然キー) にすることができます。ビジネス キー: ビジネス専門家が単一のエンティティ インスタンスを取得するために使用する 1 つ以上の属性。ビジネス キーと代理キーは相互に排他的です。主キー: エンティティの一意の識別子として選択される候補キー。代替キー: これは、一意であるものの主キーとして選択されていない候補キーであり、特定のエンティティ インスタンスを検索するために使用できます。

スタンドアロン エンティティ:主キーには、そのエンティティに属する属性のみが含まれており、四角形のシンボルで表されます。非独立エンティティとは、その主キーに別のエンティティの少なくとも 1 つの属性が含まれており、少なくとも 1 つの識別関係が角丸四角形で表されていることを意味します。

【エリア】

ドメイン ドメイン:属性に割り当てることができるすべての値。属性の特徴を正規化する方法を提供します。有効な値と無効な値。ドメインは、制約と呼ばれる追加のルールによって制限できます。

ドメインは、1. データ型 2. データ形式 3. リスト 4. 範囲 5. ルールベースなど、さまざまな方法で定義できます。

3. データモデリング手法

一般的な 6 つのデータ モデリング手法は、リレーショナル モデリング、次元モデリング、オブジェクト指向モデリング、ファクトベース モデリング、時間ベース モデリング、および非リレーショナル モデリングです各モデリング方法は、特定の表記法で表現されます。

c90c4bfc4c7d42ed7fa98e11174379ca.png

【リレーショナルモデリング】

リレーショナル モデル設計の目的は、ビジネス データを正確に表現し、冗長性を排除することです。最も一般的な方法は、カーディナリティを表すために三点線(アヒルの足モデル)を使用する情報工学的手法です。

【次元モデリング】

次元モデリングは、大量のデータのクエリと分析を最適化するために使用されます。軸表記を使用してモデル化されています。このモデル内のエンティティ間の線は、ビジネス上の問題を説明するために使用されるナビゲーション パスを表しています。

ファクト テーブル:行は、金額などの特定の数値メジャーに対応します。ファクト テーブルはデータ内のスペースの大部分を占め、多数の行が含まれます。

ディメンション テーブル:ビジネスの重要なオブジェクトを示し、主にテキストによる説明が保持されます。ディメンションは、ファクト テーブルへのエントリ ポイントまたはリンクです。クエリまたはレポート制約の主なソースとして機能します。反パラダイム性が高く、全体の約10%を占める。各ディメンションには、各行に一意の識別子 (主に代理キーと自然キー) があります。次元にもプロパティがあります。グラデーション ディメンションは、変更の割合とタイプに基づいて変更を管理します。主な変更は、カバレッジ、新しい行、新しい列です。

スノーフレーキング:スター スキーマのフラット、単一テーブル、ディメンション構造を、対応するコンポーネント階層またはネットワーク構造に正規化します。

粒度:ファクト テーブル内の 1 行のデータの意味または説明、各行が持つ最も詳細な情報。重要なステップの 1 つ。

一貫したディメンション:組織全体に基づいて、これらのディメンションをさまざまなモデル間で共有できます。

一貫した事実:複数のデータ マートにわたって標準化された用語を使用します。

【UML】

UML: Unified Modeling Language、グラフィカル スタイルのモデリング言語。

UML はクラス (エンティティ タイプ) とそれらの間の関係を指定します。

【事実に基づいたモデリング】

ファクトベース モデリング (FBM) は、概念モデリング言語です。

1. オブジェクトのロール モデリング。2. 完全なコミュニケーション指向のモデリング。

【時間ベースのデータモデル】

時間ベースのモデリングは、データ値を時系列で特定の時間値に関連付ける必要がある場合に使用されます。

データ保管庫: 中央テーブル/リンク テーブル/サテライト テーブル。エンタープライズ データ ウェアハウスのニーズを満たすように特別に設計されています。

アンカー モデリング:情報の構造とコンテンツが時間の経過とともに変化する状況に適しています。一時データを処理するために拡張できる概念モデリング用のグラフィカル言語を提供します。これには、アンカー、属性、接続、ノードという 4 つの基本的なモデリング概念があります。アンカーはエンティティとイベントをシミュレートします。プロパティはアンカーの特性を模倣します。リンクはアンカー間の関係を表します。ノードは共有プロパティをシミュレートします。

[非リレーショナルモデリング]

非リレーショナル データベース: ドキュメント データベース。キーと値のデータベース。カラムデータベース。グラフデータベース。

4. データモデルのレベル

データ モデル レベル: 1 概念モデル。2 アウトサイドモード。3つの内部モード。

これら 3 つのレベルは、概念レベル、論理レベル、物理レベルです。

【概念的データモデル-CDM】

プロファイル データ要件を説明するための関連する主題領域のコレクション。

【論理データモデル-LDM】

データ要件の詳細な説明。

【物理データモデル-PDM】

詳細な技術ソリューション。論理モデルに基づいて、特定のハードウェア、ソフトウェア、ネットワーク ツールと照合されます。

物理データ モデルでは以下を指定する必要があります。

1. 仕様モデル。

2. 表示します。

3. パーティション。(横分割、縦分割)

4. 反計画。

非正規化: ① 事前に他の複数のテーブルのデータを結合して、コストのかかる実行時の結合を回避します。

② 事前にフィルタリングされた小さいデータのコピーを作成して、コストのかかるランタイム計算や大きなテーブルのスキャンを削減します。

③ 実行時のシステムリソースの競合を避けるために、高価なデータの計算結果を事前に計算して保存します。

5. 標準化

正規化は、ルールを使用して複雑なサービスを標準化されたデータ構造に変換するプロセスです。

正規化の基本的な目的は、冗長性や冗長性によって引き起こされる不一致を排除するために、各属性が 1 つの位置のみに表示されるようにすることです。

第一正規形 1NF:すべてのエンティティには有効な主キーがあり、すべての属性は主キーに依存します。

第 2 正規形 2NF:すべてのエンティティには最小限の主キーがあり、すべての属性は完全な主キーに依存します。

第 3 正規形 3NF:各エンティティには隠された主キーがなく、属性はキー値以外の属性に依存しません (完全な主キーのみに依存します)。モデルの正規化には通常、第 3 正規形に到達する必要があります。

Boyce/Codd Normal Form (BCNF):交差複合候補キー問題を解きます。候補キーは主キーまたは代替キーのいずれかです。

第 4 正規形 4NF:すべての三項関係を、それ以上分割できなくなるまで二項関係に分解します。

第 5 正規形 5NF:エンティティ内の依存関係をバイナリ関係に分解し、すべての接続がいくつかの主キーに依存します。

6. 抽象化

抽象化は、詳細を削除し、一般化と特殊化を含む拡張機能の適用性を向上させるプロセスです

一般化は親クラスを抽象化することであり、特殊化は属性を区別してサブクラスを見つけることです。

理解しやすいように、この部分のマインドマップを次のように整理します。

a3805481dc828f3e13bfb8ee54190207.png

3. 活動内容

1. データモデリングの計画

データ モデリングを計画するための成果物: 1. 図。2. 定義。3. 論争と未解決の問題。4. 血の関係: ソース/ターゲットのマッピングの形式で表示されます。

2. データモデルを構築する

【フォワードエンジニアリング】

要件から始まる新しいアプリケーションを構築するプロセス。概念的 - 論理的 - 物理的。

概念的なデータ モデルのモデリング: 1 モデル タイプを選択します。2 表現方法を選択します。3 初期の概念モデルを完成させます。4 組織内の最上位の概念を収集します。5 これらの概念に関連するアクティビティを収集します。6 会社規約の統合。7 署名してもらいます。

論理データ モデルのモデリング: 1 情報要件を分析します。2 既存のドキュメントを分析します。3 関連するエンティティを追加します。4 プロパティを追加します。5 ドメインを指定します。6 キーを指定します。

物理データ モデルのモデリング: 1. 論理的な抽象化 [サブタイプの吸収。スーパータイプのパーティション。] 2. 属性の詳細を追加します。 3. 参照データ オブジェクトを追加します。 4. サロゲート キーを指定します。 5. 非正規化します。 6. インデックスを構築します。 7. パーティションを作成します。 8. ビューを作成します。

【リバースエンジニアリング】

既存のデータベースを文書化するプロセスでは、ほとんどのモデリング ツールがさまざまなデータベースのリバース エンジニアリングをサポートしています。

3. データモデルを確認する

価値を実現する時が来ました。サポート費用。データ モデル品質検証ツール (データ モデル スコアカード)。正確さ、完全性、一貫性を評価します。

4. データモデルの保守

データ モデルの維持: データ モデルは最新の状態に保つ必要があります。

理解しやすいように、この部分のマインドマップを次のように整理します。

a5c2934cf94e785040fa92662d63339e.png

4. ツールと方法

【道具】

1. データモデリングツール

2. データリネージツール

3. データ分析ツール

4. メタデータデータベース

5. データモデルモード

6. 業界データモデル

【方法】

1. 命名規則のベスト プラクティス

2. データベース設計のベスト プラクティス

データベース設計のベスト プラクティス - PRISM 設計原則: 1 パフォーマンスと使いやすさ。2 再利用性。3 誠実さ。4 セキュリティ。5 メンテナンス性。

理解しやすいように、この部分のマインドマップを次のように整理します。

f889bba8eb7ce54e5144de5658aa440c.png

5. データモデリングと設計ガバナンス

1. データモデリングと設計品質管理

【データモデリングと設計基準の開発】

1. 標準的なデータ モデリングとデータベース設計の成果物のリストと説明。

2. すべてのデータ モデル オブジェクトに適用される、標準名、許容される略語、一般的ではない単語の略語規則のリスト。

3. 属性や分類子を含む、すべてのデータ モデル オブジェクトの標準命名形式のリスト。

4. これらの成果物の作成と維持に使用される標準的な方法のリストと説明。

5. データモデリングとデータベース設計の役割と責任のリストと説明。

6. ビジネスおよび技術メタデータを含む、データ モデリングおよびデータベース設計で取得されたすべてのメタデータ属性のリストと説明

7. メタデータの品質に対する期待と要件。

8. データモデリングツールの使用方法に関するガイドライン。

9. 設計レビューを準備し、主導するためのガイドライン。

10. データモデルのバージョン管理ガイドライン。

11. 禁止または避けるべきことのリスト。

【データモデルとデータベース設計品質の見直し】

【データモデルのバージョン管理と統合】

なぜ。プロジェクトや状況を変更する必要がある理由。

何。何をどのように変えるのか。

いつ。変更を承認する時間です。

WHO。変更を加えたのは誰ですか。

どこ。変更が行われた場所。

2. 指標

メトリクス:

1. モデルはビジネス ニーズをどの程度反映していますか?

2. モデルはどの程度完成していますか? (要件の整合性。メタデータの整合性)

3. モデルはスキーマとどの程度一致していますか?

4. モデルの構造はどうなっていますか?

5. モデルはどの程度一般的ですか?

6. モデルは命名標準にどの程度準拠していますか?

7. モデルはどの程度読みやすいですか?

8. モデルはどのように定義されますか? (明確/完全/正確)

9. モデルはエンタープライズ データ アーキテクチャとどの程度一貫していますか?

10. メタデータとどの程度一致していますか

理解しやすいように、この部分のマインドマップを次のように整理します。

747e5e1f857d2126e0371e3581494477.png

続きます~

また、データガバナンスを学びたい学生とCDMP認定試験を受験しようとしている学生限定で    、ここでCDMP自習交流グループを組織しました

    (200名を超える人は直接入場できないため、入場する必要がある場合は、私のWeChat招待状を追加して入場し、  CDMPに注意してください)

    私自身、自制心があまりにも弱いので、ビデオ解説コースに加え、教材、オンラインでのQ&A、試験の申し込みなど、充実したDAMA公式トレーニングクラスを受講することにしました。授業での学習に興味のある学生は私に連絡してください。また、ビッグデータ公式アカウントのファンは割引を申請するために私に連絡してください。

ビッグデータフローに関する人気記事のおすすめ

    港湾の石炭労働者から国有企業のビッグデータリーダーへ: かつてインターネット中毒だったティーンエイジャーはどのようにして成功を収めたのでしょうか?

    ビッグデータ データ ガバナンス | WeChat Exchange Group~

    データガバナンスの始め方を5000語で解説(国際データガバナンス認定試験・CDMPスタディグループ付き)

    CDMP とは正確には何ですか - データ ガバナンスの国際認証への超包括的な入門書

    オープンソースのデータ品質ソリューション - Apache Griffin 入門

    ワンストップのメタデータ ガバナンス プラットフォーム - Datahub はじめに

    データ品質管理ツールに関する事前調査 - Griffin VS Deequ VS 大きな期待 VS Qualitis

    千文字長文 - Datahubオフラインインストールマニュアル

    メタデータ管理プラットフォーム Datahub2022 年次レビュー

ビッグ データ フロー:ビッグ データ、リアルタイム コンピューティング、データ ガバナンス、データ視覚化の実践セルフメディア。データ ガバナンスおよびメタデータ管理の実装テクノロジ実践記事を定期的に公開し、データ ガバナンス実装の実装に関連するテクノロジと資料を共有します。

ビッグデータ導入、データガバナンス、Superset、Atlas、Datahubなどの学習交流グループを提供。

ビッグデータは流れ、ビッグデータ技術の学習は決して止まることはありません。

長押ししてQRコードを認識し、フォローしてください!

おすすめ

転載: blog.csdn.net/xiangwang2206/article/details/128979367