データ ガバナンス プロフェッショナル認定 CDMP 学習ノート (思考ガイド データ ガバナンス プロフェッショナル認定 CDMP 学習ノート (マインド マップとナレッジ ポイント) - 第 11 章 データ ウェアハウスとビジネス インテリジェンス...

皆さんこんにちは。私は元港湾石炭労働者で、現在は国有企業のビッグデータ担当者として、公式アカウントのビッグデータフローのマネージャーとして働いているDugufengです。会社のニーズとビッグデータの発展傾向のため、ここ 2 年間でデータ ガバナンスについて学び始めました。

データ ガバナンスを真に習得するには体系的な学習が必要であり、データ ガバナンスの学習能力と知識の習熟を証明するには専門試験の認定も必要です。データ ガバナンスおよびデータ ガバナンス認定 CDMP について質問がある場合は、私の以前の記事で詳細な紹介を参照してください。

データガバナンスの始め方を5000語で解説(国際データガバナンス認定試験・CDMPスタディグループ付き)

CDMP とは正確には何ですか - データ ガバナンスの国際認証への超包括的な入門書

総テキスト: 5935 ワード、写真 12 枚

推定読書時間: 15 分

このドキュメントは、データ ガバナンスに関する学習資料の照合に基づいており、データ ガバナンス プロフェッショナル認定資格 CDMP の学習ノート (マインド マップとナレッジ ポイント)用に照合されています。

記事が長いのでブックマークしてから読むことをお勧めします。

以降のドキュメントについては、公式アカウントのビッグデータフローに注意して、更新を続けてください~

このドキュメントは、データ ウェアハウスとビジネス インテリジェンスの一部であり、5 つの部分に分かれています。

ページの表示の都合上、一部のレベルを完全に展開できません。その構造を下図に示します。

0848921533d680c2c0919cd1ae900992.png

1. データ ウェアハウジングとビジネス インテリジェンスの概要

データ ウェアハウス (DW) : 1980 年代に始まり、1990 年代に開発され、その後ビジネスの意思決定の主な原動力としてビジネス インテリジェンス (BI) とともに発展しました。組織がさまざまなソースからのデータを共通のデータ モデルに統合できるようにすることで、統合されたデータはビジネス運営への洞察を提供し、企業の意思決定のサポートと組織の価値の創造の新たな可能性を切り開くことができます。

データ ウェアハウスは、データの冗長性を削減し、情報の一貫性を向上させ、企業がデータを使用してより適切な意思決定を行えるようにする方法を提供します。

データ ウェアハウスは企業データ管理の中核として認識されています。

ビジネス推進要因: 運用サポート機能、コンプライアンスのニーズ、およびビジネス インテリジェンス活動。

50ad0094c05ec74d0e3f3ecad5ec8788.png

データ ウェアハウス構築の目標: 1) ビジネス インテリジェンス活動をサポートします。2) ビジネス分析と効率的な意思決定を強化します。3) データの洞察に基づいて革新的な方法を見つけます。

データ ウェアハウスの構築は次の原則に従う必要があります。1) ビジネス目標に焦点を当てる。2) 終わりを念頭に置いて始めます。3) 全体的な思考と設計、ローカルなアクションと構築。4) 最初から最適化を行うのではなく、要約して最適化を継続します。5) 透明性とセルフサービスを促進します。6) データ ウェアハウスでメタデータを確立します。DW の成功の鍵は、データを正確に解釈する能力です。7) 相乗効果他のデータ活動、特にデータ ガバナンス、データ品質、メタデータ管理活動と連携します。8) 型にはまらないようにしてくださいあらゆるタイプのデータ消費者に適切なツールと製品を提供します。

理解しやすいように、この部分のマインドマップを次のように整理します。

a3c76e471c7a5555a16c872b02833e16.png

2. 基本的な考え方

1. ビジネスインテリジェンス

ビジネス インテリジェンス: 第 1 レベルの意味であるビジネス インテリジェンスは、組織の要求を理解し、機会を探すデータ分析活動を指します。データ分析の結果は、組織の意思決定の成功率を向上させるために使用されます。2 番目の意味では、ビジネス インテリジェンスは、そのようなデータ分析活動をサポートするテクノロジの集合を指します

ビジネス + テクノロジー。

2. データウェアハウス

データ ウェアハウス: さまざまな業務や外部ソースからデータを収集、クリーニング、変換、保存するための統合された意思決定支援データベースと関連ソフトウェア プログラム

データ ウェアハウスは、ビジネス インテリジェンスの目標を実現するためのデータを提供する、あらゆるデータ ストレージまたは取得操作を含むように広義に定義されます。

エンタープライズ データ ウェアハウス (EDW) は、集中型データ ウェアハウスです。

データ マートは、データ ウェアハウス内のデータのサブセットのコピーです。

3. データウェアハウスの構築

データウェアハウスにおけるデータの抽出、クリーニング、変換、制御、ロードなどの操作プロセス。データ ウェアハウス構築プロセスの焦点は、ビジネス ルールを適用し、適切なビジネス データの関係を維持することにより、運用データに統合された履歴ビジネス環境を実装することです。メタデータ リポジトリと対話するためのプロセスも含まれます従来の意味での構築は、構造化データに焦点を当ててきました。

4. データウェアハウスの構築方法

データウェアハウスの構築方法。2 人の思想的リーダーである Bill Inmon と Ralph Kimball は、それぞれパラダイム モデリングと多次元モデリングを使用してデータ ウェアハウス モデリングに取り組んでいます。

Bill Enmen は、「データ ウェアハウスの構築」で次のように定義しています。データ ウェアハウスは、企業の管理と意思決定における、主題指向で統合され、時間に関連し、変更不可能なデータのコレクションです。

Ralph Kimball は、「データ ウェアハウス ツールキット」(データ ウェアハウス ツールキット) で提案しました。ボトムアップ (DMDW) アプローチを提唱し、データ マートの構築を推進しています。彼は、これを「クエリおよびクエリ用のカスタムメイドのデータ マート」と定義しました。分析 トランザクション データのコピー。

それらが従う中心的な概念は似ています。 1) データ ウェアハウスに保存されているデータは、他のシステムから取得されます。2) データの価値を高める方法でデータを統合します。3) データへのアクセスと分析を促進します。4) すべては、権限のある関係者が信頼できる統合データにアクセスできるようにするためです。5) 構築目的には、ワークフロー支援、運用管理、予測分析が含まれます。

5. 企業情報工場(印門)

エンタープライズ インフォメーション ファクトリ CIF は、データ ウェアハウス構築モデルの 1 つであり、データ ウェアハウスと業務システムの違いです。

1. 主題志向。2. 統合。3. 時間の経過とともに変化します。4.安定しています。

5. 集計データと詳細データ。6. 歴史的。

Corporate Information Factory (Corporate Information Factory、CIF) は以下で構成されます。 1) アプリケーション。2) データ一時保存領域 3) 統合と変換。4) 運用データストレージ (ODS)。5) データマート。6) 運用データマート (OpDM)。運用データ マートは、運用上の意思決定のサポートに焦点を当てたデータ マートです。データ ウェアハウスからではなく、運用データ ストアから直接データを取得することには、運用データ ストアと同じ特性があります。つまり、頻繁に変更される現在または最近のデータが含まれます。7) データウェアハウス。データマートへの一方向の流れ。8) 運用報告。運用レポートはデータストアから出力されます。9) 参照データ、マスターデータ、外部データ。

3cb4c7b39566dc4b1c8ea9509a96a68e.png

6. 多次元データウェアハウス (Kimball)

多次元データ ウェアハウス (Kimball):ファクト テーブル(販売データなどのビジネス プロセスに関する定量的データが含まれる) とディメンション テーブル(ファクト テーブル データに関連する記述属性を格納し、データ消費者の質問に対するファクト テーブルに関する質問に答える) で構成されるスター スキーマ、製品 X が今四半期にどれだけ売れたかなど)。ファクト テーブルは多くのディメンション テーブルに関連付けられており、全体像は星のように見えます。

e6ddd83fbb672d395b9f4633937b6859.png

データ ウェアハウスのバス マトリックスは、事実データを生成するビジネス プロセスと、ディメンションを表すデータ主体ドメインの交差部分を示しますテクノロジーに依存せず、データ ウェアハウス/BI システムの長期データのコンテンツ要件を表すために使用され、組織が管理可能な開発作業の範囲を決定するのに役立ちます。

多次元データ ウェアハウスは Inmon のデータ ウェアハウスよりも拡張性が高く、データ ウェアハウスにはデータの一時保存領域とデータ表示領域のすべてのコンポーネントが含まれています。

Kimball のデータ ウェアハウスは、ビジネス ソース システム、データ一時保存領域、データ表示領域、データ アクセス ツールの 4 つの部分に分かれています。

1. ビジネスソースシステム。企業内の運用およびトランザクション アプリケーション。

2. データ一時保存領域。プレゼンテーション用にデータを統合および変換する必要があるプロセスを含めます。

3. データ表示領域。これは、エンタープライズ情報工場のデータ マートに似ています。

4. データアクセスツール。エンドユーザーのデータニーズに焦点を当てます。

7. データ ウェアハウス アーキテクチャのコンポーネント

データ ウェアハウス環境は、企業のニーズを満たすように編成された一連のアーキテクチャ コンポーネントで構成されます。

1. ソースシステム

データ ウェアハウスやビジネス インテリジェンスに流入するビジネス システムと外部データが含まれます。

a68613ddd66524e425fc4264278084d5.png

2. データ統合

データ統合には、抽出、変換、ロードが含まれます。

3. データ保存領域

データ記憶領域には次のものが含まれます。1) 一時記憶領域元のデータ ソースと集中データ リポジトリの間の中間データ ストレージ領域。2) 参照データとマスターデータの整合性次元3) 中央データウェアハウスデータ構造の設計要素には以下が含まれます。 ① パフォーマンスの考慮事項に基づいて設計されたビジネス主キーと代理主キーの関係。② ディメンションテーブルをサポートするためのインデックスと外部キーを作成します。③履歴記録を検出、維持、保存するための変更データ キャプチャ (CDC) テクノロジー。4) 運用データストレージ ODS運用データ ストアには、完全な履歴ではなく一定期間のデータが含まれるため、データ ウェアハウスよりも頻繁に更新できます。5) データマート。特定のサブジェクト領域、単一の部門、または単一のビジネス プロセスをターゲットにします。6) データキューブキューブ。

8. データの読み込み方法

1. 過去のデータ

履歴データの処理: 1. Inmon タイプのデータ ウェアハウスは、すべてのデータを単一のデータ ウェアハウス レイヤーに保存することを提案します。クリーンアップ、正規化、管理された原子レベルのデータがこの層に保存されます。2. Kimball タイプのデータ ウェアハウスは、クレンジング、標準化、管理されたデータを含む部門別データ マートをデータ ウェアハウスに統合することを提案しています。データ マートは履歴レコードをアトミ​​ック レベルで保存し、一貫したディメンション テーブルと一貫したファクト テーブルがエンタープライズ レベルの情報を提供します。3. Data Vault は、データの一時保管プロセスの一部として、データのクリーニングと標準化も実行します。履歴データは標準化されたアトミック構造に格納され、各次元で代理キー (代理キー)、主キー (主キー)、および代替キー (代替キー) が定義されます。

2. 変更データの一括取得

変更データの一括キャプチャ。データ ウェアハウスは、毎晩バッチ ウィンドウを介してデータを読み込むサービスです。ソース システムが異なれば、必要な変更キャプチャ手法も異なる場合があるため、ロード プロセスにはさまざまな変更検出が含まれる場合があります。

さまざまな変更データ キャプチャ手法の違い。

3831188758e0df58591253d99e630512.png

準リアルタイムおよびリアルタイムのデータ読み込み: 1) トリクル読み込み (ソースでの蓄積)夜間のウィンドウでのバッチ読み込みとは異なり、より頻繁な頻度またはしきい値で一括読み込みを行います。2)メッセージ転送(バス蓄積)小さなデータグラムがメッセージ バスに送信され、ターゲット システムがバスをサブスクライブします。3)ストリーミング(宛先蓄積)ターゲット システムは、バッファまたはキューを使用してデータを収集し、それを順次処理します。

理解しやすいように、この部分のマインドマップを次のように整理します。

63eda7470e43641d2a632b3e2709304f.png

3. 活動内容

【活動1】ニーズを理解する。

まずはビジネス目標とビジネス戦略を検討し、ビジネスドメインを特定し、範囲を設定します。次に、関連するビジネス担当者を特定してインタビューし、彼らが何をしたいのか、なぜそれを行うのかを理解し、彼らの懸念事項と情報を分類する方法を記録します。

ビジョンの策定 + ビジネス戦略の調整 + 貴重なニーズ

【アクティビティ 2】データ ウェアハウス/ビジネス インテリジェンスのアーキテクチャを定義して維持します。

1. データ ウェアハウス/ビジネス インテリジェンスの技術アーキテクチャを決定します。アトミックなデータ処理方式で、トランザクション レベルおよび運用レベルのレポート要件をサポートできる必要があります。優れたプロトタイピングは、主要な要件の実現を迅速に証明または反駁できるため、特定のテクノロジーやアーキテクチャへの過剰な投資を回避できます。

2. データ ウェアハウス/BI管理プロセスを特定します。ビジネスチームへの定期的なリリースとメンテナンスプロセスを調整および統合することによる生産管理。効果的なリリース プロセスを確立し、これがインストールされた製品に対する事後的な問題解決アプローチではなく、データ製品を中心としたプロアクティブなプロセスであることを経営陣が理解できるようにします。

【活動3】データウェアハウスとデータマートを開発します。

データ ウェアハウス/ビジネス インテリジェンス構築プロジェクトには、次の 3 つの同時構築軌跡があります。

1)データ。ビジネス分析をサポートするために必要なデータ。最適なソースを特定し、ルールを設計し、予期しないデータを処理します。

2)テクノロジー。データのストレージと移行をサポートするバックエンド システムとプロセス。

3)ビジネスインテリジェンスツール。

内容: 1. ソースをターゲットにマップします。それぞれのソース システムの親族関係。マッピング作業で最も難しいのは、複数のシステム内のデータ要素間のリンクの有効性または等価性を判断することです。2. データを修正および変換します。ターゲット システムの複雑さを軽減するには、ソース システムがデータ修復を担当し、データが正しいことを確認する必要があります。

[アクティビティ 4] データ ウェアハウスをロードします。

最も作業量の多い部分は、データの準備と前処理です。

データの読み込み方法を決定する際に考慮すべき重要な要素は、データ ウェアハウスとデータ マートに必要なレイテンシ要件、ソースの可用性、バッチ ウィンドウまたはアップロード間隔、ターゲット データベース、および時間フレームの一貫性であり、データ品質処理にも対処する必要があります。変換、遅延到着ディメンション、およびデータ拒否の問題を実行するため。もう 1 つの要素は、ソース システム内のデータ変更を検出し、それらの変更を統合し、時間の経過とともに変更を調整する変更データ キャプチャ プロセスを中心に展開します。

【アクティビティ 5】ビジネス インテリジェンス製品ポートフォリオを実装します。

1. 必要に応じてユーザーをグループ化します。2. ツールをユーザーの要件に合わせます。

[アクティビティ 6] データ製品を保守します。

1. リリース管理。リリース管理は、増分開発プロセスにとって重要です。

2.データ製品開発ライフサイクルを管理します。

3. 読み込みプロセスを監視し、調整します。データ ウェアハウスもアーカイブする必要があります

df872cd70a2dcd8bdce231c5e8adf714.png

理解しやすいように、この部分のマインドマップを次のように整理します。

d06ea361007c1edc3c6399a4edaf0ca3.png

4. ツール、方法、実装ガイドライン

道具

1. メタデータ リポジトリ。

A. データ辞書と用語。データ ディクショナリは、データ ウェアハウスの使用をサポートするために必要なコンポーネントです。ディクショナリはビジネス用語でデータを説明し、データ ディクショナリの内容は論理データ モデルから取得されます。

B. データとデータモデルの系統。

データの血縁関係を記録する目的:

1) データ問題の根本原因を調査します。

2) システム変更やデータ問題の影響分析を実施します。

3) データの出所に従ってデータの信頼性を判断します。

2. データ統合ツール。

データ ウェアハウスをロードするために使用されます。

ツールを選択するときは次のことも考慮してください。

1. プロセスの監査、制御、再起動、およびスケジュール設定。

2. 実行時にデータ要素を選択的に抽出し、監査のために下流システムに渡す機能。

3. どの操作を実行できるか、または実行できないかを制御し、失敗したプロセスまたは中止されたプロセスを再起動します。

3. BI ツールの種類。

1) 運用報告。

運用レポート: ビジネス ユーザーは、トランザクション システム、アプリケーション、またはデータ ウェアハウスから直接レポートを生成します。データ取得およびレポート ツール (アドホック クエリ ツール とも呼ばれます) を使用すると、ユーザーは必要なレポートを作成したり、他のユーザーが使用できるレポートを作成したりできます。事業運営報告書の要件は、多くの場合、事業調査報告書の要件とは異なります。生産レポートはデータ ウェアハウスと BI の境界を越え、多くの場合、トランザクション システムに直接クエリを実行し、請求書や銀行取引明細書などのアクション アイテムを作成します。従来のビジネス インテリジェンス ツールは、表、円グラフ、折れ線グラフ、面グラフ、棒グラフ、ヒストグラム、ローソク足グラフなどの一部のデータ視覚化方法を適切に表示できます。

2) 業績管理BPM。ビジネス戦略の実行を最適化するように設計されています。パフォーマンスの測定と正のフィードバック ループが重要な要素です。パフォーマンスの測定と正のフィードバック ループが重要な要素です。

3) 記述的自助分析。フロントデスクに業務上の意思決定を指導する役割を提供します。

オンライン分析処理OLAP : 多次元分析クエリに対して高速なパフォーマンスを提供する方法。

一般的な操作はスライスです。細かく切ります。ドリルダウン/ドリルアップ。上に向かって曲がります。視点

3 つの古典的な OLAP 実装方法は次のとおりです。 リレーショナル オンライン分析処理ROLAP多次元マトリックスのオンライン分析処理MOLAPハイブリッドオンライン分析処理HOLAP

方法

方法:

1. 要件を推進するプロトタイプ。デマンドマイニングの方法を使用して、ニーズの優先順位を迅速に決定します。

2. セルフサービスのビジネス インテリジェンス。セルフサービスは BI の基本的な提供方法です。

3. クエリ可能な監査データ。すべてのプロセスは監査情報を保存し、きめ細かい追跡とレポートを可能にする必要があります。

実装ガイド

1. 準備状況評価、リスク評価

データ ウェアハウスは以下を実装する必要があります。

(1) データの機密性とセキュリティ上の制約を明確にする。

(2)ツールの選択

(3) リソースの安全性の確保

(4) ソースデータを評価および受信するための抽出プロセスを作成します。

2. バージョンのロードマップ

データ ウェアハウスは段階的に構築されます。

ウォーターフォール、反復、アジャイルなど、どのような実装方法を選択する場合でも、望ましい最終状態を考慮する必要があります。

ロードマップは貴重な計画ツールです。

3. 構成管理

構成管理はロードマップに沿って行われ、必要なバックグラウンドの調整とスクリプトが提供されます。

4. 組織および文化の変化

一貫したビジネスの焦点を維持することがプロジェクトの成功の鍵です企業のバリューチェーンを知ることは、ビジネス環境を理解するための優れた方法です。

プロジェクトを実際のビジネス ニーズに合わせて調整し、必要なビジネス サポートを評価することが、成功の鍵となります。

1) 事業への取り組み 適切な管理サポートはありますか?

2) ビジネスの目的と範囲正確なビジネス ニーズ、ビジネス目標、作業範囲はありますか?

3) 経営資源専門家はいますか?どの程度関与していますか?

4) ビジネスの準備ビジネスパートナーシップは、これを長期的な増分納品プロジェクトにする準備ができていますか? 対象組織内の平均的な知識レベルまたはスキルギャップはどれくらいですか?

5) 一貫したビジョンIT 戦略はビジネス ビジョンをどの程度サポートしていますか?

理解しやすいように、この部分のマインドマップを次のように整理します。

c46aa5c76a27c553c8ef3cefad61f579.png

5. データ ウェアハウスとビジネス インテリジェンスのガバナンス

1. お取引の受付

1) 概念的なデータ モデル。グループのコア情報? 主要なビジネスコンセプトは? それらは互いにどのような関係にあるのでしょうか?

2) データ品質のフィードバック ループ。問題のあるデータを特定して修正するにはどうすればよいですか? 問題がどのように発生するかをどのように理解すればよいでしょうか? 問題を解決する責任をどのように負うのか? データ ウェアハウスのデータ統合プロセスから発生する問題を修復するプロセスは何ですか?

3) エンドツーエンドのメタデータアーキテクチャは統合されたエンドツーエンドのメタデータ フローをどのようにサポートしていますか? 文脈の意味が分かりますか?データ利用者は、「このレポートは何を意味するのか」や「この指標は何を意味するのか」といった基本的な質問にどのように答えているのでしょうか?

4) エンドツーエンドの検証可能なデータ系統。ビジネス ユーザーがパブリックにアクセスするアイテムは、自動化された自己保守可能な方法でソース システムまで追跡できますか? すべてのデータは文書化されていますか?

2. 顧客およびユーザーの満足度

3. サービスレベル契約

4. レポート戦略

解決するためのレポート戦略: 1) セキュリティ アクセス。許可されたユーザーのみが機密データにアクセスできるようにします。2) ユーザーがデータを操作、報告、検査、または表示するためのアクセス メカニズムを説明します。3) ユーザー コミュニティの種類とそれを使用するための適切なツール。4) レポートの概要、詳細、例外、および頻度、タイミング、配布および保存形式の性質。5) グラフィック出力を通じて視覚化機能の可能性を解き放ちます。6) 適時性とパフォーマンスのトレードオフ。

5. 指標

1. インジケーターを使用します。登録ユーザー、接続ユーザー、または同時ユーザーの数を含みます。2. 対象ドメインの範囲。各部門がどの程度倉庫にアクセスしているかを測定します。 3. 応答時間とパフォーマンスの指標。メトリクスのフォローアップは、検証とサービス レベルの調整です。

理解しやすいように、この部分のマインドマップを次のように整理します。

28473dac2342c2eedb4bb3783f562e20.png

続きます~

また、データガバナンスを学びたい学生とCDMP認定試験を受験しようとしている学生限定で    、ここでCDMP自習交流グループを組織しました

    (200名を超える人は直接入場できないため、入場する必要がある場合は、私のWeChat招待状を追加して入場し、  CDMPに注意してください)

私はDugufengです。もし私の記事が気に入っていただけましたら、転送したり、いいね!をしたり、見てサポートしていただければ幸いです。また次の記事でお会いしましょう!

ビッグデータフローに関する人気記事のおすすめ

    港湾の石炭労働者から国有企業のビッグデータリーダーへ: かつてインターネット中毒だったティーンエイジャーはどのようにして成功を収めたのでしょうか?

    ビッグデータ データ ガバナンス | WeChat Exchange Group~

    データガバナンスの始め方を5000語で解説(国際データガバナンス認定試験・CDMPスタディグループ付き)

    CDMP とは正確には何ですか - データ ガバナンスの国際認証への超包括的な入門書

    オープンソースのデータ品質ソリューション - Apache Griffin 入門

    ワンストップのメタデータ ガバナンス プラットフォーム - Datahub はじめに

    データ品質管理ツールに関する事前調査 - Griffin VS Deequ VS 大きな期待 VS Qualitis

    千文字長文 - Datahubオフラインインストールマニュアル

    メタデータ管理プラットフォーム Datahub2022 年次レビュー

ビッグ データ フロー:ビッグ データ、リアルタイム コンピューティング、データ ガバナンス、データ視覚化の実践セルフメディア。データ ガバナンスおよびメタデータ管理の実装テクノロジ実践記事を定期的に公開し、データ ガバナンス実装の実装に関連するテクノロジと資料を共有します。

ビッグデータ導入、データガバナンス、Superset、Atlas、Datahubなどの学習交流グループを提供。

ビッグデータは流れ、ビッグデータ技術の学習は決して止まることはありません。

長押ししてQRコードを特定してフォローしてください!

おすすめ

転載: blog.csdn.net/xiangwang2206/article/details/129457792