データ ガバナンス: データの血統!

データリネージはメタデータ製品の中核となる機能ですが、データリネージは見た目は美しいが利用のハードルが高い代表的な技術であり、メタデータ製品を購入したことがある方なら分かると思います。この記事では、データ リネージの特性、価値、用途、方法について系統的に詳しく説明します。

1. 特徴: アトリビューション、マルチソース、トレーサビリティ、階層化

2. 価値: データ価値評価、データ品質評価、データ ライフサイクル管理

3. 目的: コンプライアンス要件、影響分析と品質問題分析、データセキュリティとプライバシー、移行プロジェクトとセルフサービス分析

4. 方法: 自動分析、システム追跡、機械学習方法、および手動収集

データ血統の取得方法の観点から見ると、自動解析は基本的に信頼性が低く、機械学習方法はまだ構想段階にあり、手動収集の適時性があり、一貫性が低く、システム追跡は標準化された管理能力とツール統合能力に大きく依存しています。私も同意する方法です データの血縁関係を築くには、具体的かつシーンに合わせて、小さなことから始めなければなりません 一度に完全な血縁関係を築くことは考えないでください 理想化されたものは結局孤独になってしまいます終わり。

本文の始まり

データの親族関係は概念的によく理解されており、データのライフサイクル全体において、データとデータの間にさまざまな関係が形成され、これらの関係は人間の親族関係に似ているため、データ親族と呼ばれます。
ここに画像の説明を挿入

技術的な観点から見ると、データ a が ETL 処理によってデータ b を生成する場合、データ a とデータ b には血の関係があると言えます。しかし、人間の血縁関係とは少し異なり、データの血縁関係にもいくつかの個人的な特徴があります。

・帰属

データは特定の組織または個人によって所有されており、データを所有する組織または個人は、マーケティング、リスク管理、およびその他の目的を達成するためにデータを使用する権利を有します。

・複数のソース

この特徴は人間の血縁関係とは根本的に異なり、同一のデータであっても、複数のデータ処理や複数の処理方法や処理ステップによって生成されたデータなど、複数のソース(つまり複数の父親)を持つことができます。 。

・追跡可能

データの血縁関係はデータのライフサイクル全体を反映しており、データの生成から廃棄までの全プロセスを追跡できます。

· 階層

従来のリレーショナル データベースと同様に、データの血縁関係は階層関係になっており、ユーザーが最上位にあり、その次にデータベース、テーブル、フィールドが上から下に続き、1 人のユーザーが複数のデータベースを所有し、1 つのデータベースに格納されます。複数のテーブルがあり、1 つのテーブルに複数のフィールドがあります。これらは有機的に結合されて、完全なデータと血の関係を形成します。

学校生徒管理システムの背景データベースのER図例は下図に示すとおりであり、生徒の生徒ID、氏名、性別、生年月日、学年、クラスなどのフィールドが生徒情報テーブルを構成し、学生情報テーブル、教師情報テーブル、およびコース選択テーブル。1 つまたは複数の関連フィールドが、学生管理システム全体の背景のデータベースを形成します。

ここに画像の説明を挿入

構造化データであろうと非構造化データであろうと、それらはすべてデータの親族関係を持ち、その親族関係は単純で直接的な場合もあれば、複雑な場合もあり、科学的手法を通じて追跡することができます。

ある銀行の財務指標を例にとると、純受取利息の計算式は受取利息から支払利息を差し引いたもので、受取利息は顧客事業利息収入、資本市場事業利息収入およびその他事業利息収入、顧客事業利息収入に分けられます。事業利息収入は、クレジット事業利息収入とその他事業利息収入に細分化でき、また、クレジット事業利息収入は、複数の事業分野および事業セグメントからの利息収入に細分化できます。

このような細分化は、財務指標から、顧客の加重平均ローン金利や新規ローン残高などの元のビジネス データまで遡ることができます。純金利収入指標でデータ品質の問題が見つかった場合は、下の図から根本原因を一目で見つけることができます。
ここに画像の説明を挿入

データ系統のトレースは、インジケーターの計算に反映されるだけでなく、データセットの系統分析にも適用できます。データフィールド、データテーブル、データベースなど、他のデータセットとの血縁関係が存在する場合があり、血縁関係を分析することはデータ品質の向上に役立つと同時に、データの価値評価にも役立ちます。 、データ品質評価、その後のデータ ライフ サイクル管理など、より大きな支援と改善もあります。

データの価値評価の観点から、データの血縁関係を整理することによって、データの所有者と利用者、つまり、データの所有者が少なくなり、利用者(データ要求者)が増えると、データの所有者と利用者がどのようになるのかを知ることは難しくありません。データの価値が高くなります。データ フローでは、最終的なターゲット データに大きな影響を与えるデータ ソースの価値が比較的高くなります。同様に、更新頻度や変更頻度が高いデータソースは、一般に対象データの計算や集計に占める役割が高く、価値が高いと判断できます。

データ品質評価の観点から見ると、明確なデータソースと処理方法により、各ノードでのデータの品質を明確にすることができます。

データのライフサイクル管理の観点から見ると、データの血縁関係はデータのライフサイクルを判断するのに役立ち、データのアーカイブと破棄の操作の参考になります。

データリネージの重要性と特徴を考慮して、一般的にリネージを分析する際には、アプリケーション(システム)レベル、プログラムレベル、フィールドレベルでのデータ間の関係に焦点を当てます。より一般的には、データはシステム間のインターフェイスを介して交換および送信されます。

たとえば、次の図では、銀行ビジネス システムのデータが、統合データ交換プラットフォームによって従来のリレーショナル データベースと非リレーショナル ビッグ データ プラットフォームに転送および分散されます。これには、多くのデータ処理とデータ交換作業が含まれます。
ここに画像の説明を挿入

彼らの血縁関係を分析する際には、主に次の側面が考慮されます。

1. 包括性

上図に示すように、データ処理プロセスは実際にはプログラムがデータを転送、推定、アーカイブするプロセスですが、アーカイブされたデータであっても、システムの結果に影響を与えたり、別の方法で他のシステムに流れたりする可能性があります。データ フロー追跡の一貫性を確保するには、システムのセット全体を分析の対象にする必要があります。

2. 静的解析手法

この方法の利点は、人的要因の影響を回避し、文書の詳細レベル、テストケース、サンプリングされたデータの精度に影響されないことです。関係するパスを静的に分析してリスト化し、データの客観的な反映を実現します。フロー。

3. 接触感染解析方法

データ送信とマッピングに関連するプログラム コマンドをスクリーニングすることにより、詳細な分析のための重要な情報を取得できます。

4. ロジックタイミング解析手法

冗長情報の干渉を避けるため、プログラムの処理フローに従い、データベース、ファイル、通信インターフェースのデータフィールドやプログラムの中間変数とは直接関係のない転送やマッピングなどの間接的な処理を、プログラムの中間変数に変換します。データベース、ファイル、通信インターフェイス間のデータ フィールドの直接配信とマッピング。

5. 適時性

データ フィールドの関連付け関係情報の可用性と適時性を確保するには、クエリ バージョンの更新とデータ フィールドの関連付け情報の同期を確保し、システム全体で「表示されたものがそのまま取得される」を実現する必要があります。

一般に、データリネージの使用には主に次の側面が反映されます。

1. コンプライアンス要件: これは規制当局の要件であり、コンプライアンスを規制するには、データ フローのすべてのポイントとソースを監視する必要があります。

2. 影響分析と品質問題分析: これはデータ開発部門の中核要件です。データ アプリケーションの増加に伴い、データのフロー チェーンはますます長くなっています。コア ビジネスが 1 つのソースで変化すると、下流の分析も困難になります。アプリケーションは、分析に影響を与えずに同期を維持する必要があります。同期すると、各データ サービスへの異常なアクセスが発生します。

3. データのセキュリティとプライバシー: これはデータ コンプライアンス部門の要件であり、どのデータの機密性を解除する必要があり、完全に流通するすべてのドメインの制御を維持する必要があります。

4. 移行プロジェクト: 特定の古いプロジェクトが終了し、新しいプロジェクトに引き継ぐ必要がある場合に発生します。データ フロー マッピング テーブルがないと、整理に時間がかかり、データ フロー マッピング テーブルを確保するのが困難です。移行の完全性と正確性。

5. セルフサービス分析: データ分析チームがデータの信頼性を判断するには、データのソースがデータの信頼性の重要な基礎となります。

データリネージシステムの構築と保守は、比較的重労働なシステムエンジニアリングであり、データガバナンスの作業においては流砂の場所であると著者は考えています。注意しないと、特にそのような人はこの落とし穴にはまってしまうでしょう。技術的に完璧なパーソナリティ タイプを担当します。これは、データ リネージを扱うときに考慮すべき要素が多数あるためです。プロジェクト失敗のリスクを最小限に抑えるには、データ リネージのサービス ユーザーを考慮し、ビジネス面および技術面でのリネージの優先順位を決定し、詳細レベル、適用範囲、変更の頻度を考慮する必要があります。人事フロー、組織部門、技術アーキテクチャなどの状況を考慮して、当社にとって最適な戦略を策定します。

データ収集には主に以下の方法があります。

1. 自動分析

現在の主要な収集メソッド、特に SQL ステートメント、ストアド プロシージャ、ETL プロシージャ、およびその他のファイルを自動的に解析します。国際的なメーカーの経験によれば、複雑なコードとアプリケーション環境のため、自動分析は企業データの 70 ~ 95% をカバーできますが、現時点では 100% を達成することは不可能であり、非常に高いカバー率を目指してください。
ここに画像の説明を挿入

2. システム追跡

この方法は、データ処理フローのプロセスを通じて行われ、処理メイン ツールがデータ マッピングの送信を担当します。この大きな利点は、収集が正確、タイムリー、きめ細かいことです。ただし、すべてのツールが対応できるわけではないという制限があります。統合することができます。この方法は通常、統合処理プラットフォームに基づいており、たとえば、Informatica は独自の完全なデータ血液サイクルを管理できます。

3. 機械学習の手法

この方法では、データセット間の依存関係に基づいてデータの類似性を計算します。この方法のメリットはツールや業務に依存しないこと、デメリットは精度を人手で確認する必要があることですが、通常3~8個のデータを分析して見つけることができます。アリアルゴリズムエンジニアの仕事概要。

4. 手動収集

プロジェクト全体のうち、通常 5% を手動で行う必要があります。

ここに画像の説明を挿入

現在のデータ血統のほとんどは技術的な分類に基づいており、通常は技術担当者のニーズに応えます。データサービスがサービスビジネス分析とCDOビジネスデータリネージのフォアグラウンド化に伴い、現在、データセマンティック分析を通じて技術メタデータをビジネスメタデータにマッピングし、リネージをビジネスプロセスの形で公開および共有する関連製品が存在しています。作ることも今後の開発の方向性の一つです。

免責事項:記事の著作権は元の著者および情報源に属します。出典が間違っている場合や、記事内で使用されているリンク先の写真・文章・ソフトウェア・素材等、正確な出典が確認できないため、マークが間違っている場合や著作権侵害に該当する場合は、ご連絡の上、削除してください。

おすすめ

転載: blog.csdn.net/weixin_39971741/article/details/131918281