データ仕様

1.データ仕様の意味

データガバナンスの処理対象は、さまざまなシステムに分散された大量のデータです。これらの異なるシステムのデータには、データコード標準、データ形式、データIDが異なり、間違ったデータが存在する場合もあります。これを確立する必要があります。 。標準化されたシステムのセット、これらのさまざまなデータの統一された標準は、業界仕様に準拠し、同じ指標での分析を可能にして、データ分析結果の信頼性を確保します。
たとえば、データベースの属性値については、独自の継続性のルール、連続性のルール、およびnull値のルールは、データをテストおよび制約するために使用されます:一意のルールは、通常、プライマリキーまたは他の属性の一意の制約を入力することを指します。そのため、特定の属性の各値は他の値とは異なります。属性の値;継続性ルールは、属性の最大値と最小値の間に欠落値がなく、各値が一意であるという事実を指します。これは通常、数値を確認するために使用されます。null値ルールとは、他の特殊な記号を使用してnull値を置き換えること、およびそのような値の処理方法を指します。データの標準化により、データ分析の汎用性、共有、移植性、および信頼性を向上させることができます。したがって、データ仕様を確立する際に、それは普遍的であり、業界または国の基準に従わなければなりません。

2.データ指定方法

データガバナンスプロセスで使用できるデータ指定方法は、ルール処理エンジン、標準コードライブラリマッピングです。

2.1ルール処理エンジン

データガバナンスは、データ項目ごとに関連するデータ要素標準を策定し、標準データ要素ごとに特定の処理ルールを定義します。これらの処理ロジックには、データ変換、データ検証、データスプライシング割り当てなどが含まれます。機械学習やその他のテクノロジーに基づいて、認識と識別を行います。データフィールド、およびデータ自動ベンチマーク技術を使用して、データ処理中に発生するデータの不規則性の問題を解決します。

  • ルールテンプレートはデータ項目標準に従って定義されており、「生年月日」のルールは次のとおりです。

    値の範囲の監査ルール:YYYY:MM:DDまたはYYYY-MM-DD;
    値の範囲のルール:1900 <YYYY <= 2018,1 <= MM <= 12,1 <= DD <= 31。


  • 機械学習の推奨事項を使用してデータ項目を標準ライブラリデータ項目に対応させ、手動操作を簡素化します。セマンティック類似性とサンプリング範囲テストによると、データテーブルフィールドと適切な変換ルールを関連付けるには、類似性が最も高いデータ項目が推奨されます。データの特性に応じて選択されます。自動標準化テスト。フィールドの監査タスクは、データ項目のルールテンプレートに基づいて自動的に生成されます。
    ルールシステムには、さまざまなデータからさまざまな時間形式のデータ項目を変換する多くのデータ処理ロジックが含まれています。ソースを統一されたタイムスタンプ形式に変換する;データ項目を暗号化またはハッシュする; ID番号をチェックして正当な18桁のID番号かどうかを確認します。15桁の場合は18桁に均一に変換します;複数のデータ項目を指定して変換しますシンボルのスプライシング、データアイテムへの接続、データアイテムへの定数値または可変値の割り当てなど。
    ルールベースのルールを複数のレベルで繰り返して、データ処理用のルールチェーンを形成できます。ルールチェーンでは、前のルールの出力を次のルールの入力として使用します。ルールを組み合わせることで、さまざまなデータ処理ロジックを柔軟にサポートできます。例:最初にID番号に全幅から半幅のルールを使用します。 、および出力半値幅ルールにIDカード検証変換を使用し、18桁のID番号に統合します。次に、18桁のID番号にデータ感度低下ルールを使用して、ID番号を感度低下文字列に変換します。
    ここに写真の説明を挿入

2.1標準コードベースマッピング

標準コードライブラリは、国家標準または一般仕様に基づいて確立されたKey-Valueディクショナリライブラリです。ディクショナリライブラリは、国家標準値ドメイン、公共施設資産の分類、コードおよびその他の標準に従って構築されます。データ項目が国家標準または辞書ライブラリの省標準コードに従って命名XXXDM(XXXコード)は、辞書ルールによるコードデータ項目に対応するコード名データ項目XXXDMMC(XXXコード名)に関連付けられている。
例えば、私たちが望みます性別「男性」を表すすべてのフィールドを「男性」に変換するには「この種の同じ表現方法では、最初にデータ辞書を確立できます。ここで、キーの値の範囲はすべての異なる表現方法のコレクションであり、値はは、最終的に正規化したい「男性」です。
ここに写真の説明を挿入
データ変換ルールを使用する場合データディクショナリを検索し、すべての異なる表現を1つの表現に統合します。

おすすめ

転載: blog.csdn.net/weixin_44726976/article/details/109091632