ビッグデータへの道、アリババビッグデータプラクティスのリーディングノート---第15章、データ品質

  • ITのDT時代への移行に伴い、データの重要性は自明であり、データのアプリケーションはますます繁栄しており、データは非常に重要な役割を果たしています。ますます評価されるデータの場合、その品質を保証する方法が問題となっています。

  • データ品質は、データ分析の結論の有効性と正確性の基礎であり、すべての前提でもあります。デジタル品質を保証し、データの可用性を保証する方法は、アリババのデータウェアハウスの構築では無視できないリンクです。

 

1.データ品質保証の原則

  • 4つの側面からの評価

    • 完全性

    • 正確さ

    • 一貫性

    • 適時性

 

  • 1.誠実さ

    • 整合性とは、データレコードと情報が完全であるかどうか、不足しているケースがないかどうかを指します。ただし、データには主にレコード内の特定のフィールドの情報が含まれますが、どちらも統計結果を不正確にするため、整合性はデータ品質の最も基本的な保証です。たとえば、Biトランザクションでは、1日あたりの支払い注文の数は約100Wですが、特定の日に支払い注文が1W急に減少した場合、レコードが欠落している可能性があります。レコードのフィールド(注文の製品IDや販売者IDなど)に情報がない場合は、それらが存在している必要があります。これらのフィールドのnull値の数は0でなければなりません。0より大きくなると、整合性制約に違反する必要があります。

  • 2.精度

    • 精度とは、データに記録されている情報やデータが正確であるか、違いがあるかを指します

おすすめ

転載: blog.csdn.net/u012965373/article/details/105548880