ジェーンのにデータガバナンスの方法論の道

ジェーンのにデータガバナンスの方法論の道 - 「ダーティデータ」のすべての種類の手の中にあなたの対処方法?

 
あなたがシェフであれば、ただうっとりゲストは料理の色、香りと味を一致させる方法を示している、とさえ料理の技術は、すべての責任があり、そしてあなたは、新鮮な料理で豊か様々の準備ができているとき、場合にのみ問題があるために必要な主原料を見つけるために、ソースを調理する準備ができて。

 

データアナリストの役割は、シェフ、原料の問題のように、料理のシェフは確かに料理の良い香りと味ではありません、問題のデータは、データアナリストは、自然に信頼性がないと結論付け、でも最高のデータ分析方法論は、唯一確かに無駄に歪み、苦労し構築されたデータシステム上のデータに基づいています。

 

過去のプロジェクトでは、私はしばしばこのような状況に遭遇した、技術製品ウィングハングを持つ顧客があるため、レポートの値に影響を与える不正確なデータの使用を、いくつかの細かい専門的なデータ報告をしました。

 

最初の二つの記事は、著者がデータ指標の顔を分析し、どのように体系的なデータシステムを構築する方法について説明している、これは第三である「運用方法のデータ系列、」コアのトピックに焦点を当てた記事では、ある - データガバナンス。

第一章、「ジェーン・データ分析の方法論への道。」

「ジェーンのデータシステム構築の方法論への道」

データガバナンスは、多くの人の目には基本的なタスクは、ハードワークに大変な仕事ですが、より多くのように多くの作業が無視できない、強固な基盤を打つ、上部構造がより安定になりますです。

次に、タイプIおよびダーティデータ処理方法を話し始めます。

ダーティデータの種類と処理方法

まず、私たちが直面することができるどのような問題を理解し、のは、ダーティデータの種類を見てみましょう。

1つの欠損データ:一部欠落しているレコードまたは一部の値(NULL)の欠如のレコード、または両方が欠落しています。多くの可能な理由、または人為的なシステムの可能性が存在するが原因があります。NULL値は、順番に解析の精度に影響を与えない、または分析には含まNULL値でない場合は、行わどちらかの値を入力します。前者は平均ゼロで埋めるために選択した論理的な分析を計算する必要があり、分析試料の量を、減少させ、乱数などの割合。あなたはいくつかのレコードが欠落している場合は、ビジネス・システムがあればレコードが、システムを通して再びインポート、そのようなレコード・ビジネス・システム、およびのみ手動メイクやあきらめが存在しない場合。

 

2データの反復:同じレコードの複数のは、このプロセスは、比較的優れている重複したレコードを削除するには、表示されます。しかし、このような記録の2人のメンバーとして恐れ不完全な反復の恐怖は、残りの値が同じで、困っている同じアドレスではないですが、また新しいプロパティ値が優先判断する時間を持って、何時間属性が存在しない起動できません唯一の人間の判断プロセス。

 

3データエラー:厳密には典拠レコードに従ってデータ。例えば、データが均一ではなく、一部のレコードは、いくつかのBJと呼ばれ、いくつかのと呼ばれる、北京と呼ばれる;例えば、誤ったフォーマットとして、日付フォーマットは、レコードの文字列となっている。このような外れ値は、明らかに価格帯が100未満であるが、なぜ、レコード価格= 200として、北京。されるデータは、一様ではなく、システムは何もできない、それは本当の「間違い」ではないため、システムはBJを知らないと、北京、エラーをフォーマットするためには、システムレベルから原因を見つける必要があり、外れ値を識別し、限られた範囲で除外することができるため同じこと、唯一の手動による介入は、マッチング関係が与えられ、定期的なクリーニングテーブルを行い、最初の列は元の値が、2番目の列は、元のテーブルにルールテーブルに関連付けられた値をクリーニングされ、どのように良い関係なく、クリーニング値で分析を行わないでいくつかの近似アルゴリズムによって自動的に可能に不均一なデータを検出します。

 

4データは利用できません:データが正しいですが、利用できません。このような「北京海淀中関村」と書かれたアドレスとして、エリアが「海淀は」と一緒に分割する必要がある「エリア」Shihaiのレベルを分析します。この場合、そのデータガバナンスを解決するために、ソースから最高。唯一のキーワードマッチングにより是正、必ずしも解決しません。

二、BIデータ要件

次に、我々は迂回の真ん中に、ダーティデータの上記のタイプと組み合わせたBIのデータ要件、見て、データガバナンスです。

1構造化:データは構造化されなければなりません。これは、データが、このようなマイクロブログなどのテキストの大部分、であるならば、それはBIとの定量的な分析を行うことはできませんが、そのような多くの場合、世論分析の言われるように、単語と意味解析技術を行い、ナンセンスかもしれません。正確に百パーセントとして計算のBIセマンティック分析、定量分析とは異なりますが、人間の言語の確率は常に変化し、人々自身が唯一の可能性としての精度を向上させることができ、さらには不可能システムの完全な理解を確実にするための場所ではありません。

 

規範2:十分に仕様データ。だから、漠然とした、単純に、それは、すべての汚れた洗濯にダーティデータの上記のタイプの問題を解決することを目的とする「クリーンデータ。」

 

3関連付けることができます:あなたは、二次元/指標は相関解析を行い、これらの2次元/指標は、テーブルの上に、または同じまたは関連分野に関連付けることができなければなりませんしたい場合は二つにテーブルを持つことができます。

データガバナンスの三原則

ダーティデータ処理方法の前で言えば、しかし、それらは法に対処するための唯一のその場しのぎの対策であり、長期的な作業を必要とすることは、この苦しみを行うには、時間と労力がかかります。基本的な規範からのダーティデータの問題を改善するには、まだジョブデータガバナンスを行う必要があります。

 

簡単に言えば、データガバナンスは、入力、出力仕様を制約することです。

1つの制約エントリ:あなたが仕事の制約を行うには、ユーザーが再生するためにあまりにも多くのスペースを与えないように、ユーザーの入力の値がどうなるか分かりません。ユーザーは、システムが「必要」に設定する必要があります記入;エントリの提出時に、システムがうまく、間違ったフォーマットにチェックするために、値が正常範囲内にない、固定オプションの値は、選挙のリストを持つユーザーを聞かせてください、手動で入力しないでください直接のエラー状況は、ユーザーが再入力できるようにする必要があります。できるだけ微粒化フィールドは限り上記のような設計上の入力フォームは、国家、地方、都市、地域、住所及びその他の詳細に複数のフィールドに分割するために設計されたアドレスは、分割後に避けると、また、データの重複の問題が生じ、同じデータテーブルを大量に生産するのではなく、統一しようとすることができ、データ入力データテーブルを保存しました。

 

2仕様出力:上司が「率リターンの」インデックスを使用して、別の人がレポートをやって参照するには、各レポートの値が同じではありませんが、上司の心が崩壊しなければなりません、私はMashui、全体のみ呪いを知りません。通常、統計的矛盾によって引き起こされる、計算誤差を除外します。統一されたセマンティックになるよう、意味辞書は、会社レベル(ないデータ・ディクショナリ・データベース)を作成します。ポスター上のインデックス名すべてのレポートは意味辞書、意味辞書とその統計的な意味の明確な定義に提出しなければなりません。異なる統計指標は異なる名前をによってしなければなりません。単語が意味辞書で発見された場合は、辞書の意味に新しい単語を登録するために適用するためのプロセスを取る必要があります。

第四に、データガバナンスの着陸

ETLツールは、処理、システムを使用する必要はありません汚れたセマンティックデータ・ディクショナリが必要です。これらのシステムはあまりにも複雑であるため、実際には、エクセルプラスシステムを持つ希少な国内の実装の成功事例は、良い結果を達成することができます。

プロモーション戦略、だけでなく、言うのは簡単に着陸について、上司が確定実装されている必要があり、その後、優先権が拡大、その後、部門のパイロットを誘致話すように言いました。どの部門部門はピットの同等を占め、最高のインデックスに名前を付けるために、独自の習慣を満たす言葉を押すことができるようになります一階、。部署のバックが前の基準を遵守する必要があり、名前が同じで異なる意味の指標は、別の単語の名前を見つける必要があります。それほど積極的ではないPaのMoren。

上記は、データガバナンス手法の洗練されたバージョンです。私たちは皆、これは汚い仕事であることを知っているが、私はまた後で手より苦いことを思い出したいです。新しいビジネスシステムの設計を行った後の経験により、我々は完全にデータガバナンスの仕様を考慮することができます。

おすすめ

転載: www.cnblogs.com/zwt20120701/p/11408834.html