インタビューの質問: インジケーターの結果の精度を検証するにはどうすればよいですか?

質問

昨日のグループでは、より興味深いオープンな質問が提起されました。日常業務では、指標を作成した後、結果が正確であることをどのように確認しますか?

ここで大物の考えを共有すると同時に要約を作成します. 著者の能力とレベルは限られています. 間違いがあれば、私にいくつかのポインタを教えてください. 学生がより良いアイデアを持っている場合は、一緒にディスカッションに参加してください。

ビッグガイの答え

上記の大物たちの答えは、多くの学生の日常業務であると考えられており、何も問題はないと言えます。

要約する

ここでは、この問題をデータの一貫性を確保する問題と区別する必要があります. この記事では、データの精度の問題 (DQC カテゴリ) について説明します。

著者は、以前の大物たちの議論を組み合わせて、いくつかの情報について調査し、参考のためにいくつかの結論を出しています。
に次の部分に分かれています

認証方法

口径の調整、統一されたデータソース

データ開発を行った学生は、使用するデータソースの違いや容量の理解に一貫性がないために手直しを経験しているはずであり、このような状況の発生は、需要側の心の中で期待される結果から逸脱します。したがって、著者はここで、キャリブレーションの調整とデータソースの統合が正確な指標結果の前提条件であると考えています。そうでなければ、後続の検証方法がいくつ渡されても、配信を完了することはできません。

直接チェック

このような検証方法は、先代の上司が言っていた通りで、例えば、統計当日の新規利用者数などの単純な指標であれば、細かく直接比較することができます。この方法は、最も単純で最も粗雑でもあります。

参考比較

直接比較できない状況については、過去のデータなどと比較し、大きな変動がないか観察することで合理性を検証することができます。またはデータ統計エラー。もちろん、参照と比較の方法は、需要側の許容レベルに近づくことしかできず、正確さを完全に保証することはできません。

衝突検証

まず、照合関係の定義を紹介します。これは、帳簿上の関連数値と会計報告書との間の関係を指し、相互に照合および照合することができます。簡単な例を挙げると、会社がAさんに1,000の給料を送金すると、Aさんの収入は1,000となり、両者は互いに検証・検証できる、相互検証関係です。通常、この方法は、指標間に論理的または計算上の関係がある場合に使用できます。たとえば、B インデックス値 = A インデックス + C インデックス値。

ウォークスルーテスト

ウォークスルーテストとは、財務報告情報システムにおけるトランザクションの処理を追跡することを指し、ここでは、ビジネスロジック全体を実際のデータに接続し、各リンクがビジネスロジックに準拠しているかどうかを確認することを指します。通常、この方法はテスターに​​よって検証されます。これは、開発ロジックを検証するための最良の方法でもあります。

合理的な判断

合理的判断の方法は、開発学生がビジネスを深く理解していることを必要とし、これは上記で紹介した参照比較と似ています.ここでの合理性は、企業の現在のビジネス状況と組み合わせて評価および判断する必要があります.範囲。

上記の検証方法を簡単に紹介します. もちろん、結果の正確性は、通常、結果の null 率、無効な値、形式の種類、離散分布などの指標があるかどうかを確認することによって検証されます。統計データの正確な評価方法の一覧を作成しましたので、参考にしてください。

注: この図は、「Wang Huajin Yongjin. Evaluation of Statistical Data Accuracy: Method Classification and Applicability Analysis [J]. Statistical Research, 2009, 26(1): 32-39.」からのものです。

他の良い検証方法があれば、一緒に議論することを歓迎します.

安全上のご注意

データの正確性を確保したい場合は、データが間違っている可能性のあるリンクを知る必要があり、データが間違っている可能性があるリンクを知りたい場合は、データの流れがどのようになっているかを知る必要があります。データのライフサイクル全体には、生産、保管、クリーニング、処理、および外部サービスが含まれることは誰もが知っています。

最終結果の精度を確保したい場合は、各リンクの精度を確保する必要があります。ここに数学の問題があります。あるジョブが完了するまでに 100 のプロセスが必要であるとします。各プロセスの合格率が 99% に達した場合、100 のプロセスの後、製品の合計合格率は 36.6% になります。データの精度を確保するためには、さまざまな要因が絡み合っており、エラー率も非常に高いと考えられますが、精度を高めるにはさまざまな対策が必要です。

著者はここでデータ ウェアハウスを例に取ります. データ フローは 3 つの部分に抽象化されます: ウェアハウジング, ウェアハウス内処理, ウェアハウジング.
バックアップの遅延とその他の問題. 投稿のソースを確認するには、コア データの監査を構成する必要があります。

2. 倉庫内の洗浄・加工工程は、洗浄ルールを確認し、仕様書に従って行動する必要があり、統一型を統一し、データを記入すべき箇所を埋める必要があると同時に、また、スケジューリング サイクル、依存関係、監査、およびその他の構成にも注意を払う必要があります。

3. ラストワンマイルもデータの正しい使い方に注意し、参照テーブルの誤りや制約、関連付けミスを避けるために、データの使い方や適用シーンをデータ担当者に確認する必要があります。このOneDataのシステム構築は内容が盛りだくさんなので、また機会があれば共有したいと思います。

アップストリームのデータ ソースが統合され、ミッドストリームの処理構成が正しく、ダウンストリームが適切に使用された場合にのみ、最終的に信頼できる有用なデータの価値を得ることができます。

もちろん、成果物の最終的な通過率が 99% に達するように、各リンクが 99% を超える精度を達成できるようにする必要があることも前述しました。したがって、データエラーはそれほどひどいものではありません. 問題をタイムリーに検出できれば、円滑な通信を確保でき、データの影響範囲を縮小でき、損失を減らすことができます. この繰り返しのサイクルで、データの信頼性は高くなり、より高い。

おすすめ

転載: blog.csdn.net/qq_28680977/article/details/125035206