データ処理フローの概要

データ処理はデータプロダクトマネージャーの最も重要な部分です。この部分は、最終的なレポートの表示、分析レポート、およびデータ駆動と比較して、多くの場合時間がかかり、価値が低くなりますが、全体を要します。同じ機能のデータ分析の結果は正反対であり、理由をたどるとデータ処理プロセスにエラーがあることがわかります。

 

この記事では、データ製品の観点からデータ収集後のデータフローのプロセスを検討し、少しテクノロジーですがデータ製品の出力に密接に関連するデータウェアハウスについて説明します。

1.データ処理

データプロダクトマネージャーの作業の大部分は、計り知れないデータを表示可能なレポートと最終的な分析レポートに変換することです。つまり、さまざまな異種データソースからのデータを要約し、最終的に表示します。レポート、ダッシュボード、動的データ分析クエリ、決定的分析レポートなど。

1.異種データソースとは何ですか?

  • サーバーとクライアントのユーザー動作ログ
  • ユーザーの履歴情報、定性的情報(性別、専門的なユーザープロファイルデータなど)、定量的情報(過去30日間のある程度の関心など)
  • 第三者が取得した情報(クローラーデータ、手動で照合したデータなど)

2.この情報のほとんどは、構造化データを生成するために二次処理とクリーニングが必要です

  • ダーティなデータのクリーニングと統合、たとえば遅延したデータは、発生した日付に従って要約されます。
  • ユーザーの基本データと動作データの基本テーブルなど、データの使いやすさを向上させる基本テーブルを生成します。
  • レポートと分析に直接適用できるユーザーと行動の構造化されたビジネスアプリケーションテーブルを生成します。

控えめな表現の2つのステップは、レポートの表示と分析に影響を与える重要なポイントであり、データプロダクトマネージャーが最も対処する必要がある場所でもあります。

2.データウェアハウス

データ処理プロセスはあいまいな場合が多いですが、「異種データソース->構造化データテーブル->レポート/分析レポート」のプロセスでは、一般的なハイブ、スパークなどの一般的なさまざまなデータベーステーブルがデータウェアハウスのエンティティです、Oracleなど データプロダクトマネージャーの毎日のデータ処理で注意が必要なデータウェアハウスの知識ポイントは何ですか?

1.データウェアハウスの階層化

なぜレイヤーしたいのですか?

  1. より明確な管理および追跡データ(クリーンなデータ構造、明確な血液関係):データ処理のリンク全体を見つけるのに役立ちます。
  2. 共通の中間テーブルを確立することにより、冗長な計算を削減します。共通の中間テーブルは、下流のビジネスデータに直接貢献できるデータテーブルを効果的に提供し、毎回元のデータからビジネスデータテーブルを作成することを回避できます。
  3. 明確なデータウェアハウスの階層化は、データ処理プロセスを分解するのに役立ちます。複雑なデータ->ビジネスアプリケーションを複数のステップに分解し、各レイヤーは単一のステップのみを処理します。

データの階層化とは何ですか?各レイヤーで何に注意すべきですか?

オペレーショナルデータストア(ODS、オペレーショナルデータストア):このレベルのデータは、データソースの元の外観に最も近いものです(コンテンツと粒度は元のデータと同じです)。通常、データソースはETLを通過した直後に保存されます。元のデータからODSレイヤーまで、元のデータを破壊して不要な調査コストを発生させないために、複雑なデータクリーニングを実行することはお勧めしません。

それだけをお勧めします

  • jsonによって記録されたログを各フィールドにマッピングします。
  • 不正データのクリーニング;
  • データトランスコーディング:コードを実際の意味を持つ値にマッピング
  • データの標準化。たとえば、すべての日付をYYYY-MM-DD形式にフォーマットします。
  • 異常な値の修復、たとえばビデオプレイリスト:(ユーザーID、ビデオID、放送局、再生時間などを含む)。

テーブルがODSレイヤーに分割されている場合、元のデータの意味のあるフィールドがクリーンアップされているかどうかを確認する必要があります。

詳細なデータレイヤー(DWD、データウェアハウスの詳細): ODSレイヤー(ビデオを再生しているユーザーなどのログレベルのテーブル)で、ビジネスレベルのデータクリーニングと正規化操作を実行します。

テーブルがDWD レイヤーに分割されている場合、ビジネスレベルで詳細データを明確かつ明確に記録していますか?

データウェアハウスの概要(DWS、データウェアハウスの概要):ビジネス要件に従って、ODS / DWDレイヤーのデータが要約されます(ユーザーのポートレート情報を含む再生ビデオなど)。

DWSレイヤーのテーブルの場合、ビジネス方向の統計要件に効果的かつ便利に対応できますか?

アプリケーションデータレイヤー(ADS、アプリケーションデータストア):さまざまなタイプのユーザーのビデオ再生統計など、ビジネスで実行する必要がある統計データの結果。

ADSレイヤーテーブルの場合、ビジネスに必要な統計データを取得できますか?

ディメンションテーブル(DIM):ユーザー属性table-gender、ageなどの基本情報を格納します。

DIMレイヤーのテーブルの場合、その後の分析または統計に必要なさまざまなディメンションを完全に記録しますか?

レイヤーに固定されるだけでなく、一時テーブル(TEM)もあります。

Alibaba / Huaweiのデータウェアハウスデータ分類:オペレーションデータレイヤー(ODS)、詳細データレイヤー(DWD)、サマリーデータレイヤー(DWS)およびアプリケーションデータレイヤー(ADS)、ディメンションテーブル(DIM);オペレーションデータレイヤー、詳細データレイヤーサマリーデータレイヤーはパブリックデータレイヤーです。

また、表については、学生がこの表をたどる役割を十分に検討する必要がありますが、表は使いやすいですか。コンテンツは冗長ですか?安全ですか?

  • ビジネスラインの学生は、いくつかの単純なSQLステートメントを通じてデータ結果を取得できますか?
  • 統計は単一のテーブルから取得できますか、それとも複数のテーブルを取得する必要がありますか?
  • 1つのテーブルの内容は冗長ですか?クエリの効率に影響しますか?
  • 複数テーブルの関連付けがある場合、ビジネスの理解に落とし穴がありますか?たとえば、複数テーブル間のフィールドは、1対1、1対多、または多対多などですか?
  • テーブルには、金額などの機密フィールドが含まれていますか?ユーザーグループには、この情報を取得するための十分な権限がありますか?

2.メタデータ管理

メタデータとアプリケーションもデータウェアハウスの重要な部分です。メタデータとアプリケーションは、データに関するデータ(データに関するデータ)とデータを説明する属性情報であり、関心のあるデータを非常に便利に見つけるのに役立ちます。

メタデータはどのような情報を記録しますか?

  • データのテーブル構造:フィールド情報、パーティション情報、インデックス情報など。
  • データの使用と権限:スペースストレージ、読み取り/書き込みレコード、変更レコード、権限の帰属、監査レコード、その他の情報。
  • データの血液関係情報:血液関係情報は、単にデータの上流と下流の関係です。データはどこから来たのですか?血液の関係を通じて、これらのデータを生成するタスク間の依存関係を理解し​​、スケジューリングシステムのスケジューリングを支援したり、失敗または誤ったタスクが影響する可能性のあるダウンストリームデータを決定したりするために使用できます。また、データのトラブルシューティング中に問題を特定するのにも役立ちます。
  • データビジネス属性情報:このテーブルのビジネス目的、各フィールドの特定の統計的口径、ビジネスの説明、変更履歴の履歴、変更理由などを記録します。
    データのこの部分は主に手動で入力されますが、データを使用するプロセスの利便性を大幅に向上させることができます。

3.オフラインデータウェアハウスとリアルタイムデータウェアハウス

さらに、リアルタイムデータによれば、データウェアハウスはオフラインデータウェアハウスとリアルタイムデータウェアハウスに分割できます。

  • オフラインデータウェアハウスは、主にt-1より上のデータを記録し、主に日、週、月のデータを計算します。
  • リアルタイムデータウェアハウスは、リアルタイムデータの表示、分析、およびアルゴリズムに対する人々の要求とと​​もに出現します。

4.まとめ

データ処理プロセスは、データプロダクトマネージャーの出力レポートと分析レポートの中で最も時間がかかる部分です。データウェアハウスの概念と要点を理解することで、データを明確かつ効果的に処理し、作業効率を向上させ、より多くの時間を費やすことができます。ビジネスの洞察のために。

元の記事を15件公開 賞賛3件 10,000回以上の閲覧

おすすめ

転載: blog.csdn.net/edward_2017/article/details/98207648