大規模なデータ収集のデータサービス事業

統合されたデータ収集プロセスは、書式設定、導入することを含みます。

まず、データ収集プロセスは、異なるソースからのデータを統合することができます。その上のストレージ、収集方法、インターフェイスモード、取得サイクルとを検討するために、データ統合アーキテクチャ。

メモリアーキテクチャでは、データは、データソース側で(ステージング領域)一時領域を設けて考えることができる、ステージング領域はまた、プラットフォームの取得側で考慮されてもよいです。適度なサイズとデータのオーバーフローを防ぐために速度をデータ蓄積量の一時領域にデータを設定します。

アクセスモードでは、アプリケーションは、異なるアクセス方法を必要とするかもしれません。取得は、高タイムクリティカルなアプリケーションのための2つのタイプ、少量のデータの単一バッチの取得および収集を含む単一の実施形態を用いて収集することができるデータがデータウェアハウスに同期された後、すぐに形成されてもよいです。監査目的のためにそのような操作ログは、リアルタイムデータウェアハウスに同期したときに発生する操作ログの後、単一の方法によって回収されます。複数のファイルと比較的低いリアルタイム要件データの場合、ファイルの数は、特定のサイズまたは特定の期間、またはデータウェアハウスにプッシュ一括取得を待つことができます。

インターフェイスモードでは、バッチを取得したデータは、FTPモードは、単一のデータ収集のために、と考えることができ、WebサービスのAPIへのインターフェイスまたはを使用することができます。

取得サイクルの観点から、一般的に短い取得サイクル、高いリアルタイムデータ、結果のデータをよりタイムリーな分析で。企業は、要件を満たすことができ、一時的なデータ保存領域を考慮すべきアプリケーションのニーズに応じて、異なる取得サイクルを設定することができます。

インポートデータの面では、データサイズが3種類に導入しました。

最初のデータ定義は、大容量ファイルのインポートモードを使用することを検討して、データソースの整合性を保証することができ、インデックス、およびパーティションを含んなど、シーンにインポートするデータとデータ定義の大量です。

インポート処理中に発生したエラーが表示され、正しい、インポートされたデータの品質を確保できるように、第2は、簡単な構造で、インポートファイルのデータソースで、大規模なデータは、バッチファイルを経由してインポートすることができます。

このような特定の符号表と構成ファイルのような単一のファイルのデータの最後の少量、比較的単純かつ柔軟であるツールを導入することによって、データパケットによってインポートすることができます。

データ作業のデータ収集フェーズの正規化データ分析は統一規格に基づいていなければならないので、非常に重要であり、特定のデータ上のデータソースの様々な形式と内容の違いがあることが多いです。たとえば、データソースの日付書式で「年 - 月 - 日」ストレージの形で、とBのデータ・ソース間「月 - 日 - 年には」統一フォーマットでこれらの2つのデータソースの必要性故に、メモリを形成します。

そのようなAのデータソースとして異なるフィールドに格納されたデータの種類によっては、年齢フィールドは、文字列形式で格納され、整数形式のソースに格納されているBデータは、2つのフィールドは、データ型に統一する必要があります。同様に、異なるデータソースに格納されたデータの内容は同じではないが、式は同じことです。たとえば、データ・ソース「性別」は「M」と「F」は「男性」および「女性」、及びBデータソース「性別」の略であり、「1」は「男性」を表し、「0」であります「女性」の略で、2つのデータソースの意味での「性別」統一を達成するために必要です。

異なるデータソースの理由は、共通番号計画に従わない他のシステム又は異なる情報とアプリケーションプロバイダにシステムを設計する際に考慮されていない同一の情報データが異なります。

おすすめ

転載: blog.51cto.com/14640779/2458464