ビッグデータ基盤 - データ収集と前処理(鵬「ビッグデータ」放課後の運動の回答)

1.どのような方法ではビッグデータを使用して入手できますか?

  (1)自動収束(回収システムログ、ウェブクローラ)を介してネットワークデータの取得()などのトラフィックデータ、ユーザーの行動データ、またはインターネットサービスシステムのサーバ側によるなど、。

  (2)衛星、カメラ、センサ、およびそのようなリモートセンシングデータ、トラフィックデータなどの他のハードウェアデバイスを介して自動集約。

  このようなビジネス環境データとして収束、国勢調査データ等に仕上げ(3)。

2.一般的な大規模なデータ収集ツールは何?

   (1)アパッチChukwa、Hadoopの上に構築されたデータ収集システムのための大規模な分散システムは、HDFSは、ストレージとして使用しました。

  (2)水路、完全に機能する分散ログ収集、凝集および伝送システム。水路では、外部入力ソース(ソース)と呼ばれ、システムの出力は、(受信側)シンクと呼ばれ、ソース及び受信機のチャネル(チャネル)が連結されています。

  (3)Scribleは、オープンソースのログ収集システムをFacebookを利用しています。

  (4)カフカは、現在は人気のある分散システムをサブスクライブ・メッセージング、パブリッシュ、重合はまた、ロギングに使用することができます。高いスケーラビリティと耐障害性を持っていますが、また、高いスループットを持っていないだけ。速いのが特徴です、スケーラブルな分散、パーティションおよび複製さ。

何の3.説明は、Apacheカフカのデータ収集です。

   Apacheのカフカは、分散システムをサブスクライブ・メッセージング、パブリッシュの現在の人気で、効率的にリアルタイムのデータを大量に処理するように設計されて速いことを特徴とする、スケーラブルな分散、パーティションおよび複製さ。カフカは、Java陣営にいるものの、Scalaの言語ですが、それはJMS仕様に従っていません。

                                          

使用何がどのように多くのパーティション、これらのパーティションも4.Topic?

   トピックは、複数のパーティションを持つことができ、これらのパーティションは、カフカの能力を効率的に大量のデータを処理するように、並列演算処理ユニットとして使用することができます。

5.Kafkaモデルが持っている消費者団体の抽象的機能?

   キューイングとパブリッシュ・サブスクライブ:カフカはこの要約は、消費者団体、前記の2つのモードがあり、抽象的なだけで消費者に提供します。

データ前処理の原則6.説明。

   データの前処理(データの前処理)は、以前のデータマイニングを意味し、処理は、クリーンアップ、セットのシリーズを必要とし、研究所は最低限の規範と基準を必要な知識の習得を達成するために、生データマイニングアルゴリズムを変換します。データを前処理することにより、このようなデータ統合のために必要なデータを、データの整合性が不完全にすることができ、誤り訂正データは、冗長データを除去し、。データクリーニング、データ統合、データ変換を前処理データの一般的な方法。

7.洗浄方法どのようなデータ?

   (1)は、欠損値を埋めます。一般的な治療法:欠損値を埋めるために最も可能性の高い値を使用して、プロパティの欠損値の平均塗りつぶしで、欠損値のグローバル変数の塗りつぶしを使用して、類似したプロパティの値に平均サンプルを欠落している中塗りが欠損値で人工塗りつぶしをタプルを無視します。

  (2)ノイズの多いデータを平滑化します。方法:ビニング、回帰、クラスタリング。

  (3)データクリーニングプロセスは、偏差を検出することを含むとずれを補正します。

 

何を考慮することが重要8.データ統合の問題?

   

主要なデータ変換に関与している何9.?

 

一般的なツールと10のETL簡単に。

 

おすすめ

転載: www.cnblogs.com/lsm-boke/p/11953785.html