大規模なデータのソース
1.人間の活動
2.コンピュータ
3.物理的な世界
二つの大きなデータ取得装置
1科学的データ
(1)大型ハドロンコライダー
(2)電波望遠鏡
(3)電子顕微鏡
2.ネットワークデータ
我々は、データ収集センターネットワークを使用することができます。
第三に、大規模なデータ収集方法
1.科学的データ
2.ネットワークデータ
クローラ(注意)
3.システムログ
(1)スクライブFacebookはFacebookのインサイドオープンログ収集システムで広く使用されています。以下に示すようにスクライブアーキテクチャは:
(2)Chukwa
Chukwaは、完全なソリューションとデータロギング、記憶、分析及び表示の大量に基づいて、データ収集のためのフレームワークを提供します。Chukwa構造下図のように:
第四に、大規模なデータ前処理
データクリーニング、データ統合、データ・プロトコルとデータ変換:1.現在4つの主要なデータの前処理があります。
2.データ処理のメインタスク
メインステップ(1)データ処理:データクリーニング、データ統合、データプロトコルおよびデータ変換。
(2)欠損値を充填することにより、データのクリーンアップルーチンを、滑らかでノイズの多いデータ、外れ値を識別したり、削除、およびする矛盾を解決する「データをクリーンアップします。」
データは、(3)複数のデータソースからのプロセスデータの統合は、一体化しました。
物体(4)のデータが得られた法律は、データセットの簡略化した表現です。次元削減と法令の法令を含むデータ値。
(5)正規化されたデータ変換を使用して、離散データマイニング概念階層等のデータが抽象化の複数の層上で実行することができるように。データ変換動作は、データマイニングプロセスの追加成功した前処理工程をガイドすることです。
3.データのクリーンアップは、
(1)欠損値
の一般的な考え方を持つ値の契約を欠落しているためには、背面にそれを置くしようとすることです、または単に捨てられました。一般的なアプローチは、次のとおりです、欠損値を埋めるグローバル変数を使用して欠損値の中心的メトリック塗りつぶしのプロパティを使用して、与えられたタプルの属性を使用して無視タプル埋め手動で欠損値が同じクラスに属するわけか、すべてのサンプルの中央値、最も可能性の高い値の欠落値を入力
(2)ノイズデータの
ノイズまたはランダム誤差が測定された変数の分散です。ノイズを除去する、データ「滑らかな」テクノロジーように:ビニング、回帰、外れ値分析
(3)データ・クレンジング・プロセス
データ方式が決定される洗浄、データ前処理洗浄工程を含む、検証洗浄方法、ツール、およびデータのクリーンアップアーカイブ。
データのクリーニング原則は、「ダーティデータは」世代と従来技術の手段および方法の使用形態は、アプリケーションの品質要件を満たすために、「汚い」データ変換を「ダーティデータ」をきれいにする原因を分析することによって得られたかにされましたデータ品質、データ・セットを向上させます。
データフォークとデータマイニング:データ分析には主に2つの方法があります。
第五に、データ統合
1.エンティティの認識
2.冗長性と相関分析
冗長性は、データ統合のもう一つの重要な問題です。いくつかの冗長性は、相関は、例えば、プロパティ値を検出してもよいし、相関係数が他のプロパティの属性として共分散の変化を評価するために使用することができるです。
3.データ衝突検出及び処理
の6つの離散データ変換及びデータ(キー)
のデータ変換の従来の方法
(1)センタリング変換。変換の中心軸は、翻訳処理方法です。
(2)貧正規化変換します。正規化変換は、データ行列から各変数の最大値および最小値を見つけることであり、その差が悪いと呼ばれています。
(3)変換を正規化。標準化は、無次元の変数の値を変換し、データ処理方法は、変換の正規化に類似して行います。
(4)対数変換。対数変換は、生データの数値変換の新しい値として、各生データの対数です。対数変換の使用:データの正規化の対数正規分布を征服;そうカーブフィッティングにおいて用いられるカーブを、矯正、正規化された分散を。
2.データの離散
データ離散目的:
(1)アルゴリズムが必要です。例えば、決定木、およびナイーブベイズ自身が直接、連続変数を使用することはできません
(2)モデルより安定した結果を作るために、離散的なデータに隠された欠陥を克服することができます。
(3)診断と説明との間の非直線関係に有利です。
データ離散化の原則:
(1)アイソメトリック
アイソメトリックが良く、より多くの段落は、元のデータを保持するために、データの元の分布を維持することができます。
(2)、周波数
などが均等に分散オーディオ処理にデータを置くが、各セクション内の観測値は、等しく分割不可能と同じです。
(3)個別の最適化
検査にリンクされている引数とターゲット変数にする必要があります。カットポイントは、変数が屈曲点に大きな変化をもたらす発生ターゲット。共通テストメトリックス情報ゲインは、ジニ指数またはWOEは(ターゲット変数は、2つの元の変数であることを必要とします)。
データ離散化法:
クラスタリング
ツリーの
相関分析(ChiMerge)
ゴシップビッグデータ
おすすめ
転載: www.cnblogs.com/aibabel/p/11444555.html
おすすめ
ランキング