セクションI:データ
まず、概念
数値データは、すなわち私たちの観察、実験や計算結果によって、あります。デジタル、絵、 ビデオ .......
第二に、分類
1、サブ構造に応じて
構造化データ:データmysqlのテーブルには、テーブル、厳密な2次元テーブルのデータをエクセル。各行は、同じ列、各行に対応する列の同じタイプを有します。
非構造化データ:データなし構造、ビデオ、画像、音声 ....... バイナリストレージ。
半構造化データ:構造、厳密な2次元テーブル構造は存在しません。HTML、CSS、XML、JSON、分割ラベル構造。
図2に示すように、生成された時点
オフラインデータ:すでに存在するデータ、静的。
リアルタイムデータ:リアルタイムで生成されたデータ、ダイナミック。
リアルタイムデータの近く
セクションII:ビッグデータ
まず、概念
大規模かつ複雑なデータの概念は、従来のツールを扱うことができないことを設定します(ストア |コンピューティング)
第二に、データユニット
1バイト= 8ビット
1キロバイト= 1024バイト= 8192ビット
1メガバイト= 1024キロバイト= 1,048,576バイト(共通ユーザデータレベル)テキスト
1ギガバイト= 1024メガバイト= 1048576キロバイト
1 TB = 1024ギガバイト= 1048576メガバイト
1 PB = 1024 TB = 1048576ギガバイト(エンタープライズレベルのデータ)
1 EB = 1024 PB = 1,048,576 TB
1つのZB = 1024 EB = 1,048,576 PB(トータルグローバルデータレベル)
1 YB ZB = 1.024 EB = 1048576
1 BB = 1024 YB = 1,048,576 ZB
1 NB = 1024 BB = 1,048,576 YB
1 DB = 1024 NB = 1,048,576 BB
注意:データ事業の量を一般的に TBまたはPB
ビッグデータの第三に、特性
容量:データの量は、現在のデータを高速に生成され、複雑なデータタイプ(ビデオ)
バラエティ:構造、半構造化、非構造化
スピード:どこでもデータを生成する際に、インターネットは秘密ではありません
高価値:高全体的な価値、低単一のデータ値、低い値の密度
真実
値4つのビッグデータ
ユーザーの肖像:タグをプレイするユーザーに、ユーザーのすべての商業行動に応じました。
商用利用のユーザーのネットワーク活動、消費習慣、検索焦点は、関係図のラベルの文字を開発しています。精密マーケティングのために、千人の顔の何千も。
第五に、ビッグデータのコアコンセプト
1、クラスタ
タスク(ストレージ |コンピューティング)が完了するために一緒に複数のサーバー(ノード)を必要とし、グループがクラスタ複数のサーバと呼ばれます。クラスタ内の各サーバはノード(異なるネットワーク、異なる同じLANのIPアドレス)と呼ばれています。
図2に示すように、分散
( 1 )コンセプト
タスクは、このタスクの実装が配布され、複数のノードが完了している必要があり。
( 2 )分散メモリ
ファイルシステム分散:大きなファイルを1つのノード上に切断され、ファイルに格納される小さなファイルの少数の各々の最終大きなファイルを複数のノードに格納されています。
分散データベース:大きなテーブルは、小さなテーブルを複数に切断するには、複数のノードに格納されています。
( 3 )分散コンピューティング
大きなタスクを計算する、ノードは、この計算タスク分割を算出することができない、異なるノード上で実行されているそれぞれを算出します。
3、ロード・バランシング
クラスタに対応する各ノードに格納されるデータの量を占めます。
プロセス第六に、データ処理
1.はじめに
データ取得 ---- ----データ記憶データ(ETL)を洗浄--- ---データ演算結果データ記憶された視覚表示のWeb -----
図2に示すように、データ収集(データソース)
( 1)トラフィックデータ
独自のビジネスデータベース、あなたのサイトは、ログを生成します
( 2)爬虫類
インターネット業界の専門家の平均給与の分析、募集ウェブサイトのデータを登る:たとえば。抗爬虫類、爬虫類カウンター対策技術があります。
( 3)データ販売
図3に示すように、データ処理
(データ1)不足している分野であります
削除し、そのようなウェブブラウジングログデータとして:1)、最終的な結果には影響しません。
2)一部のデータと関連した金銭について:コンピューティングニーズ、精度要件の様々な補充。
3)正確なデータを必要とする:例えば、大規模な工業的データ、センサデータ、さらに経験値に応じ。
( 2)データは、機密
そのような脱感作治療の電話番号、ID番号など、敏感なフィールド(暗号化 MD5、UUIDを)。