01ビッグデータ

ビッグデータの概要

多くの作業を生成し、その情報を持って日々のデータトランザクションに比べてインターネット技術の現在の開発段階では、人間が生成されるデータの量が以前に爆発的に成長して。
前の伝統的なデータ技術を処理する資格がない、需要生み出された技術は、されて入って大量のデータを処理するために使用されるソフトウェアツールのセットが、これはビッグデータであり!
全体:ビッグデータは以下のとおりです。
1 、ビジネスデータの膨大な量がある
2 、企業は大量のデータマイニングの必要性持っている
3を、今の技術では、大規模なデータマイニングのためのソフトウェアツールのセットがあった、成熟しています

ビッグデータの特長

1 .volume(ロット):
  人間によって作成されたすべての印刷物のためのデータの量は200PBで、人類の歴史はおよそ5EB現在、オーダーの典型的なパーソナル・コンピュータ・TBハードディスク容量、およびいくつかの大企業の総数を言っていました。データの量は、EBの順に近いとなっています。
2 .Velocity(高速): これは、大規模なデータの最も重要な特徴では、従来のデータマイニングを区別する。報告書によると、「デジタル・ユニバースは、」IDCは2020年までに、グローバルデータ使用量が35.2ZBに到達することが予想されます。
このようなデータの膨大な量の顔には、データ処理効率が命です。
3 .Variety(多様性): 多様性のこのタイプはまた、データは構造化データと非構造化データに分割されることを可能にします。従来の簡単なストレージのデータベース/テキストベースのデータ構造に対して。ウェブログ、オーディオ、ビデオ、写真、など、より多くの非構造化データ、
位置情報など。データの機能を処理するデータのこれらの複数の種類が前方に高い要求を入れました。
4 .Valueの(低濃度値): データの合計量の濃度レベル値に反比例します。高速なデータ値「精製」は、現在の背景データの下に大きな問題となっているどのように解決すべき。

ストレージユニットの概要

ビット0/1 
バイト8ビット
KB 1024バイト
MB 1024キロバイト
GB 1024メガバイト
TB 1024ギガバイト
PB 1024TB 
EB 1024PB 
ZB 1024EB 
YB 1024ZB 
BB 1024YB 
NB 1024BB 
DB 1024NB

実際の生活の中で、アプリケーション固有のビッグデータ

電気供給者推薦システム:行動巨大なショッピング行動データを閲覧するに基づいて、計算アルゴリズムのモデルの多くは、ユーザーのための製品の推奨への電力供給業者のサイトページにお勧めの結論のすべての種類を描く


正確な広告プッシュシステムを:インターネットベースの洪水をユーザデータ、統計分析、利用者の肖像画(ユーザーがさまざまな属性のラベルを取得)し、広告主に正確な広告のために標的とすることができるすべての種類の
金融大規模なデータ
精度のマーケティング:顧客の支出の習慣に基づいて、地理的位置、推奨する時間を費やす
リスク管理と制御を:顧客の社会的行動の使用が記録、顧客の支出とキャッシュフローに基づいて信用格付けや金融支援を提供し、クレジットカード詐欺の実装
意思決定支援を:住宅ローン管理に覚ポリシーツリーの技術を使用して、産業信用リスクの実装上のデータ分析レポートの使用を制御
効率の向上は:金融業界弱点操作を理解するためのグローバルデータの使用は、ビッグデータ技術の使用は、速度処理内部データスピードアップするための
製品設計:技術の富の顧客が製品を推奨計算ビッグデータの使用を、満たす顧客に設計された顧客の行動データの使用 金融商品の需要

ビッグデータ会社体制

プラットフォームグループは、
構築するための環境のクラスタ化
クラスタ・モニタ・パフォーマンス・
プラットフォームのパフォーマンス、クラスタに最適化された

データウェアハウス・グループの
データクレンジングのためのETL 
Hiveのデータウェアハウスのモデリングやデータ解析、

データマイニンググループの
アルゴリズムエンジニア
推薦システムエンジニアの
ユーザーの肖像画のエンジニアが

開発グループ報告
JavaEEの開発エンジニアを

すべての作品

Luceneの    
Nutchの      
Hadoopの

Hadoopの

Hadoopの3つのコアコンポーネントがあります:
分散ファイルシステム:HDFSは、多くの分散ファイルストレージサーバに実装される
プログラミングフレームワークを分散コンピューティング:MapReduceは多くのマシンに実装並列コンピューティング、分散
YARNヘルプユーザー:分散型リソーススケジューリングインターネットをMapReduceのプログラムの多くをスケジュール、およびコンピューティング資源の合理的な配分

 

おすすめ

転載: www.cnblogs.com/zhaochengf/p/12128077.html