ゼロベースの学生のための理想的なビッグデータの基本、

ゼロベースの学生のための理想的なビッグデータの基礎は、基礎にも基礎を固めで見ることができますがあります!

まず、ビッグデータとは何か

データサイズ、高速データ転送、データ型と4つの特徴の密度の値の低い品種の膨大な量と遠くのデータベースソフトウェアツールの伝統的なデータ収集機能を越えた買収、ストレージ、管理、分析では大規模な、の一種。大規模なデータを効率的公差経過時間内に大量のデータを処理するために特別な技術を必要とします。超並列処理(MPP)データベース、データマイニング、分散ファイルシステム、分散データベース、クラウド・コンピューティング・プラットフォーム、インターネットとスケーラブルなストレージシステムを含む大規模なデータのための適切な技術。

大規模データの第二に、基本的な特性

データの量(ボリューム):第1の特徴は、記憶及び計算は非常に大きい、コレクションを含む大量のデータです。
    タイプ品種(品種):第二の特徴は、タイプ及び多様性の源です。構造化、半構造化および非構造化データ、特定のネットワークのパフォーマンス、ログ、オーディオ、ビデオ、写真、位置情報などを含む、データのデータ処理能力の多くの種類が前方に高い要求を入れました。
    低密度の値(値):第三の特徴は、データ密度の比較的低い値、又はセントーサに波が、貴重です。インターネットの普及や物事のインターネット、どこでも情報知覚、情報の洪水が、低密度の値、およびどのようにマシンの値に強力なデータ・マイニング・アルゴリズムでビジネスロジックを組み合わせることで、ビッグデータの時代は、ほとんどの問題を解決するために必要とされています。
    高速エイジング(ベロシティ):第4の特徴データのより速い成長率は、処理速度が速い、タイムクリティカルな要件です。
    データは、(オンライン)オンラインです。データは常にオンラインで、従来のデータ最大の特徴ビッグデータとは異なる計算、いつでも呼び出すことができます。
無料情報やコースを受け取るにはクリック

第三に、ビッグデータのデータユニット

順序内のすべてのユニットは、所定:ビット、バイト、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。(2 ^ 10の吸気率)

ビッグデータの第四に、データ構造

構造化データ:データベースに格納されている、すなわち、ラインデータ、データは2次元テーブルの構造によって実現非構造化データの論理式であってもよい:非構造化データの構造が不規則又は不完全なデータであり、定義済みのデータ・モデルは存在しない、ではありませんデータを表現するために2次元の論理データベーステーブルを使用して簡単にできます。その上のオフィス文書、テキスト、画像、XML、HTML、各種報告書、画像や音声/映像情報を含むすべての形式。半構造化データ:構造が大幅単に彼に対応するテーブルを構築することができる変化しないため、不規則のデータ構造、データ構造を指します。以下のような:画像ファイル間の音声データ、HTML文書は、半構造化データに属しています。これは明確な区別は存在しない、一般的に自己記述データ構造と内容が一緒に混合されます。

第五に、大規模なデータの計算モード

バッチ・コンピューティング(MapReduceの、スパーク):大きなデータバッチのコンピューティング・モデルを完成させるのに最適では簡単に分割単純なデータ関係を有する大規模なデータのためのMapReduce、全ての第一のMapReduceの並列処理考え「分割統治」である。次に、多数の処理マップを記録するデータを複製し、2つの抽象操作に要約減らし、MapReduceのは最終的に、並列コンピューティングのための均一なフレームワークを提供し、並列コンピューティングシステムは、多くの詳細が大幅完了するフレーム層を算出する必要が関与これは、プログラマに並列プログラミングの負担を簡素化します。

フロー算出(スクライブ、水路、嵐、S4、SparkStreaming)が高流量であるデータの蓄積を回避するために、リアルタイムの計算モデル、アプリケーションによって生成された特定の時間ウィンドウ内の新しいデータの完全なリアルタイム演算処理を、計算され、そして失われました。

反復計算(HaLoop、iMapReduce、ツイスター、スパーク ) のHadoopのMapReduceの欠陥、産学の反復計算をサポートすることができないのHadoopのMapReduceを克服するためには、改善の研究の多くなっています。反復制御HaLoopのMapReduceジョブフレームの内側に実行、およびスケジューラ・ループを介して、同じ物理マシン上の入力データ、前の反復の敏感減らし出力と現在の反復地図を確保する反復間のデータ伝送のオーバーヘッドを低減します。
無料情報やコースを受け取るためにクリック

インタラクティブ・コンピューティング

図計算(プレゲル、PowerGrapg、GraphX)

計算メモリ(ドレメル、ハナ、Redisの

シックス・ビッグデータのワークフロー

1、収集及び前処理

データソースから収集されたデータは、融合、データ統合、データ統合、必要なデータは、後続の照会解析のために、新しいデータセットを生成するデータ処理の統一されたビューを提供すること

2、ストレージ管理

分散ファイルシステム

分散型データベース(NEWSQL、NOSQL)

図3に示すように、計算モード

バッチ、対話プロセスフロー計算、反復、図の計算、計算メモリを含みます

4、分析およびマイニング

5、可視化

七、CDHプロフィール

CDHは、最初に100%オープンソース、Apacheベースのプロトコルです。Apacheベース  のHadoopおよび関連projiect開発。あなたは、タイムリーな役割ベースのアクセス許可の制御をバッチ処理、対話型のSQLクエリとクエリを行うことができます。最も広く企業で使用されるのHadoopディストリビューション。

八、分散型アーキテクチャのCAPの作品

●一貫性(C):同時に同じ値であれば、分散システム内のすべてのデータをバックアップします。(すべてのノードに相当するデータの最新のコピーの同じコピーにアクセスする)、言いたいことが他の言葉で、任意の時間は、アプリケーションが同じデータにアクセスするために使用することができます。

●可用性(A):クラスタ内のノードのサブセットが失敗し、クラスタは、全体的なクライアントが読めば対応し、要求を書くことができます。(更新データは、高可用性を含みます)、それは他の言葉で言うことです、いつでも、任意のアプリケーションは、データを読み書きすることができます。

●フォールトトレランスパーティション(P):実用的な効果の面では、パーティションは通信時間の要件に対応します。システムデータの一貫性が制限時間内に到達することができない場合、それは状況がパーティションを発生し、それはCと現在の間で選択するように動作しなければならないことを意味し、言い換えれば、システムは、ネットワークパーティションのリニアなスケーラビリティと拡張渡って使用することができます。

おすすめ

転載: blog.csdn.net/kangshufu/article/details/92703893