四つの大きなデータの特徴や特性4V
ボリューム:体重
品種:スタイルともっと
速度:スピード
無価値:低密度値
低密度値:
ゴーIOE:
I:IBMのミニコンピュータ
O:Oracleデータベース
E:EMCの共有ストレージデバイス
基本的な概念をHadoopの
Hadoopのは、ユーザーがコンピューティング、高速およびストレージのクラスタのパワーをフルに活用の基礎となる詳細を知らなくても、分散での分散アプリケーションを開発することを可能にする分散システムアーキテクチャです。
:定義では見つけることができ、それには2つの問題が解決し、大規模なデータストレージ、ビッグデータ分析を。HDFSとMapReduceの:Hadoopのの2つのコアがあります。
- HDFSは、読み取り後スケーラブル、フォールトトレラント、高性能な分散ファイルシステム、非同期レプリケーション、書き込みで、それは保存のために責任があります。
- MapReduceはマップ(MAP)を含む、コンピューティングフレームワークを分散し、HDFSを計算する責任(縮小)処理を、減らします。
Hadoopのが簡単にユーザを可能にし、分散コンピューティングプラットフォームを使用するフレームワークです。ユーザーが簡単にHadoopの開発・運用における大規模なデータ・アプリケーションを扱うことができます。主な利点は以下の通りです。
(1)高信頼性:Hadoopのバイビットメモリ容量と信頼に値するデータの処理。
(2)高いスケーラビリティ:Hadoopのに利用可能なコンピュータデータクラスタとの完全なコンピューティングタスクに配分され、これらのクラスタを容易乾燥ベースでノードの数に拡張することができます。
(3)効率:Hadoopの動的にノード間でデータを移動することができ、各ノードは、このように処理速度が非常に高速であり、動的なバランスを確保します。
(4)高いフォールト・トレランス:データのHadoopの複数のコピーを自動的に保存することができ、自動的にタスクの再分配を失敗することができます。
(5)低コスト:1機、商用データウェアハウスとQlikViewを、Yonghong Z-スイートおよびその他のデータマートと比較すると、Hadoopのは、プロジェクトのソフトウェアのコストは、したがって、大幅に削減されます、オープンソースです。
Linux上で実行されますが、理想的な生産プラットフォームですので、Javaで書かれたHadoopフレームワークでは、Hadoopの上のアプリケーションはまた、C ++などの他の言語で記述することができます。
フィット
-
大規模データ
-
ストリーミングデータ(書き込みの多くを読んで、1回)
-
コモディティ・ハードウェア(一般にハードウェア)
適していません
- 低遅延のデータアクセス
- 小さな多数のファイル
- 頻繁に変更されたファイル(基本的には、1を書くことです)
アーキテクチャのHadoop
HDFS:分散ファイル・ストレージ・
YARN:分散リソース管理
のMapReduce:分散コンピューティング
その他:使用糸リソース管理機能は、他のデータ処理を実現します
各内部ノードは、基本的なアーキテクチャのマスター・Wokerに基づいています