Hadoopのシリーズ(基本概念)

四つの大きなデータの特徴や特性4V

ボリューム:体重

品種:スタイルともっと

速度:スピード

無価値:低密度値

低密度値:

ゴーIOE:

I:IBMのミニコンピュータ

O:Oracleデータベース

E:EMCの共有ストレージデバイス

ここに画像を挿入説明

基本的な概念をHadoopの

Hadoopのは、ユーザーがコンピューティング、高速およびストレージのクラスタのパワーをフルに活用の基礎となる詳細を知らなくても、分散での分散アプリケーションを開発することを可能にする分散システムアーキテクチャです。

:定義では見つけることができ、それには2つの問題が解決し、大規模なデータストレージ、ビッグデータ分析をHDFSとMapReduceの:Hadoopのの2つのコアがあります。

  • HDFSは、読み取り後スケーラブル、フォールトトレラント、高性能な分散ファイルシステム、非同期レプリケーション、書き込みで、それは保存のために責任があります。
  • MapReduceはマップ(MAP)を含む、コンピューティングフレームワークを分散し、HDFSを計算する責任(縮小)処理を、減らします。

Hadoopのが簡単にユーザを可能にし、分散コンピューティングプラットフォームを使用するフレームワークです。ユーザーが簡単にHadoopの開発・運用における大規模なデータ・アプリケーションを扱うことができます。主な利点は以下の通りです。

(1)高信頼性:Hadoopのバイビットメモリ容量と信頼に値するデータの処理。

(2)高いスケーラビリティ:Hadoopのに利用可能なコンピュータデータクラスタとの完全なコンピューティングタスクに配分され、これらのクラスタを容易乾燥ベースでノードの数に拡張することができます。

(3)効率:Hadoopの動的にノード間でデータを移動することができ、各ノードは、このように処理速度が非常に高速であり、動的なバランスを確保します。

(4)高いフォールト・トレランス:データのHadoopの複数のコピーを自動的に保存することができ、自動的にタスクの再分配を失敗することができます。

(5)低コスト:1機、商用データウェアハウスとQlikViewを、Yonghong Z-スイートおよびその他のデータマートと比較すると、Hadoopのは、プロジェクトのソフトウェアのコストは、したがって、大幅に削減されます、オープンソースです。

Linux上で実行されますが、理想的な生産プラットフォームですので、Javaで書かれたHadoopフレームワークでは、Hadoopの上のアプリケーションはまた、C ++などの他の言語で記述することができます。
フィット

  • 大規模データ

  • ストリーミングデータ(書き込みの多くを読んで、1回)

  • コモディティ・ハードウェア(一般にハードウェア)

適していません

  • 低遅延のデータアクセス
  • 小さな多数のファイル
  • 頻繁に変更されたファイル(基本的には、1を書くことです)

アーキテクチャのHadoop
ここに画像を挿入説明
HDFS:分散ファイル・ストレージ・
YARN:分散リソース管理
のMapReduce:分散コンピューティング
その他:使用糸リソース管理機能は、他のデータ処理を実現します

各内部ノードは、基本的なアーキテクチャのマスター・Wokerに基づいています

公開された44元の記事 ウォンの賞賛0 ビュー872

おすすめ

転載: blog.csdn.net/heartless_killer/article/details/100672482