Hadoopの基礎知識

Hadoopのは、2つの部分から成ります:

1.Hadoop分散ファイルシステム(Hadoopの分散ファイルシステム)

HDFSは、高い耐障害性を有し、かつ低コストのハードウェア上に展開することができます。HDFSは、大規模なデータセットを持つアプリケーションに適しており、データの読み書きのための高スループットを提供します。HDFSは、それがマスターにのみ名前ノードを実行している、いつもの展開で、マスター/スレーブの構造であり、各スレーブにデータノードを実行します。
  HDFSは、既存のファイルシステムのいくつかは、操作が非常に似ていると、たとえば、あなたが作成および削除ファイルを、あるディレクトリから別のディレクトリにファイルを移動、名前の変更を行うことができ、従来の階層型ファイル編成構造をサポートする、などの操作。名前ノードによって制御されている全体の分散ファイルシステム(例えば、削除、作成したファイルやフォルダなど)のファイルシステム操作を管理する名前ノード。

2、MapReduceの実装

GoogleのMapReduceは、大量のデータを計算するためのプログラミングモデルで重要な技術です。大きなデータの計算のため、処理は通常並列計算です。少なくとも現時点では、多くの開発者のために、並列コンピューティングはまだ比較的遠いものです。MapReduceのは、並列計算のための単純化されたプログラミングモデルである、それはまた、並列アプリケーションを開発することができ、並列コンピューティングの開発者で多くの経験を持っていない人たちを可能にします。
  MapReduceの名は、2つのコア動作し、このモデルから派生:マップと減らします。言うまでもシンプルマップは、データの別のセットにデータの一対一のマッピングに設定され、そのマッピングルールは、例えば、関数で指定されている[1、2、3、4] 2によってマッピングされます[2、4、6、8]となります。低減、減少は、例えば、規則で指定された機能であり、データ削減の集合である[1、2、3、4]還元加算結果が10を得、そしてそれは正規直交であります結果は約24です。

おすすめ

転載: blog.csdn.net/kangshufu/article/details/92431861