HadoopのHDFS、MapReduceのアーキテクチャでは

 

1.  のHadoop コンセプトと開発プロセス

Hadoopのはあるアパッチと、オープンソース団体のための分散コンピューティングオープンソース・フレームワークのJava コンピューティングを分散大量のデータから成るコンピュータクラスタの多数において達成言語のためのオープンソース・ソフトウェア・フレームワークを実現します。Hadoop コア設計のフレームワーク:HDFS MapReduceはHDFSはストレージ、達成のMapReduce 実装原理解析を。データのHadoopの処理の流れは、単に以下の図により理解することができる:データのHadoopは、大規模なデータセットの高性能処理するためのツールである結果後処理クラスタを、得られます。

Hadoopの実行:大規模分散ファイルシステムとコンピューティングプラットフォームのため。

 

2.  HDFS MapReduceのアーキテクチャ

HDFS Hadoopの分散ファイルシステム、hadooop 分散ファイルシステムを、低コストのマシン上での展開に適した非常にフォールトトレラントシステム、です。HDFSは、大規模なデータセットと、それらのアプリケーションのための高スループットのデータアクセスを提供します。

 

 

HDFSのアーキテクチャ:

マスタースレーブ構造:つのみマスターノード:名前ノード、スレーブノード、複数の、DataNodes

名前ノードの責任:ユーザー要求操作を受け、維持管理機関のディレクトリ、ファイルシステム、ファイルを管理し、ブロックし、関係ブロックデータノード間の関係を。

データノードの責任:ストレージ・ファイル、ファイルが分割されたブロックディスク上に格納され、データのセキュリティを確保するために、ファイルの複数のコピーが存在します。

 

 

MapReduce ファイルシステム:それは大規模なデータセットのためのプログラミング・モデル(より大きい1TB )並列計算。MapReduceは二つの部分に分かれています。地図(マップ)、及び削減(削減)。

当你向mapreduce框架提交一个计算作业,它会首先把计算作业分成若干个map任务,然后分配到不同的节点上去执行,每一个map任务处理输入数据中的一部分,当map任务完成后,它会生成一些中间文件,这些中间文件将会作为reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个map的数据汇总到一起并输出。

 

MapReduce的体系结构:

主从结构:主节点,只有一个:JobTracker;从节点,有很多个:Task Trackers

JobTracker负责:接收客户提交的计算任务;把计算任务分给Task Trackers执行;监控Task Tracker的执行情况;

Task Trackers负责:执行JobTracker分配的计算任务。

 

3. Hadoop的特点和集群特点

Hadoop集群的物理分布:

 

 

单节点物理结构:

 

 

Hadoop的特点:

1、扩容能力:能可靠地存储和处理千兆字节数据

2、成本低:可以通过普通机器组成的服务器群来分发以及处理数据。

3、高效率:通过分发数据,hadoop可以在数据所在的节点上并行地处理它们,这使得处理非常的快速。

4、可靠性:hadoop能自动维护数据的多份副本,并且在任务失败后能自动地重新部署计算任务。

 

 

おすすめ

転載: www.cnblogs.com/wendyw/p/11307515.html