目次
HDFS クラスターと YARN クラスターは論理的に分離され、物理的に結合されています
1.Hadoopとは
1.1. 狭義の Hadoop:
狭义上Hadoop指的是Apache软件基金会的一款开源软件
用java语言实现,开源
允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
1.2. 広い意味での Hadoop:
広義の Hadoop は、Hadoop を中心に構築されたビッグデータ エコシステムを指します。
分散型ファイル ストレージ システムとして、HDFS はエコシステムの底部でありコアです
YARN は、分散型の汎用クラスター リソース管理システムおよびタスク スケジューリング プラットフォームとして、さまざまなコンピューティング エンジンの動作をサポートし、Hadoop の状態を保証します。
MapReduce は、ビッグデータ エコシステムにおける第 1 世代の分散コンピューティング エンジンです. 独自に設計されたモデルの欠点により、最前線の企業はプログラミングとコンピューティングに MapReduce を直接使用することはほとんどなくなりましたが、多くのソフトウェアの最下層.データを処理するために MapReduce エンジンをまだ使用しています。
1.3. Hadoop コア コンポーネント:
HDFS (分散ファイル ストレージ システム): 大量のデータ ストレージを解決
YARN (クラスター リソース管理およびタスク スケジューリング フレームワーク): リソース タスク スケジューリングを解決します。
MapReduce (分散コンピューティング フレームワーク): 大規模なデータ コンピューティングの解決
#################################################### ####
2.Hadoopの特徴とメリット
強力な容量拡張
Hadoop は、便利で柔軟な方法で数千のノードに拡張できる利用可能なコンピューター クラスター間でデータを分散し、コンピューティング タスクを完了します。低コスト
Hadp では、通常の安価なマシンをデプロイしてクラスターを形成することでビッグ データを処理できるため、クラスターの全体的な機能に重点を置いてコストを非常に低く抑えることができます。
高効率
同時データを通じて、Hadoop はノード間でデータを動的に並行して移動できるため、速度が非常に高速になります。
信頼性
データの複数のコピーを自動的に維持し、タスクの失敗後にコンピューティング タスクを自動的に再展開できるため、
ユーザーは Hadoop のビット単位のストレージとデータ処理機能を信頼しています。
#################################################### ####
3. Hadoop アーキテクチャの変更点
Hadoop1.0:
HDFS (分散ファイル ストレージ)
MapReduce (リソース管理と分散データ処理)Hadoop2.0:
HDFS (分散ファイル ストレージ)
MapReduce (リソース管理と分散データ処理)
YARN (クラスター リソース管理、タスク スケジューリング)Hadoop3.0:
一般的な側面:
合理化されたカーネル、クラスパスの分離、シェル スクリプトのリファクタリングHadoop HDFS:
EC消去コード、マルチネームノードのサポートHadoop MapReduce:
タスクのローカリゼーションの最適化、メモリ パラメータの自動推論Hadoop YARN:
Timeline Service V2、キュー構成
#################################################### ####
4.Hadoop クラスター
Hadoop クラスターには、HDFS クラスターと YARN クラスターの 2 つのクラスターが含まれます。
2 つのクラスタは論理的に分離されていますが、通常は物理的に一緒になっています
両方のクラスタは標準のマスター/スレーブ アーキテクチャ クラスタですHDFS クラスター:
マスターの役割: NameNode
スレーブの役割: DataNode
マスターの役割と補助的な役割: SecondaryNameNodeYARN クラスター:
マスターの役割: ResourceManager
スレーブの役割: NodeManager
HDFS クラスターと YARN クラスターは論理的に分離され、物理的に結合されています
論理的な分離とは、HDFS クラスターと YARN クラスターが相互に依存しないことを意味し、一方を開始するために他方を開始する必要はなく、相互に影響を与えません。
ただし、物理レベルでは、2 つのクラスターのプロセスを 1 台のマシンにデプロイできます。
MapReduce はコンピューティング フレームワークであり、コード レベルのコンポーネントであり、クラスターのようなものはありません。